试论医学期刊主题词标引——复标1988年《中华医学杂志》全卷关键词的启示
作者:王膺权
单位:(江西医学院学报编辑部 330006)
关键词:
中华医学杂志900727
编者按:医学期刊对论著文章刊出关键词进行主题标引是近年来的新事物。怎样做好这项工作已成为当前期刊编者、作者和读者共同面临的新课题。本刊自1985年开始这项工作以来,遇到了不少的问题。为了检查和改进工作,我们特请中国高校学报英文文摘数据库(CUJA)委员会副主任委员、江西医学院学报编委会王膺权副主编复审了1988年《中华医学杂志》全卷关键词。这篇文章是王膺权副主编复审后写成的。今刊出供研讨。对王膺权副主编的热情支持和帮助,谨此致谢。
笔者应邀审读复标1988年《中华医学杂志》(第68卷)全卷关键词,得到不少启示。
, 百拇医药
《中华医学杂志》的关键词标引采用美国国立医学图书馆编制的《医学主题词注释字顺表》(Medical Subject Headings-Annotated Alphabetic List, Me SHALL),它是《医学主题词表》(MeSH)的扩充版。《中华医学杂志》沿用了“关键词”为标目词,实则为主题词标引,且只用主题词而未用副主题词,规定每篇文章一般标引3~5个主题词。笔者复标亦遵循这些规定,但标词数量是按1981年在温哥华召开的国际生物医学期刊编辑委员会会议上的建议,选2~10个关键词或短语(中华医学杂志 1988;68:414~418)。
审读《中华医学杂志》1988年全卷135篇文章,原标引主题词437个,平均每篇标引3个词略多;复标主题词961个,增加524个主题词,增加55%,平均每篇标引7个词略多。此数值差异客观上在于笔者选词数标准比《中华医学杂志》多一倍,但更主要在于标引质量方面。
标引有没有质量标准?一般公认的是标引质量在于揭示文章的本质,其中重要的是选准揭示文章主题内容的最主要的词,笔者习惯称之为“首标词”。以首标词为主线选择若干主题词全面揭示文章的本质,这属于定性标准。有没有定量标准?由于文章内容千差万别,定出一个准确的选词数量标准是困难的。《MeSH》规定有“浅标”、“深标”之分,前者用于版本标引,后者用于机检标引。上述国际会议建议标引2~10个主题词属“浅标”范围,可视为定量标准,它是集情报检索和文献标引工作的实践经验而提出的。笔者认为选准一个首标词,在上述规定数量范围内用尽可能少的主题词揭示出文章的本质,应视为达到了标引质量。
, 百拇医药
纵观第68卷《中华医学杂志》12期中各期之间标引质量很不平衡,有的期只有1篇首标词未选准;有的期多达7~8篇首标词未选准。问题是多方面的。
1. 逻辑思维:以“定量检测血清游离E受体及其临床意义”[1988;68(1):15]一文为例,原标引“受体,免疫”、“T淋巴细胞”、“免疫,细胞”三个主题词;复标为“受体、抗原,T-细胞”一个主题词,仅用这一个词就概括了原标引三个词。很明显这个首标词仅表达了最主要的概念,但对于文章中定量检测技术、E受体和临床意义等内容标引均未能体现。这是标引者的逻辑思维欠完善所致。
笔者认为凡科研论文均有提出问题、解决问题的方法和所要达到的目的三个部分,比拟为头、体、尾三个部分,在标引时必须顺序考虑三部分的完整性。这种逻辑思维方法姑称之为“文章结构分析三分法”。上述论文的原标引只标出了文章“头”部;应增标“免疫酶技术”、“免疫测定”、“玫瑰花结形成”三个主题词以体现文章“体”部;增标“血清诊断”主题词以体现文章“尾”部。坚持“文章结构分析三分法”一般可防止漏标。分析理出文章的“头”部是确定无疑的,多数文章分析理出“体”和“尾”部也是能做到的。但少数文章如科研阶段性成果论文或某些理论性探讨文章,可能体与尾混淆在一起不能截然分开,在标引中能体现其内容就可以了。
, 百拇医药
2. 概念分析:主题词标引必先分析主题,分析主题必须从概念入手,只有主题概念分析清楚了,主题词才能选的准。譬如“类核沉降技术检测DNA修复能力”[1988;68(3):128]一文,主题概念分析不深入,原标引“脱氧核糖核酸修复”、“辐射损伤”、“离心法,密度梯度”三个主题词,后两个主题词未能完全准确表明有关概念。
笔者在标引实践中习惯于把概念分为“主概念”、“分组概念”、“分概念”三个层次,姑称之为“主题概念分析三层法”。以上文为例,显然DNA的修复能力为全文最主要的概念,以“主概念”引导标引出首标词“脱氧核糖核酸修复”,无疑原标引是正确的。“类核沉降技术”这个词《MeSH》中未收录,原标引“离心法,密度梯度”一词,仅表明了“沉降技术”,是用“分概念”引导标引的;需增标“淋巴细胞”、“细胞核”两个主题词,用以体现“类核的、”的内容。从“分组概念”出发,将以上三个以“分概念”引导标引的主题词组合在一起则体现了“类核沉降技术”这一完整概念。同理,以“分组概念”分析“监测”的特定内涵,再以“分概念”引导逐个增标“紫外线”、“辐射效应”、“光谱测定法,荧光”三个主题词,则准确体现了监测的内容。原标引“辐射损伤”一词不属于本文范畴内的概念,应删去。总之,凡文章的概念(含主概念)不能用一个主题词标引的,必须运用“分组概念”去分析引导标引。另从文章结构分析来看,本文属“体”、“尾”混淆的类型。
, 百拇医药
3. 理解与熟悉词表:经常会听到作者抱怨词表中找不到所需要的词,编者也常反映查不到所需要的词,这里提出了如何理解词表的问题。词表好比词典,所收载词汇永无赶不上科技新词发展的需要;词表还有另外一个特点,即自限性。以《MeSH》为例,用1万5千多个主题词与77个副主题词囊括生物医学所有领域的论文主题标引,其自限性是不言而喻的,因而查不到相应的主题词是常见现象。只有理解词表这些特征才能很好地学习词表,进而掌握词表;对词表理解的越充分,钻研词表才能越深入,从而有可能达到融汇贯通。在此基础上,当查不到所需主题词时,就会通过参照关系寻找其替代词,或上位词,或相关词进行标引;就会充分利用树状结构、索引以及标引注释等进行反复查核,力求把所需标引的概念用所选主题词予以表达。以“假单胞菌16Zu与脂蛋白及实验性动脉粥样硬化关系的研究”[1988;68(1):19]一文为例,原标引“假单胞菌属”、“脂蛋白类”、“动脉粥样硬化”三个主题词。文题中已指明动脉粥样硬化为“实验性”,标引者已标出“动脉粥样硬化”主题词,但未标出实验的内容,这不能认为是疏漏,很可能是找不到相应的主题词。笔者审读全文发现原文用相当大的篇幅论述了两个动物疾病模型,一个是大鼠实验性高脂血症;一个是家兔实验性动脉粥样硬化,从而增加标引“疾病模型,动物”、“血脂过多”、“大鼠”、“动脉粥样硬化”、“兔”五个主题词,以表达文中并列的两上实验性动物疾病模型的概念。此文原标引与复标对比,反映了熟悉词表的重要性。
, http://www.100md.com
由于词表收词落后于科技词汇的发展,还由于翻译的中文词汇与专业工作者用语有的不一致,标引者和专业工作者常抱怨词表陈旧,不按词表主题词标引,结果造成了“废词”。笔者认为,任何词表的任何主题词对微机检索来说都是“信号”;对标引者来说,不管主题词译名书写正确与否,都应把它看作是“信号”,坚持按词表进行标引。同时把意见反映组词表主管部门,在今后修订词表时予以考虑。
4. 专业广度与深度:标引者的专业广度与深度和标引水平息息相关。以“自发性高血压大鼠血浆内源性洋地黄样物质的测定”[1988;68(1):28]一文为例,原标引有“内分泌学”主题词。内分泌物质与内源性物质是两个不同的概念,内源性物质中可以包括内分泌物质,但内源性物质中大量的物质不是来自内分泌源的。这里把“内源性洋地黄样物质”标为“内分泌学”,显然把两者的概念混淆了。从这篇文章的标引可看出标引质量受制约于专业广度和深度,提示标引者应不断拓宽专业广度和加深专业深度。
5. 文题的导向性:一般说文题反映了文章的主题,因此,它对选择首标词有着向导性。但也有少数文题不能准备反映文章的主要内容,仅以文题导向标引就可能偏离文章主题,影响首标词选不准而导致字面标引。如“扫描电镜能谱一波谱分析技术在云锡矿工肺癌病因研究中的应用”[1988;68(5):254]一文,首标词为“显微镜检查,电子,扫描”。文题突出了扫描电镜技术的应用,但审读全文发现既未介绍此技术的特色,又未与其它技术作对比研究,只是常规使用而已。文章主要内容是肺癌的病因研究,而且既往研究已有定论,此次用扫描电镜技术回顾研究了既往的取材与标本,确认了肺内沉积着难溶性含砷矿尘,进一步为云锡矿工肺癌砷病因说提供了证据。分析清楚文章内容之后感到文题偏离了文章中心,本文题可调整为“用扫描电镜能谱-波谱分析技术回顾研究云锡矿工肺癌病因”,应选“肺肿瘤”为首标词,接标“尘肺”等主题词,原标引“显微镜检查,电子、扫描”一词向后推移,方能更好地揭示文章本质。
仅以此文献组编者、作者、读者、文献工作者作为引玉之砖。
(1989年4月13日收稿 同年12月16日修回), 百拇医药
单位:(江西医学院学报编辑部 330006)
关键词:
中华医学杂志900727
编者按:医学期刊对论著文章刊出关键词进行主题标引是近年来的新事物。怎样做好这项工作已成为当前期刊编者、作者和读者共同面临的新课题。本刊自1985年开始这项工作以来,遇到了不少的问题。为了检查和改进工作,我们特请中国高校学报英文文摘数据库(CUJA)委员会副主任委员、江西医学院学报编委会王膺权副主编复审了1988年《中华医学杂志》全卷关键词。这篇文章是王膺权副主编复审后写成的。今刊出供研讨。对王膺权副主编的热情支持和帮助,谨此致谢。
笔者应邀审读复标1988年《中华医学杂志》(第68卷)全卷关键词,得到不少启示。
, 百拇医药
《中华医学杂志》的关键词标引采用美国国立医学图书馆编制的《医学主题词注释字顺表》(Medical Subject Headings-Annotated Alphabetic List, Me SHALL),它是《医学主题词表》(MeSH)的扩充版。《中华医学杂志》沿用了“关键词”为标目词,实则为主题词标引,且只用主题词而未用副主题词,规定每篇文章一般标引3~5个主题词。笔者复标亦遵循这些规定,但标词数量是按1981年在温哥华召开的国际生物医学期刊编辑委员会会议上的建议,选2~10个关键词或短语(中华医学杂志 1988;68:414~418)。
审读《中华医学杂志》1988年全卷135篇文章,原标引主题词437个,平均每篇标引3个词略多;复标主题词961个,增加524个主题词,增加55%,平均每篇标引7个词略多。此数值差异客观上在于笔者选词数标准比《中华医学杂志》多一倍,但更主要在于标引质量方面。
标引有没有质量标准?一般公认的是标引质量在于揭示文章的本质,其中重要的是选准揭示文章主题内容的最主要的词,笔者习惯称之为“首标词”。以首标词为主线选择若干主题词全面揭示文章的本质,这属于定性标准。有没有定量标准?由于文章内容千差万别,定出一个准确的选词数量标准是困难的。《MeSH》规定有“浅标”、“深标”之分,前者用于版本标引,后者用于机检标引。上述国际会议建议标引2~10个主题词属“浅标”范围,可视为定量标准,它是集情报检索和文献标引工作的实践经验而提出的。笔者认为选准一个首标词,在上述规定数量范围内用尽可能少的主题词揭示出文章的本质,应视为达到了标引质量。
, 百拇医药
纵观第68卷《中华医学杂志》12期中各期之间标引质量很不平衡,有的期只有1篇首标词未选准;有的期多达7~8篇首标词未选准。问题是多方面的。
1. 逻辑思维:以“定量检测血清游离E受体及其临床意义”[1988;68(1):15]一文为例,原标引“受体,免疫”、“T淋巴细胞”、“免疫,细胞”三个主题词;复标为“受体、抗原,T-细胞”一个主题词,仅用这一个词就概括了原标引三个词。很明显这个首标词仅表达了最主要的概念,但对于文章中定量检测技术、E受体和临床意义等内容标引均未能体现。这是标引者的逻辑思维欠完善所致。
笔者认为凡科研论文均有提出问题、解决问题的方法和所要达到的目的三个部分,比拟为头、体、尾三个部分,在标引时必须顺序考虑三部分的完整性。这种逻辑思维方法姑称之为“文章结构分析三分法”。上述论文的原标引只标出了文章“头”部;应增标“免疫酶技术”、“免疫测定”、“玫瑰花结形成”三个主题词以体现文章“体”部;增标“血清诊断”主题词以体现文章“尾”部。坚持“文章结构分析三分法”一般可防止漏标。分析理出文章的“头”部是确定无疑的,多数文章分析理出“体”和“尾”部也是能做到的。但少数文章如科研阶段性成果论文或某些理论性探讨文章,可能体与尾混淆在一起不能截然分开,在标引中能体现其内容就可以了。
, 百拇医药
2. 概念分析:主题词标引必先分析主题,分析主题必须从概念入手,只有主题概念分析清楚了,主题词才能选的准。譬如“类核沉降技术检测DNA修复能力”[1988;68(3):128]一文,主题概念分析不深入,原标引“脱氧核糖核酸修复”、“辐射损伤”、“离心法,密度梯度”三个主题词,后两个主题词未能完全准确表明有关概念。
笔者在标引实践中习惯于把概念分为“主概念”、“分组概念”、“分概念”三个层次,姑称之为“主题概念分析三层法”。以上文为例,显然DNA的修复能力为全文最主要的概念,以“主概念”引导标引出首标词“脱氧核糖核酸修复”,无疑原标引是正确的。“类核沉降技术”这个词《MeSH》中未收录,原标引“离心法,密度梯度”一词,仅表明了“沉降技术”,是用“分概念”引导标引的;需增标“淋巴细胞”、“细胞核”两个主题词,用以体现“类核的、”的内容。从“分组概念”出发,将以上三个以“分概念”引导标引的主题词组合在一起则体现了“类核沉降技术”这一完整概念。同理,以“分组概念”分析“监测”的特定内涵,再以“分概念”引导逐个增标“紫外线”、“辐射效应”、“光谱测定法,荧光”三个主题词,则准确体现了监测的内容。原标引“辐射损伤”一词不属于本文范畴内的概念,应删去。总之,凡文章的概念(含主概念)不能用一个主题词标引的,必须运用“分组概念”去分析引导标引。另从文章结构分析来看,本文属“体”、“尾”混淆的类型。
, 百拇医药
3. 理解与熟悉词表:经常会听到作者抱怨词表中找不到所需要的词,编者也常反映查不到所需要的词,这里提出了如何理解词表的问题。词表好比词典,所收载词汇永无赶不上科技新词发展的需要;词表还有另外一个特点,即自限性。以《MeSH》为例,用1万5千多个主题词与77个副主题词囊括生物医学所有领域的论文主题标引,其自限性是不言而喻的,因而查不到相应的主题词是常见现象。只有理解词表这些特征才能很好地学习词表,进而掌握词表;对词表理解的越充分,钻研词表才能越深入,从而有可能达到融汇贯通。在此基础上,当查不到所需主题词时,就会通过参照关系寻找其替代词,或上位词,或相关词进行标引;就会充分利用树状结构、索引以及标引注释等进行反复查核,力求把所需标引的概念用所选主题词予以表达。以“假单胞菌16Zu与脂蛋白及实验性动脉粥样硬化关系的研究”[1988;68(1):19]一文为例,原标引“假单胞菌属”、“脂蛋白类”、“动脉粥样硬化”三个主题词。文题中已指明动脉粥样硬化为“实验性”,标引者已标出“动脉粥样硬化”主题词,但未标出实验的内容,这不能认为是疏漏,很可能是找不到相应的主题词。笔者审读全文发现原文用相当大的篇幅论述了两个动物疾病模型,一个是大鼠实验性高脂血症;一个是家兔实验性动脉粥样硬化,从而增加标引“疾病模型,动物”、“血脂过多”、“大鼠”、“动脉粥样硬化”、“兔”五个主题词,以表达文中并列的两上实验性动物疾病模型的概念。此文原标引与复标对比,反映了熟悉词表的重要性。
, http://www.100md.com
由于词表收词落后于科技词汇的发展,还由于翻译的中文词汇与专业工作者用语有的不一致,标引者和专业工作者常抱怨词表陈旧,不按词表主题词标引,结果造成了“废词”。笔者认为,任何词表的任何主题词对微机检索来说都是“信号”;对标引者来说,不管主题词译名书写正确与否,都应把它看作是“信号”,坚持按词表进行标引。同时把意见反映组词表主管部门,在今后修订词表时予以考虑。
4. 专业广度与深度:标引者的专业广度与深度和标引水平息息相关。以“自发性高血压大鼠血浆内源性洋地黄样物质的测定”[1988;68(1):28]一文为例,原标引有“内分泌学”主题词。内分泌物质与内源性物质是两个不同的概念,内源性物质中可以包括内分泌物质,但内源性物质中大量的物质不是来自内分泌源的。这里把“内源性洋地黄样物质”标为“内分泌学”,显然把两者的概念混淆了。从这篇文章的标引可看出标引质量受制约于专业广度和深度,提示标引者应不断拓宽专业广度和加深专业深度。
5. 文题的导向性:一般说文题反映了文章的主题,因此,它对选择首标词有着向导性。但也有少数文题不能准备反映文章的主要内容,仅以文题导向标引就可能偏离文章主题,影响首标词选不准而导致字面标引。如“扫描电镜能谱一波谱分析技术在云锡矿工肺癌病因研究中的应用”[1988;68(5):254]一文,首标词为“显微镜检查,电子,扫描”。文题突出了扫描电镜技术的应用,但审读全文发现既未介绍此技术的特色,又未与其它技术作对比研究,只是常规使用而已。文章主要内容是肺癌的病因研究,而且既往研究已有定论,此次用扫描电镜技术回顾研究了既往的取材与标本,确认了肺内沉积着难溶性含砷矿尘,进一步为云锡矿工肺癌砷病因说提供了证据。分析清楚文章内容之后感到文题偏离了文章中心,本文题可调整为“用扫描电镜能谱-波谱分析技术回顾研究云锡矿工肺癌病因”,应选“肺肿瘤”为首标词,接标“尘肺”等主题词,原标引“显微镜检查,电子、扫描”一词向后推移,方能更好地揭示文章本质。
仅以此文献组编者、作者、读者、文献工作者作为引玉之砖。
(1989年4月13日收稿 同年12月16日修回), 百拇医药