2.3.5 關(guān)鍵詞語言
關(guān)鍵詞是指在文獻的標(biāo)題、摘要或正文中出現(xiàn),對表達文獻主題內(nèi)容具有實質(zhì)意義、能作為檢索入口的、具有關(guān)鍵性描述作用的詞匯。關(guān)鍵詞既可以是敘詞,也可以是非敘詞。很多關(guān)鍵詞沒有被收進任何敘詞表,為非敘詞。用詞的自由性是關(guān)鍵詞與敘詞等人工語言詞語的最大區(qū)別之處。關(guān)鍵詞抽取的這種自由性大大方便了標(biāo)引工作,提高了標(biāo)引速度,降低了標(biāo)引成本,特別適宜于海量化文獻網(wǎng)絡(luò)環(huán)境中的信息處理,因而是當(dāng)前互聯(lián)網(wǎng)最主要的檢索語言。現(xiàn)代科學(xué)技術(shù)的飛速發(fā)展,也給文獻信息工作者帶來了巨大的挑戰(zhàn):首先是文獻信息數(shù)量劇增;其次是文獻類型多樣化;再次是文獻信息跨學(xué)科、交叉和滲透現(xiàn)象日益普遍;最后是新學(xué)科、新概念、新名詞、新技術(shù)、新產(chǎn)品日新月異。面對這些新情況,人工語言即使采用多種控制手段,也難以及時、準(zhǔn)確、直接、快速反映出具體的專指概念和組合概念。我們以《漢語主題詞表》為例,它未能及時地將“因特網(wǎng)”、“黑客”、“知識經(jīng)濟”、“數(shù)字圖書館”、“經(jīng)濟合同法”、“克隆技術(shù)”、“千年蟲”等數(shù)以千計的新名詞收入詞表中。再以美國《國會主題詞表》為例,盡管它一版再版,無論如何也趕不上時代發(fā)展對文獻信息處理的需要。而我國的《漢語主題詞表》由于修訂周期的滯后,更是遠遠地落在了時代的后面。敘詞標(biāo)引要求標(biāo)引人員具備一定的專業(yè)學(xué)科知識與熟練的標(biāo)引技能,以確保對文獻主題的準(zhǔn)確理解與標(biāo)引的一致性。但鑒于敘詞標(biāo)引的復(fù)雜性,標(biāo)引的速度往往較慢,在文獻信息海量化的網(wǎng)絡(luò)時代,敘詞語言難以適應(yīng)海量文獻信息的處理要求。目前互聯(lián)網(wǎng)多數(shù)網(wǎng)站采用關(guān)鍵詞語言。尤其是近些年開發(fā)的自動標(biāo)引和抽詞技術(shù),使得計算機自動處理文獻信息的優(yōu)勢遠遠超出人工信息處理的速度和能力。對于網(wǎng)絡(luò)用戶來說,利用關(guān)鍵詞語言比人工語言方便,關(guān)鍵詞語言易掌握,但檢索的準(zhǔn)確性較差。關(guān)鍵詞語言檢索到的內(nèi)容非常龐大,用戶只需使用其30%就足以了解最新信息,由此自然語言的天然優(yōu)勢在計算機檢索時能夠得以充分發(fā)揮。
關(guān)鍵詞的特性。作為一種自然語言,關(guān)鍵詞存在著名義性、同義性、模糊性、詞量大、較專指等特性,特別是同義詞與近義詞、上位詞與下位詞、全拼詞與縮略詞均可能同時被標(biāo)引,加上一直不編制關(guān)鍵詞表,因而缺乏必要的詞間聯(lián)系,普遍造成檢索效果欠佳,又難以擴檢和縮檢。因此,關(guān)鍵詞的標(biāo)引必須揚長避短,并適當(dāng)加以控制,才能在網(wǎng)絡(luò)時代中發(fā)揮其重要作用。關(guān)鍵詞有優(yōu)點,也有缺點,作為一種情報檢索語言,關(guān)鍵詞語言雖然屬非控語言,但適當(dāng)?shù)目刂七€是必要的。正如有的專家指出:不管今后計算機技術(shù)和自然語言系統(tǒng)如何發(fā)展,情報檢索的基本原理——對詞匯的控制,是永遠不會取消的,變化的只是詞匯控制的方式、方法和手段。
未加任何詞語控制的關(guān)鍵詞檢索系統(tǒng)只能是低水平的。一般說,詞匯控制的內(nèi)容很多,包括詞量、詞類、詞形、詞義、詞間關(guān)系、專指度等方面,關(guān)鍵詞語言控制具有其特點。
(1)關(guān)鍵詞可以為單字、單詞或復(fù)合詞,一般應(yīng)采用名詞,不用動詞、形容詞等詞類,如“決策性”一詞為形容詞,用來作為關(guān)鍵詞標(biāo)引就不妥。
(2)關(guān)鍵詞應(yīng)力求詞義明確,盡量避免產(chǎn)生歧義。如“藏”、“閱”的詞義不夠明確,應(yīng)標(biāo)引為“收藏”、“閱覽”。又如“考證”一詞,本身既有歷史研究上的“考證”,也有通過考試獲取某種資格證書的“考證”,是個兩義詞,后者應(yīng)明確為“資格證書考試”。
(3)關(guān)鍵詞力求專指。既要避免用上位關(guān)鍵詞標(biāo)引,如“注釋”一詞,其下包括“類目注釋”和“敘詞注釋”等詞,顯然不能只標(biāo)引為“注釋”;也要防止用交叉組配的辦法,把一個專指詞分解為兩個詞來標(biāo)引,如不要用“期刊外借”和“外借工作”來標(biāo)引“期刊外借工作”,不能要求用戶都用交叉組配來檢索。
(4)專有名詞應(yīng)直接標(biāo)引。一是通過加標(biāo)識的辦法,如對題名加題名號,以與通用詞語區(qū)別開來,以免造成關(guān)鍵詞的同名異義。如“情報科學(xué)”一詞,包括了《情報科學(xué)》刊名與情報科學(xué)學(xué)科名。二是禁止切分,如“中國標(biāo)準(zhǔn)書號”,不能改用“中國”和“標(biāo)準(zhǔn)書號”兩個詞來標(biāo)引。
(5)外文縮略詞和中文簡稱的標(biāo)引應(yīng)避免多義性。外文縮略詞往往是一詞多義,所以應(yīng)在縮略詞后用括號注該詞的中譯名。中文簡稱,除已約定俗成者外,應(yīng)盡量不用,這樣才能使標(biāo)引與檢索需求相匹配。
(6)關(guān)鍵詞字段不宜規(guī)定長度,若規(guī)定關(guān)鍵詞的最長限度為7個字,則會導(dǎo)致大量的關(guān)鍵詞詞不達意,或削足適履。若將“聯(lián)合國教科文組織”標(biāo)引為“聯(lián)合國”及“教科文組織”,這樣會提高檢索難度,多耗機時。