- 中法語言政策研究(第二輯)
- 李宇明
- 5469字
- 2020-08-27 15:02:28
中國的語言監(jiān)測研究
摘 要: 語言監(jiān)測是一項多學科交叉的語言工程。中國的語言監(jiān)測研究在政府的支持和指導下取得了一系列的研究成果。語言資源是語言監(jiān)測的基礎。通過語言監(jiān)測可以獲得語言使用和語言發(fā)展的規(guī)律,用以指導語言政策和語言規(guī)劃的制定。作為一項語言工程,語言監(jiān)測必須要有相關理論的指導,也必須要有語言信息處理技術的支撐。語言監(jiān)測的目標是為政府、社會以及學術界提供語言服務。
關鍵詞: 語言監(jiān)測;語料庫;語言數(shù)據(jù);語言服務
一、中國語言監(jiān)測的機構和資源
中國的語言監(jiān)測是在政府的支持和指導下開展工作的。2004年在教育部語言文字信息管理司的指導下,國家語言資源監(jiān)測與研究中心成立,教育部語信司分別與北京語言大學、中國傳媒大學、華中師范大學、廈門大學、中央民族大學共建了平面媒體中心、有聲媒體中心、網(wǎng)絡媒體中心、教育教材中心、少數(shù)民族語言中心。語言監(jiān)測對象涵蓋了最能代表大眾語感的大眾媒體和對民族語言發(fā)展影響最大的基礎教育,既包括國家通用語言,也包括少數(shù)民族語言。
語言監(jiān)測工作主要是在國家語言資源監(jiān)測語料庫基礎上展開。國家語言資源監(jiān)測語料庫包括三個子庫:通用語媒體語料庫、教育教材語料庫和少數(shù)民族語言語料庫。教育教材語料庫已搜集了1500萬字的教材語料;少數(shù)民族語料以不同語種每年2億字次的速度滾動建設;通用語媒體語料庫還分為平面媒體、有聲媒體、網(wǎng)絡媒體三個子庫,每年以10億字次的規(guī)模滾動建設。我們根據(jù)流通度來選擇那些具有典型性和代表性的不同媒體中的語料。
語言資源是語言監(jiān)測的基礎,是語言監(jiān)測的生命所在。正是在國家語言監(jiān)測語料庫基礎上,我們完成了一個又一個語言監(jiān)測項目,獲得了語言監(jiān)測的成果。
二、語言監(jiān)測的實踐與成果
在大規(guī)模語料庫的基礎上,我們做了一系列語言使用實時動態(tài)調(diào)查,獲得了很多寶貴的語言數(shù)據(jù),發(fā)現(xiàn)了部分語言使用的規(guī)律。
比如,我們開展了大規(guī)模的字詞調(diào)查。表1反映了從2005年到2013年9年的用字調(diào)查結果。注9
表1 2005—2013年度漢字對語料覆蓋情況比較表

盡管每年社會生活都發(fā)生很大的變化,但漢字使用表現(xiàn)出很強的規(guī)律性:每年大眾媒體上使用的漢字在1萬個左右;覆蓋語料80%的漢字在600個左右,覆蓋語料90%的在1000個以內(nèi),覆蓋語料99%的在2400個左右。這就給了我們常用漢字不同等級的數(shù)量標準。
表2是從2005年到2013年9年的用詞調(diào)查結果,用詞也表現(xiàn)出很強的規(guī)律性。
表2 2005—2013年度詞語對語料覆蓋情況比較表

表中顯示,每年大眾媒體上使用的詞語數(shù)量與語料規(guī)模成正相關,語料規(guī)模越大,所用詞語越多;10億字次規(guī)模的語料使用詞語220萬左右;覆蓋語料80%的詞語數(shù)量在4700左右,覆蓋語料90%的在13000左右,覆蓋語料95%的在35000左右。這個結果提供了漢語常用詞語不同等級的數(shù)量標準。從表1、表2可以看出,覆蓋率達到90%,漢語最常用的字詞數(shù)量可以概括為一個四字格——“千字萬詞”。
上面是漢語字、詞使用數(shù)量的規(guī)律。下面再從共用、獨用角度來看看不同年度字詞使用的變化。
表3描述了從2005年到2013年9年漢字的共用、獨用狀況。
表3 2005—2013年度漢字共用、獨用情況比較

可以看出,2013年除外,共用漢字在各年度漢字字種中都占65%以上(排除2005年語料規(guī)模不同的因素);而獨用漢字在各年字種中基本都不到5%。如果用一個字來概括說明各年度漢字的使用狀況,那就是“穩(wěn)”。
表4描述了從2005年到2013年9年詞語的共用、獨用狀況。
可以看出,跟漢字相比,情況發(fā)生了相當大的變化。各年共用詞除了2005年外均不到10%,而獨用詞占將近一半。如果也用一個字來概括說明各年度詞語的使用狀況,那就是“變”。
表4 2005—2013年度詞語共用、獨用情況比較

由此看,字是以穩(wěn)為主,穩(wěn)中有變,穩(wěn)是主流;詞是以變?yōu)橹鳎冎杏蟹€(wěn),變是主流。那么比詞更大的單位句子呢,顯然是變數(shù)更大,而比字更基本的單位音節(jié),要比字更穩(wěn)定。這也證明了一個規(guī)律:語言單位越小,其穩(wěn)固性越強,種數(shù)越少;語言單位越大,其穩(wěn)固性越差,種數(shù)越多。這就印證了喬姆斯基的語言觀:語言以有限的形式實現(xiàn)了無限的表達。最早提出這種認識的其實還不是喬姆斯基,早在一個多世紀以前,德國著名語言學家洪堡特就提出了相同的觀點。
或許有人會問:每年有200多萬詞,怎么會有那么多?都是一些什么樣的詞語呢?圖1是2010年218萬詞種的類別分布圖。

圖1 2010年218萬詞種類別分布圖
由圖1可以看出,每年出現(xiàn)最多的是人名,幾乎占全部詞語的三分之一,其次是機構名、地名、其他專名,以及時間、數(shù)字表達式等;而普通詞語,即語文詞,僅占10%。但這些詞語使用的頻率是不一樣的。圖2呈現(xiàn)了一個與此相反的狀態(tài),普通詞使用次數(shù)占91%,而人名、地名僅各占2%。如果我們把普通詞以外的詞語都歸結為“命名實體”,那么圖3和圖4顯示出“普通詞語”和“命名實體”在詞種分布和詞次分布上的巨大反差。占詞種10%的普通詞語覆蓋了語料的91%。這說明普通詞語的使用頻度要遠遠高于各種命名實體。這就是語言使用的一種實際狀態(tài)。
我們還調(diào)查了新媒體博客的語言使用狀況,并發(fā)現(xiàn)了一個很有意思的現(xiàn)象:不同性別的博客用戶在使用詞語上各有特點,下面是男性和女性使用最多的前10個名詞:
男性:社會、問題、國家、政府、學生、文化、政治、歷史、學校、大學
女性:女人、男人、時候、女性、愛情、朋友、孩子、美女、明星、媽媽

圖2 2010年6億詞次類別分布圖

圖3 詞種分布圖 圖4 詞次分布圖
從這些詞可以看出,男性更關注社會、政治;女性更關注家庭、生活。這是否說明:如果我們想回到一個人本社會的話,女性管理者、女總統(tǒng)可能更有優(yōu)勢?
上面給大家介紹的是對語言使用狀況的整體面貌的監(jiān)測。更重要的是,我們的研究要為國家服務,就必須去做問題驅(qū)動的語言研究。我們也針對社會上一些語言問題做了有關語言文字輿情的監(jiān)測工作。例如,隨著改革開放,漢語中出現(xiàn)了大量的字母詞,可以說字母詞的大量使用是新時期漢語書面使用系統(tǒng)一個最大的變化。關于字母詞的使用問題,一直爭議不斷。有人提出了“漢語危機論”,認為像NBA、WTO、GDP這些外文縮略詞的使用會導致漢語在300年后消亡,提出要打一場“漢語保衛(wèi)戰(zhàn)”。漢語真的會消亡嗎?字母詞的使用到底是一種怎樣的情況?應如何看待它?這是一個語言生活中確實存在、各階層人士都十分關心的問題。為回答這個問題,我們對1990—2012年《人民日報》字母詞的使用情況進行了調(diào)查。圖5顯示的是23年間字母詞詞種的使用變化趨勢。

圖5 《人民日報》1990—2012年字母詞詞種使用變化趨勢
圖5顯示,以2000年為界可以分成兩段,前一段的11年間字母詞數(shù)量上升較快,從每年使用300多個上升到1000多個;2000年以后的12年間字母詞數(shù)量略有上升,但基本上是在1000個左右波動。這似乎告訴我們:出于語言工具性的需要,漢語對字母詞的吸收和使用不是無限制的,到達一定的量就會進入飽和狀態(tài)。我們再來看圖6:

圖6 《人民日報》1990—2012年字母詞詞種、詞次使用比例變化趨勢
圖6實際上是兩幅圖,上面是字母詞詞種使用變化的比例圖,下面是詞次使用變化比例圖。這兩張圖與圖5顯示了同樣的變化曲線和趨勢,都是前半段上升,后半段基本平穩(wěn),詞種比例甚至略有下降。我們要注意的是Y軸上的比例,詞種比例是“千分之幾”,1990年是千分之二,2000年是千分之五;而詞次比例則是“萬分之幾”,1990年還不到萬分之一,2001年幾乎達到頂峰,但也僅僅是萬分之六。這說明字母詞大部分是低頻詞,使用頻次大大低于漢字詞。圖6再次證明,語言具有一種自我調(diào)節(jié)功能,字母詞無論詞種還是詞次,在使用中都會有量的控制。
字母詞使用的穩(wěn)定性如何?也可以通過年度間共用的統(tǒng)計數(shù)據(jù)來說明。
1990—2012年23年間一共使用了近10000個不同的字母詞,共用的字母詞只有23個:ABC、BBC、B超、CAD、CCTV、CNN、CT、DNA、GE、IBM、NEC、NHK、PC、PVC、SOS兒童村、T恤、T恤衫、X光、X光機、阿Q、卡拉OK、維生素A、維生素C。而人們很熟悉的APEC、NBA、GPS、MBA、MTV等是1992年以后才開始使用的。
這個調(diào)查證明:(1)漢語不存在危機,不會因字母詞的使用而在300年后消亡;(2)字母詞使用很不穩(wěn)定,大部分字母詞對大多數(shù)人是陌生的,應盡量少用;(3)應推動外文縮略詞的漢化工作。
中國已在2012年6月20日成立外語中文譯寫規(guī)范部際聯(lián)席會議專家委員會,該委員會專門負責這項工作。在數(shù)據(jù)的支持下,經(jīng)過專家論證,2013年4月19日公布:PM2.5的中文名稱為“細顆粒物”。9月13日又公布了包括PM2.5、IT、IQ、WTO、WHO在內(nèi)的10個外文縮略詞的中文名稱。相信隨著類似工作的開展,漢語會朝著越來越健康的方向發(fā)展。
有關語言監(jiān)測的成果大都收錄在各年度的中國語言生活綠皮書《中國語言生活狀況報告》中。目前,這個綠皮書系列已經(jīng)被譯為英文由德國德古意特(DE GRUYTER)出版社出版,在全世界發(fā)行。從2006年開始在商務印書館出版新詞語編年本,每年一本,記錄當年的新詞語,以反映社會歷史的變化。此外,國家語言資源監(jiān)測與研究中心還做了以下工作:
中國媒體十大流行語發(fā)布(2003—2013)
中國媒體十大新詞語發(fā)布(2011—2013)
中國十大網(wǎng)絡詞語發(fā)布(2012—2013)
漢語字詞盤點(2006—2013)
這些工作在社會上產(chǎn)生了很大的影響。現(xiàn)在,用語言盤點社會生活已經(jīng)成了一場盛宴,一種年俗。每到年底,人們都會期待猜測:哪些字或哪些詞能代表過去的一年?
三、語言監(jiān)測的理論與技術
作為一項語言工程,語言監(jiān)測有三個支撐點:資源、理論、技術。資源是語言監(jiān)測的基礎,是語言監(jiān)測獲得生命的源泉;理論是語言監(jiān)測的指導,使之向科學健康的方向前進;技術是語言監(jiān)測得以實現(xiàn)的保障。
在語言監(jiān)測的實踐中,除了使用現(xiàn)有的語言理論,我們還提出了一些理論模型,如語言動態(tài)—穩(wěn)態(tài)模型、相對時間理論模型、詞匯時空運動模型、語言監(jiān)測框架體系等等。這里重點介紹后兩個。
首先是詞匯時空運動模型。哲學告訴我們,物體的運動總是在時空中發(fā)生的,語言系統(tǒng)也不能例外。詞匯系統(tǒng)中的每一個詞語都有自己的運動軌跡,都可以從時間和空間這兩個維度去考察。詞匯的時空運動可以通過它在詞匯系統(tǒng)中的分布空間在時間上的變化來表示。可以用歸一化使用率、使用率比、速度函數(shù)作為詞匯時空運動模型的特征集。這樣我們就將常用詞、流行語、新詞語、字母詞、術語、突發(fā)事件用詞等各類不同詞匯現(xiàn)象納入一個統(tǒng)一的理論模型中,從而滿足各年度《中國語言生活狀況報告》發(fā)布任務的需要。
圖7顯示的是我們提出的語言監(jiān)測框架體系。
圖7 語言監(jiān)測框架體系圖
語言監(jiān)測框架體系將語言監(jiān)測分為自下而上、前后銜接的四個模塊:語言資源—技術平臺—數(shù)據(jù)監(jiān)測—服務提供。其中語言資源是基礎,為語言監(jiān)測提供原料;技術平臺是支撐,語料經(jīng)過技術平臺的處理才能變成有用的數(shù)據(jù);數(shù)據(jù)是監(jiān)測的結果,它們要通過一定的平臺發(fā)布出去,才能實現(xiàn)服務國家、服務社會、服務學術的功能。語言監(jiān)測正是這樣通過共享機制實現(xiàn)它的服務功能,又通過評測機制不斷改進完善。
除了語言理論指導,語言監(jiān)測還需要現(xiàn)代技術的支撐,如果沒有一個能支持下述功能的技術平臺,語言監(jiān)測就無法實現(xiàn):
語料的自動采集、分類、標注、儲存功能;
提取分類語料形成子語料庫的功能;
大規(guī)模語料的自動分詞、詞性標注功能;
字頻、詞頻統(tǒng)計功能;
任意字符串、詞串的檢索功能;
凸顯語言新現(xiàn)象,以便于提取新詞語、流行語的功能;
凸顯特定詞語,以便于提取與社會發(fā)展變化密切相關的詞語(機構名、人名、姓氏、字母詞等)的功能;
語音語料的采集、存儲、檢索,方便查找詞語讀音的功能;
對語言文字輿情實時監(jiān)測的功能;
……
四、語言監(jiān)測與語言服務
語言服務是語言監(jiān)測的終極目標。
為國家服務主要是為政府決策服務。我們的監(jiān)測數(shù)據(jù)和咨政報告支持國家語委的一些語言文字規(guī)范和標準的制定,為制定語言政策提供參考。
為社會服務主要是為公眾服務。國家資源,要取之于民,用之于民。數(shù)據(jù)公布可以引導民眾關注語言生活,把握語言國情,冷靜客觀地看待和應對語言生活中的各種新變化和歧異現(xiàn)象,以構建和諧的語言生活。
為學術服務可以分為線上和線下兩個渠道進行。線上:主要是利用各分中心的網(wǎng)站公布語言資源、技術資源及文獻資源,實現(xiàn)最大限度的資源共享。線下:采用合作研究的方式,用語料、數(shù)據(jù)及工具支持兄弟院校和科研機構承擔的研究項目以及國內(nèi)外一些博士、碩士研究生的研究課題。
綜上所述,語言監(jiān)測工作主要包括三個元素:語言+計量+社會。我們的目標就是用語言這把尺子來丈量社會,丈量人心百態(tài)。我們力圖把語言研究與社會生活、與國家發(fā)展緊密聯(lián)系起來,因此就產(chǎn)生了生長于中國大地、不同于以往的語言學流派——語言生活派。這個學派的研究特點應該是接地氣、求真知、重實用。我們今后還將沿著這個方向繼續(xù)前行。
主要參考文獻:
[1]國家語言資源監(jiān)測與研究中心編 2006 《中國語言生活狀況報告(2005)》(下編),商務印書館。
[2]國家語言資源監(jiān)測與研究中心編 2007 《中國語言生活狀況報告(2006)》(下編),商務印書館。
[3]國家語言資源監(jiān)測與研究中心編 2008 《中國語言生活狀況報告(2007)》(下編),商務印書館。
[4]國家語言資源監(jiān)測與研究中心編 2009 《中國語言生活狀況報告(2008)》(下編),商務印書館。
[5]國家語言資源監(jiān)測與研究中心編 2010 《中國語言生活狀況報告(2009)》(下編),商務印書館。
[6]教育部語言文字信息管理司組編 2011 《中國語言生活狀況報告(2011)》,商務印書館。
[7]教育部語言文字信息管理司組編 2012 《中國語言生活狀況報告(2012)》,商務印書館。
[8]教育部語言文字信息管理司組編 2013 《中國語言生活狀況報告(2013)》,商務印書館。
[9]何偉、侯敏 2009 《基于詞匯時間分布信息的未登錄詞提取》,載《中國語言資源論叢》(一),商務印書館。
[10]侯敏 2010 《語言資源建設與語言生活監(jiān)測相關術語簡介》,《術語標準化與信息技術》第2期。