當(dāng)漢字遇上電腦
漢字的歷史,至今大約是四千年。能拿出確切證據(jù)的年代,是三千二三百年,有河南殷墟出土的甲骨文為證。漢字隊(duì)伍一路走來(lái),頗為不易。根據(jù)已出土的文物來(lái)看,一開(kāi)始是甲骨文,隨后演化為金文。漢字最早出現(xiàn)大發(fā)展、大流行,應(yīng)該是小篆的時(shí)代。這時(shí)候字形的變化已經(jīng)相當(dāng)大了。但比起其后陸續(xù)出現(xiàn)的隸書(shū)和楷書(shū),小篆的改革,還是只能瞠乎其后。漢字走到二十世紀(jì),忽然面臨一個(gè)存亡絕續(xù)的生死關(guān)頭。
由于西學(xué)東漸,先進(jìn)的中國(guó)知識(shí)分子發(fā)現(xiàn),西方人都是在使用字母文字,二三十個(gè)字母,在一架小巧的打字機(jī)上敲來(lái)敲去,一篇文章很快就拿出來(lái)了。而漢字打字機(jī),字盤上必須放一千多個(gè)字,這還不夠用,還有備用字盤。打字員要熟記每個(gè)字的位置,這記憶量可是不小。漢字?jǐn)?shù)以萬(wàn)計(jì),筆畫(huà)又繁難無(wú)比,一眼望去,黑壓壓一大片,難記、難認(rèn)、難寫(xiě),簡(jiǎn)直成了中國(guó)文化落后的典型象征。于是,一時(shí)間改革漢字的呼聲大倡,激進(jìn)的知識(shí)分子恨不得一個(gè)早上就把漢字變成拉丁字母。潮流所向,連文學(xué)巨匠魯迅先生也參加了討論。改革派的聲音明顯地高于保守派,似乎沒(méi)有疑問(wèn)地代表著時(shí)代前進(jìn)的方向。
這件事情沒(méi)有辦成,是因?yàn)榇耸逻^(guò)于嚴(yán)重、繁難,牽扯面大,各方面盤根錯(cuò)節(jié),加之世道不太平,戰(zhàn)火不斷,民不聊生,根本顧不上搞這種改革,這才將此事擱置起來(lái)。20世紀(jì) 50年代的簡(jiǎn)化漢字之舉之所以失之匆忙、粗糙,簡(jiǎn)化幅度過(guò)大,內(nèi)中不排除漢字拉丁化的余音裊裊的影響。既然漢字遲早要拼音化,同音字大規(guī)模地合并一下,有個(gè)漢字在那里暫時(shí)應(yīng)付一下,有何不可?說(shuō)不準(zhǔn)哪天漢字拉丁化了,拼音化了,比這還簡(jiǎn)單呢。簡(jiǎn)化漢字的功過(guò)還可以從容討論,但無(wú)論如何,值得慶幸的是,漢字保住了。漢字拉丁化沒(méi)有搞,但語(yǔ)言文字學(xué)家也沒(méi)有閑著,他們弄出了一個(gè)漢語(yǔ)拼音方案。這個(gè)方案厥功至偉,雖說(shuō)不可能成為正式文字,但作為漢字學(xué)習(xí)的輔助工具、檢索工具,普通話的普及工具,還有專名拼寫(xiě)、術(shù)語(yǔ)代碼等各方面的應(yīng)用,用處太大。日后的漢字電腦輸入,它也立下了汗馬功勞。
電子計(jì)算機(jī)一朝興起,漢字落后論和漢字瓶頸論的聲音又時(shí)起時(shí)伏:“我們已經(jīng)失去了打字機(jī)時(shí)代,不能再失去一個(gè)電腦時(shí)代!”漢字好像又要拖中國(guó)人使用電腦的后腿了。誰(shuí)也沒(méi)想到的是,抱怨?jié)h字的聲音剛剛出現(xiàn),就被立馬打回去了。這回漢字終于有了揚(yáng)眉吐氣的日子,它不僅贏得了生存和發(fā)展的權(quán)利,甚至還有了傲視群雄的膽氣。漢字不是結(jié)構(gòu)復(fù)雜不利于編碼嗎?實(shí)踐表明,對(duì)于電腦的強(qiáng)大功能來(lái)說(shuō),漢字編碼這點(diǎn)小麻煩,根本不算一回事。漢字筆畫(huà)繁難不是不利于書(shū)寫(xiě)嗎?現(xiàn)在除了中小學(xué)生寫(xiě)作業(yè)、辦事需要留個(gè)便條,一般用不著動(dòng)筆寫(xiě)字。坐在電腦前,誰(shuí)都能輕輕松松地把漢字輸入進(jìn)去。年輕人人手一個(gè)智能手機(jī),兩個(gè)大拇指在那里一陣抖動(dòng),好幾句話都輸進(jìn)去了。我甚至想,20世紀(jì) 50年代如果出現(xiàn)了電腦,簡(jiǎn)化漢字的動(dòng)議很可能就沒(méi)有必要考慮了。如果大多數(shù)人都用不著一筆一畫(huà)地在稿紙上“爬格子”,漢字簡(jiǎn)化的必要性就不大了。
漢字在電腦上的輸入、輸出輕巧得就像在打電子游戲,中國(guó)人一直引以為傲的活字排版印刷,轉(zhuǎn)瞬間就成了古董。全中國(guó)的鉛字排版印刷,就像一陣風(fēng)吹過(guò),不見(jiàn)了蹤影。鉛與火的時(shí)代正式終結(jié)。這變化著實(shí)令人眼花繚亂。我們作為這種變化的目擊者和當(dāng)事人,不可以不知道漢字遇到電腦以后到底發(fā)生了什么。
用電腦來(lái)處理西文,當(dāng)然要簡(jiǎn)單得多,英文只有 26個(gè)字母,僅就編碼而論,碼的長(zhǎng)度就比漢字的編碼要短。英文大小寫(xiě)字母 52個(gè),再加上其他符號(hào),總共也就 100多個(gè)字符,總體工作量很小。相比之下,漢字就令人頭大了。漢字進(jìn)入電腦就要研究如何克服自身的“不利條件”(與西文相比較而得來(lái)劣勢(shì))。漢字沒(méi)有字母,是意音文字,且數(shù)量巨大,結(jié)構(gòu)復(fù)雜(零部件多達(dá)數(shù)百個(gè)),同音字現(xiàn)象嚴(yán)重。其中同音字問(wèn)題解決不好很容易降低輸入的速度。漢語(yǔ)的音節(jié)數(shù)只有 417個(gè),算上聲調(diào)也只有 1200多個(gè)?!缎氯A字典》上收了 11200個(gè)漢字,如果除以 1200個(gè)帶聲調(diào)的音節(jié),每個(gè)音節(jié)平均要承載 9個(gè)字,如果除以不帶聲調(diào)的 417個(gè)音節(jié),每個(gè)音節(jié)平均要承載 26.85個(gè)漢字。有的資料顯示,同音字最多的音節(jié),其同音字多達(dá) 100多個(gè)。確實(shí)有點(diǎn)恐怖。然而這些困難在跟電腦親密接觸的過(guò)程中一一化解,從 20世紀(jì) 90年代的小規(guī)模試水,到近些年來(lái)的千帆競(jìng)渡,電腦在國(guó)民中普及速度之快、范圍之廣,連我們這些親歷者也不能不感到吃驚?,F(xiàn)在甚至難以想象,如果生活中沒(méi)有了電腦和智能手機(jī),中國(guó)會(huì)是一個(gè)什么景象。
對(duì)于一般用電腦的人來(lái)說(shuō),內(nèi)部的編碼與我們畢竟遠(yuǎn)一些,不同輸入方法的嘗試和演變,與我們的關(guān)系就相當(dāng)密切了。
根據(jù)所使用的輸入設(shè)備,可以把漢字輸入分為鍵盤輸入和非鍵盤輸入。鍵盤輸入法又可以細(xì)化為大鍵盤輸入法、中鍵盤輸入法和小鍵盤輸入法。
所謂大鍵盤輸入法,也被稱之為“整字輸入”,其思路多半還是來(lái)源于原來(lái)的中文打字機(jī)。特制的大鍵盤上分布著幾千個(gè)常用漢字,一個(gè)鍵代表一個(gè)漢字。輸入者要熟記各個(gè)漢字的位置,找到需要的漢字,用特制的電筆點(diǎn)擊,便可以輸入。也有一個(gè)鍵代表 9個(gè)漢字的,9個(gè)漢字的選擇,按數(shù)字排序來(lái)區(qū)分。與大鍵盤輸入法同時(shí)出現(xiàn)的,還有一種中鍵盤輸入法。這種鍵盤上有幾百個(gè)鍵,代表幾百個(gè)漢字部件及常用的獨(dú)體漢字。與大鍵盤輸入法不同的是,合體字的輸入不是整字輸入,而是把合體字拆開(kāi),按照人們書(shū)寫(xiě)習(xí)慣的次序,把零部件依次輸入,在電腦中組裝成字。這兩種鍵盤今天看來(lái)實(shí)在是太蠢笨了,記憶量也太大,所以很快就被淘汰了,現(xiàn)在只剩下小鍵盤輸入法在為我們服務(wù)。
現(xiàn)在我們普遍使用的是小鍵盤,也就是人們都熟悉的、有上百年歷史的西文打字鍵盤,我們把表示漢字的音或者形安排在各個(gè)鍵子上,用拼音方式或者漢字零部件組裝方式把漢字輸入,也就是“音碼”和“形碼”的輸入。
先說(shuō)音碼。小鍵盤按照漢字輸入的要求,對(duì)各個(gè)鍵子都重新分配了職務(wù),電腦操作者把漢字按漢語(yǔ)拼音方案的要求敲進(jìn)去就可以了。同音字是難免的,一個(gè)音節(jié)敲進(jìn)去,立馬跳出來(lái)一堆同音字,其順序是高頻先見(jiàn)的原則。操作者把需要的字確定下來(lái)即可。如果第一次出來(lái)的字沒(méi)有自己要的字,可以
“翻篇兒”,對(duì)同音字多的音節(jié),要多次翻篇兒才能找到所需要的漢字。拼音輸入法的好處是便于普及。漢語(yǔ)拼音是大家小學(xué)時(shí)候就學(xué)過(guò)的課程,稍加復(fù)習(xí)便能操作。另一個(gè)好處是便于“想打”。打字員看著文稿輸入,叫
“看打”,聽(tīng)別人口授輸入,叫“聽(tīng)打”,自己邊想邊打,就是“想打”了。小孩做作業(yè)、大人寫(xiě)稿子,都是“想打”。因?yàn)槟X子里想的是語(yǔ)音,鍵子敲的也是語(yǔ)音,思路不易被打斷。反之,如果“想打”使用的是“形碼”,就時(shí)時(shí)還要從文章的思路里面跳出來(lái),琢磨一下輸入的字形。但是,音碼也有明顯的缺點(diǎn),一是會(huì)寫(xiě)不會(huì)念的字無(wú)法輸入,二是輸入效率太低。有的漢字音節(jié)長(zhǎng)達(dá)五六個(gè)字母,需要連敲五六次鍵子,有的音節(jié)同音字太多,找一個(gè)字翻篇兒不止,令人抓狂。針對(duì)這些缺點(diǎn),新辦法應(yīng)運(yùn)而生。一個(gè)好辦法是把全拼變成雙拼。每個(gè)字只要敲一個(gè)聲母和一個(gè)韻母即可。這就大大減輕了輸入的工作量。為了解決同音字的困擾,電腦推出了“詞輸入”和“句輸入”的方法。漢語(yǔ)中雖然同音字多,但同音詞就少多了,同音的句子就更少而又少,加之高頻出現(xiàn)的一些固定詞組可以簡(jiǎn)化輸入方法,只敲各個(gè)字的聲母即可,同音字的糾纏現(xiàn)象會(huì)大有好轉(zhuǎn)。但實(shí)話實(shí)說(shuō),雙拼輸入法產(chǎn)生的同音字問(wèn)題其實(shí)并沒(méi)有完全解決,我自己至今對(duì)此也頗感煩惱。但因?yàn)閼峙滦未a更大的記憶量,也不敢輕易改換門庭,只好安于現(xiàn)狀湊合著。在寫(xiě)專業(yè)性不太強(qiáng)的文章的時(shí)候,語(yǔ)音輸入也不失為一種選擇。現(xiàn)在的語(yǔ)音識(shí)別軟件,功能相當(dāng)強(qiáng)大。
形碼輸入法。形碼輸入法的普及率比通常預(yù)想的要高許多。黨政機(jī)關(guān)和企事業(yè)單位的打字員、街面上圖文打印社的打字員,大部分都是用形碼,而且用“五筆字型”輸入法居多,因?yàn)楫?dāng)初“五筆字型”出現(xiàn)得比較早,宣傳也火爆,搶占了先機(jī)。
形碼輸入法的設(shè)計(jì)過(guò)程分兩步:先是根據(jù)漢字字形把每個(gè)漢字分解為有次序的一個(gè)個(gè)部分,也就是一些零部件。這些零部件,可以是筆畫(huà),也可以是一個(gè)相對(duì)完整的偏旁部首,還可以是一組筆畫(huà),有人稱之為“字元”。其后,是規(guī)定鍵盤上的每個(gè)鍵子(包括字母鍵和數(shù)字鍵)承載哪些零部件。這個(gè)設(shè)計(jì)過(guò)程,很像是我們?cè)缦雀鶕?jù)一個(gè)漢字的四個(gè)角編碼去查四角號(hào)碼字典。對(duì)于電腦操作者來(lái)說(shuō),就是接受設(shè)計(jì)者的成果,按照既定的鍵盤安排,把每個(gè)鍵子的分工背下來(lái),在輸入漢字的過(guò)程中強(qiáng)化記憶。形碼輸入中會(huì)不會(huì)出現(xiàn)相同編碼的“重碼字”?當(dāng)然會(huì)有,不過(guò)較少,跟音碼中頻繁出現(xiàn)的同音字的情況不可同日而語(yǔ)。重碼率低是形碼最重要的優(yōu)點(diǎn)。形碼的另一個(gè)優(yōu)點(diǎn),是“平均碼長(zhǎng)”短,擊鍵次數(shù)就少,因此輸入效率比音碼為高。形碼的缺點(diǎn)是操作者必須記住輸入法規(guī)定的漢字拆解規(guī)則和零部件的處理辦法,“五筆字型”輸入法要記住 150個(gè)“字元”的內(nèi)容和在鍵盤上的分布狀況,否則無(wú)法操作。這個(gè)開(kāi)頭要苦一點(diǎn),記憶量大了一點(diǎn),但熟練之后,在工作效率上會(huì)得到補(bǔ)償。
不管是音碼輸入法還是形碼輸入法,其實(shí)都存在一個(gè)不斷完善和規(guī)范的問(wèn)題,事實(shí)上每種輸入法也出于擴(kuò)大市場(chǎng)的考慮,不斷改進(jìn)、補(bǔ)充、擴(kuò)大自己的功能。在形碼方面,出于社會(huì)責(zé)任感的考慮,輸入法的設(shè)計(jì)者應(yīng)該自覺(jué)遵守漢字規(guī)范化的要求,一旦輸入法對(duì)漢字的拆分以及對(duì)筆順的規(guī)定等背離了規(guī)范,對(duì)中小學(xué)生的識(shí)字教學(xué)及社會(huì)用字的規(guī)范化就會(huì)產(chǎn)生負(fù)面的影響。我印象中有一種形碼把漢字的偏旁和部首硬性地歸類于英文字母形狀,因?yàn)閲?yán)重地違背了漢字的構(gòu)字規(guī)律和結(jié)構(gòu)特點(diǎn),很不利于中小學(xué)生的漢字教學(xué)。它后來(lái)逐漸消亡的事實(shí)說(shuō)明,違背漢字規(guī)律的輸入法在市場(chǎng)上也是沒(méi)有前途的。
非鍵盤輸入法包括“光學(xué)字符識(shí)別方法”“筆輸入”和“語(yǔ)音識(shí)別方法”三種。此三種方法雖說(shuō)不一定在寫(xiě)作中應(yīng)用,但因?yàn)槎加衅洫?dú)特的功能,所以對(duì)我們的學(xué)習(xí)、工作和生活都很重要。只看“光學(xué)字符識(shí)別方法”,還不了解這是個(gè)什么東西,但一提起掃描儀,你就明白了,有時(shí)候是需要把圖片或者文件用掃描的辦法輸入電腦的。現(xiàn)在有關(guān)方面的軟件十分發(fā)達(dá)。我曾經(jīng)試驗(yàn)過(guò),用手機(jī)把一個(gè)商品說(shuō)明書(shū)拍照下來(lái),然后用一個(gè)識(shí)別軟件一讀,發(fā)現(xiàn)一個(gè)字也沒(méi)有錯(cuò),識(shí)別率百分之百。圖片上的文字,原來(lái)需要重新輸入一遍,十分麻煩,現(xiàn)在照相或者掃描后電腦識(shí)別,十分快捷、方便。這就能把圖片上的“死”的文字變成活的文字,可以增刪修改,極為便利。
“筆輸入”也很有用。不管你用的是什么輸入法,都有找不到字一籌莫展的時(shí)候。這時(shí)候,有的輸入法就會(huì)跳出一個(gè)手寫(xiě)輸入的提示。你用鼠標(biāo)或者手寫(xiě)板把字寫(xiě)上去,電腦會(huì)出現(xiàn)一批類似的字供你選擇,直到你找到需要的字。有一些不愿意記憶輸入方法的老年人,干脆就用手寫(xiě)板在電腦上輸入,雖說(shuō)速度慢了一點(diǎn),但畢竟勝于手寫(xiě),況且文章寫(xiě)好了也便于打印或者從電子郵箱發(fā)出。
“語(yǔ)音識(shí)別”一開(kāi)始大家沒(méi)有重視,現(xiàn)在都看到了它的光輝前景。最吸引人的是它的兩個(gè)不俗的表現(xiàn):一是現(xiàn)在用話筒在電腦上口述輸入,電腦的識(shí)別率很高,錯(cuò)誤很少,這對(duì)普通的文字寫(xiě)作尤其是散文和小說(shuō)的創(chuàng)作,提供了極大的方便。二是袖珍翻譯機(jī)的問(wèn)世。一個(gè)比手機(jī)還要小的翻譯機(jī),可以讓講兩種語(yǔ)言的人順暢地交流,這在以前是想也不敢想的事情,現(xiàn)在終于夢(mèng)想成真。這對(duì)普天下的游客們是一個(gè)極大的福音。語(yǔ)音識(shí)別軟件功能越來(lái)越強(qiáng)大,手機(jī)里安裝一款,走遍天下都不怕。
這就是漢字和漢語(yǔ)遇到電腦之后發(fā)生的奇跡,高科技為我們的生活提供了越來(lái)越精彩的體驗(yàn)。