- 數(shù)字出版實用教程(第二版)
- 黃孝章 周健華 張志林
- 1102字
- 2020-04-22 12:48:50
1.6.2 畫框識別
用光學字符識別方法對圖像文檔進行處理,是對掃描圖進行代碼化的工序。這一步稱為OCR(Optical Character Recognition,光學字符識別)。
(1)OCR識別即電子代碼化
OCR識別是對經(jīng)過掃描、修圖的圖像文檔進行分析,將圖像文檔翻譯成計算機文字,獲取內(nèi)容信息及版面信息,OCR識別過程即電子代碼化過程。通過OCR識別,圖像文檔中的文字圖形將繼續(xù)保存;圖像文檔中有表格的,則將表格信息一律變成計算機文字。因此,如何避免和消除代碼化過程中的錯誤,或者說如何利用輔助信息提高圖像文檔的識別正確率,是OCR系統(tǒng)最重要的課題。在OCR識別界面,圖像文檔翻譯成計算機文字顯示的內(nèi)容如圖1-6所示。

圖1-6 OCR將圖像文檔進行轉換示例
(2)文字圖片的代碼化
文字圖片代碼化的具體做法是,將經(jīng)過修圖的圖像文檔置入專用OCR軟件中,進行畫框識別。將橫排文本、豎排文本、表格、插圖、頁碼分開畫框,框線不得壓字、壓圖。在畫框完成后對整個工作包進行檢查,確保沒有畫框錯誤及漏畫等現(xiàn)象。
畫框識別一般分為兩個步驟,一是對內(nèi)容信息的代碼化,二是中間軟件程序自動跟蹤標注位置信息。對內(nèi)容信息進行畫框識別時,文字信息的屬性會自動用紅色框邊顯示;圖像信息的屬性則自動顯示為綠色。同時,識別時產(chǎn)生的中間程序會自動切圖,進行位置信息的識別標注。
畫框識別中,按頁產(chǎn)生的文檔盡管有一個記錄位置信息的中間文件,但仍然包含在一個完整的文件中。也就是說,本道工序入口時是TIF圖像文檔,出口時是TIF+中間文件。經(jīng)過畫框標記的文檔,內(nèi)容信息被分別用紅色、綠色框標注;位置信息包括頁碼也同時標注出來并加以編號,如圖1-7所示。

圖1-7 畫框標識的代碼化文檔
(3)復雜公式表格的代碼化
一些比較先進的OCR系統(tǒng),能夠自動對帶有復雜公式、表格的圖像文檔進行畫框識別,多窗口展開進行比對。畫框識別中展開的圖像文檔窗口,文字和公式信息被逐一作為圖像標注;展開的代碼化識別窗口中,文字信息和位置信息被逐一識別標注。更進一步,OCR系統(tǒng)能夠同時展開三個窗口自動進行操作,即展開原圖像文檔窗口、代碼化過程窗口及識別結果窗口,如果識別結果與原圖像文檔有差異,則需要人工進行修正。復雜數(shù)字公式的畫框識別示例如圖1-8所示;復雜數(shù)字公式的代碼化過程窗口展示如圖1-9所示。

圖1-8 對復雜數(shù)學公式的畫框識別

圖1-9 復雜數(shù)學公式的識別窗口展示
(4)代碼化識別的優(yōu)點
OCR識別后的圖像文檔中,內(nèi)容信息和位置信息能夠自動拆分保存。經(jīng)過OCR轉換的文檔有以下優(yōu)點:①點陣圖像的技術特性是用正方形的小點來描述圖像,所以在描述曲線及一些角度的直線時就會產(chǎn)生鋸齒,經(jīng)過OCR識別后,文字成為矢量圖,能夠有效避免鋸齒狀;②能減少圖像文檔的儲存量;③識別出的文字可再使用及分析;④因無須鍵盤輸入,可節(jié)省信息輸入的人力與時間。
- 泛在應用與創(chuàng)新
- 紙媒到融媒:一家縣級融媒體的前世今生
- 藍獅子寫作課:如何進行財經(jīng)創(chuàng)作
- 閱讀的邏輯:這個時代我們?nèi)绾巫x書
- 廣告的力量
- 中國傳媒產(chǎn)業(yè)效益評價研究
- 不要因為走得太遠而忘記為什么出發(fā):陳虻,我們聽你講(收藏版)
- 數(shù)字傳播案例集:公眾號文章“10萬+”為什么
- 張邦邦新聞作品集
- 傳媒資本市場和資本運營
- 媒介融合時代的電視新聞創(chuàng)新
- 轉型期中國出版業(yè)制度分析
- 大型賽事新聞服務英文報道體例及翻譯
- 美國公共圖書館思想研究(1731~1951)
- 移動互聯(lián)環(huán)境下我國出版業(yè)的發(fā)展現(xiàn)狀及問題研究(谷臻小簡·AI導讀版)