- 數字出版實用教程(第二版)
- 黃孝章 周健華 張志林
- 2798字
- 2020-04-22 12:48:49
1.3.2 常見文檔的數字化加工層次
常見的數字化加工涵蓋非結構化和結構化兩個類型,如上圖中①~⑤所標明的階段。有些出版社的數字化加工,層次也進入到對內容分拆、標引的深度結構化階段。一般來說,存量出版資源要求的數字化加工文檔包括掃描圖、PDF文件、正文文本XML、目錄XML文件和圖書元數據XML文件等。按照本書的分類,掃描圖、PDF文件屬于非結構化加工,正文文本XML、目錄的XML和圖書元數據XML文件屬于結構化加工。
由于圖書內容加工層次及需求變化不同,并非所有圖書的數字化加工都需要全部包含這5種文件,某些圖書只需要加工成其中的2~3種;期刊加工需要5種,但所有的加工項目技術指標要求大致相同。下面分別論述主要加工類型的特點和要求。
(1)掃描圖
掃描圖文件要求格式為TIFF或JPEG
,其中黑白文字要求掃描為600dpi
的黑白圖,黑白圖片掃描為300 dpi的灰度圖,彩色圖片掃描為300 dpi的彩色圖。
要求圖像清晰、版心居中、無明顯歪斜、無污點及顏色失真現象;要求同一本書版心及圖像尺寸統一,圖像完整無殘缺。
(2)PDF文件
PDF文件包括圖像PDF、雙層PDF及版式還原的純文本單層PDF三種形式。對普通讀者而言,用PDF制作的電子書具有紙版書的質感和閱讀效果,可以“逼真”地展現原書的原貌,且顯示版面大小可任意調節,給讀者提供了個性化的閱讀方式。每種PDF要求內容完整,無缺頁、重頁、頁碼順序顛倒;每冊書須制作目錄書簽,書簽內容與圖書目錄一致,書簽動作縮放比例設置為“承前縮放”;每冊書初始放大率設置為“適合頁面”。
①圖像PDF。圖像PDF文件要求文檔中所使用的圖片格式為JPEG,圖像其他要求與掃描圖一致。若一頁中既有文字也有黑白圖像,文字部分采用黑白圖;圖像部分使用灰度圖進行拼接。圖像PDF文件還有一個用途,即方便查閱核對及數碼印刷,制作雙層PDF和單層PDF的圖書也可同時制作圖像PDF文件。圖像PDF文件適用于作為資料保管和保持原貌為主,無全文檢索需要的文檔。例如中華人民共和國成立前出版的圖書及一些手跡、畫冊,以圖片形式展示內容的圖書等。
②雙層PDF。所謂雙層PDF,是指用戶瀏覽看到的是圖像層,在全文檢索和文字拷貝時使用的是文字層。為方便檢索,文字層均對應為簡體文字。雙層PDF圖像層的要求與圖像PDF相同,只是精度統一為300 dpi,以減少文件的大小。文字層所使用的字體以“已嵌入子集”方式嵌入PDF文件。書中的生僻字、特殊符號、復雜數學公式對應文本統一為“■”,數學公式對應文本為計算機通常可輸入的表達式,如公式中存在一些無法輸入的符號,則按特殊符號處理。圖像層和文字層的文字對應準確,反顯區域與文字區域相差1毫米以內。雙層PDF文件的不足是文字層的錯誤不宜發現。
一般類型的著作及繁體字或簡繁混排的圖書,可加工為雙層PDF。因大多數PC機均未安裝繁體字庫,含有繁體字的圖書不適合以純文本形式制作單層PDF,因而均需要按雙層PDF形式進行加工。雙層PDF比版式還原的單層PDF節省排版這一環節,在加工成本上相對低。從節約資金的角度出發,一些以閱讀為主、文字拷貝需求較低的非重點圖書,都可以加工為雙層PDF。
③版式還原的純文本單層PDF。所謂版式還原的純文本單層PDF,是指全部文字是以純文本形式展現,圖片以圖像形式展現,再按照圖書的版式重新排版的PDF文件。單層PDF要求與雙層PDF文字層大致一致,由于文字不使用圖片,生僻字要求用矢量造字補缺,但對應文本統一為“■”。此外,還要求版式與原書保持一致,部分沒有的或難以辨別的字體可用相似字體代替。由于這種PDF看到的文字與檢索拷貝一致,錯誤易于被發現,并且可進行修改,展現效果也好。只是加工成本較高,加工周期較長。中央文獻、黨和國家領導人講話等重要著作,宜加工為版式還原的純文本單層PDF。
(3)正文文本XML文件
為了實現全文檢索和章節標題及對應內容提取的功能,絕大多數圖書要加工正文文本XML文件和制作目錄XML文件。由于PDF文件包含了圖書全部文本內容,也涉及頁眉、頁腳、頁碼、頁下注釋等非正文內容,這些要素會影響全文檢索和內容提取。除了只制作圖像PDF的圖書外,其他圖書都需要加工正文文本XML文件。XML文件采用UTF-8編碼,一本書一個XML文件,每頁內容作為一條數據進行存儲。此數據不包含正文以外的無文字內容的頁。正文中無文字內容的頁面如果占頁碼(無論是否上面印刷了頁碼),需要體現在數據中;如果不占頁碼,在數據中不體現。
文件結構如下:
<?XML version="1.0" encoding="UTF-8" ?> <Book> <Content> <page> <pageNum></pageNum> <PDFPageNum></PDFPageNum> <pageContent> <![CDATA[ ]]> </pageContent> </page> </Content> </Book>
字段說明如下:
①pageNum項。此字段是用于標識內容在紙質圖書上所屬的頁碼,要求是當前頁的紙書頁碼整型值。要求與圖書上印刷的頁碼完全一致。正文部分如有空白頁,但實際在書中占了頁碼的,也須補充頁碼。非正文部分的內容(前言、序、后記等)頁碼如與正文頁碼重復,須在數值前加“*”標識,如*1。該字段標識的目的是方便讀者了解內容出處,便于在自己的文章中對內容進行引用。
②PDFpageNum項。此字段是用于標識內容在PDF上所屬的頁碼,要求是當前頁的PDF頁碼整型值。要求與圖書PDF文件的頁碼完全一致。該字段是使全文檢索系統能夠獲取用戶檢索結果對應的電子書的頁碼,可實現直接翻到結果所在位置進行閱讀。雖然大多數圖書的PDF頁碼與印刷的頁碼都相差固定值,該字段可通過pageNum項計算獲取,但個別圖書在正文中會出現不占頁碼的內容,這樣就會導致計算錯誤,造成混亂,因此該字段仍然需要標識。
③pageContent項。該字段為當前頁的文本內容,是為精確全文檢索所使用,要求為標準CDATA類型。內容中影響文字檢索的要素都要去除,這些要素是指非正文文字內容的文本插入在正文文字中,造成語句不通順、詞語分家的情況。如頁眉、頁腳和頁碼的文字,插在兩頁正文內容文本之間,隔斷了兩頁正文文字連貫性,被分割的詞語肯定無法被檢索到。
為此,對內容作出以下規定:每個段落開始有兩個全角空格,結束要有回車;段落之間只能有上一段落的回車和下一段落的兩個全角空格,不能有其他內容;每段文字須保持內容文字的連續性,影響連續性的頁眉內容、頁腳內容、頁碼、注釋符、符號、圖示說明、表格說明、注釋等內容都須剔除;如遇到標題、詩句、人名列表等顯示美觀需要而在內容間有空格、回車換行的,要去除文字間的回車和空格,使其文字連續起來,獨立成一個段落;保留文字內容與PDF一致,不得有漏字、段落混亂現象。
(4)目錄XML文件
目錄XML文件是為了方便提取章節標題及對應的內容,結構如下:
<?XML version="1.0" encoding="UTF-8"?> <Book> <Content> <Title> </Title> <Level></Level> <PageNum></PageNum> <PageNumEnd></PageNumEnd> <PDFPageNum></PDFPageNum>
<PDFPageNumEnd></PDFPageNumEnd> </Content> </Book>
以每個章節標題作為一條數據,Title為章節的標題內容;PageNum為當前章節內容起始的紙書頁碼;PageNumEnd為當前章節內容結束的紙書頁碼;PDFPageNum為當前章節內容起始的PDF頁碼;PDFPageNumEnd為當前章節內容結果的PDF頁碼;Level為當前章節所屬的層級(便于獲取章節間的從屬關系)。
(5)元數據XML加工
元數據XML加工是一個非常重要的類型。因此,在歷史出版資源的數據化加工中,根據情況盡可能使元數據信息完整。圖書的元數據信息可以在出版社內部各部門流轉編寫,也可以將同一個元數據文檔制作電子書的元數據外包給服務提供商,由他們負責電子書的格式轉換和發行業務。目前,對歷史出版資源的元數據標引還采取委托數字加工服務商制作的方式,由他們根據出版社的要求重新錄入,并進行相應的格式轉換。