- 數字出版實用教程(第二版)
- 黃孝章 周健華 張志林
- 1340字
- 2020-04-22 12:48:52
1.8.2 XML數據標引
(1)針對不同數據內容進行XML置標
XML標記語言是一種簡單的數據存儲語言,使用一系列簡單的標記描述數據,這些標記是一個公共格式,可以用方便的方式建立,不依附于特定瀏覽器。XML占用的空間雖然比二進制數據要多,但它極其簡單,易于掌握和使用,沒有固定的要求。因此,XML被廣泛用作跨平臺之間交互數據的形式,主要針對數據的內容,通過不同的格式化描述手段,生成對應的HTML、PDF或者其他的文件格式進行表達。
用XML標記元數據,其語法為:<標記屬性=值>信息內容</標記>,前面< >為信息內容的開始標記,后面</標記>為信息結束標記,二者成對出現。開始標記中的“屬性”是提示計算機處理用的參考信息,用以識別信息的語義,為建立的倒排檔提供內容析出的依據。例如,本書第1版用XML方式記述的部分基礎書目信息元數據如下。
<書名>數字出版實用教程</書名>
<著者>張志林黃孝章陳功明</著者>
<出版地>北京</出版地>
<出版社>知識產權出版社</出版社>
<出版年月>2011.10</出版年月>
<開本尺寸>787mm×960mm</開本尺寸>
用XML記述內容對象數據,則要根據內容對象的各種類型的結構化需要。對圖書的類型結構化可以分為如下三類,每一種類型在進行XML標引時的數據內容可以不相同。①論著類圖書:每篇論著可供結構化的內容包括標題、作者、摘要、關鍵詞、文章內容等。②教材教輔類圖書:按照篇、章、節來反解內容。③辭書類圖書:先將辭書以條目為單位進行反解,再進一步把條目里面不同意義的內容結構化。最終形成一本辭書對應一個條目集合,條目集合里面每個條目都是結構化的數據。
(2)圖書元數據的XML標引
如前所述,圖書元數據信息用處大,應盡可能多加標引,可以包括的內容有書名、年份、責任者、主要責任者關系、出版社、出版地、摘要、主題詞/關鍵詞、其他題名、作品類型、次要責任者、次要責任者關系、出版日期、標識、標識類型、紙書價格、版次、印次、字數(千字)、中圖分類號、語種、地圖法分類號、中國分類法、索書號、目錄等。以人民出版社為例,其作為甲方監理方用戶,提出對政治類圖書的元數據標引的加工要求,如表1-1所示。
表1-1 ××數據庫基礎信息元數據加工要求

(3)正文文本的XML標引
以北京中獻拓方公司為例,根據合同提供的XML標準,對數據標引程序進行配置優化,在加工生產流水線上進行。首先要制定完備的DTD,標識程序加入相應標簽,如角標標簽。編寫相應的XML文件,使其能夠在IE瀏覽器顯示圖書內容,根據顯示結果檢查標引正確與否,以此加工生產出滿足甲方監理方要求的XML文件。
在畫框識別的代碼界面中,紅色畫框表示鎖定的文字內容,位置信息已經由中間文件描述,每一個中文字符或者英文字符分別用綠色畫框標注,標題章節及每一行都有起始、結束內部標識符進行標記,如圖1-21所示。

圖1-21 正文文本的XML標識示例
帶有圖形的正文文本XML標識中,圖用綠色畫框鎖定,在標引框中并有標記表示,帶有圖形的正文文本XML標識示例如圖1-22所示。

圖1-22 帶有圖形的正文文本XML標識示例
帶有表格的正文文本XML標識中,表格用綠色畫框鎖定,在標引框中并有表的標記,帶有表格的正文文本XML標識示例如圖1-23所示。

圖1-23 帶有表格的正文文本XML標識示例
(4)XML標引是跨媒體出版的基石
根據上述對XML標引的講述可以了解,盡管原始文檔有多種格式,但歸一化處理后形成標準的圖書XML標引,通過程序初排或者程序轉換之后,就可以形成紙書或者PDF和ePub等電子書,實現內容的跨媒體呈現。因此說,XML標引是實現跨媒體出版的基石,如圖1-24所示。

圖1-24 基于XML標引實現的跨媒體內容呈現