官术网_书友最值得收藏!

1.2 文本、圖形和圖像媒體基礎知識

1.2.1 文本媒體基礎知識

1.文本特點

(1)輸入方便、處理容易:字符的輸入可以有多種方式,操作均很方便。如果用鍵盤輸入漢字,每分鐘可以輸入一百多個漢字。由于每個字符對應一個或兩個字節的二進制數據,所以計算機在進行文字處理時可以直接對字節進行處理。

(2)文件很小、存取快速:由于每個字符對應一個或兩個字節的二進制數,所以生成的文本文件很小。因為計算機在進行文字處理時很容易,所以文本文件的存取速度很快。

(3)表達清楚準確:文字表達可以做到表達清楚、明了和準確,可以敘述事情、邏輯推理、數學公式表述等。

(4)應用最多且樣式多樣:多媒體中應用最多的是文本。文本的樣式多種多樣,可設置文本的字體、大小、顏色、字形(正常、加粗、斜體等)、字間距、行間距和段間距等。

(5)形式簡單、字符編集:文本是字母、數字、數字序號、數學和標點符號、注音符號、制表符號、特殊符號、圖形符號和其他各種符號的集合,通常把這個集合叫字符集。有多種不同類型的字符集,不同的字符集所包含的字符也不一樣,每個字符集對應的編碼也不同。字符編碼有ASCII和EBCDIC編碼,漢字編碼有GB、Unicode和Big5等編碼。

2.文字字體類型

文字的字體類型有點陣字體、矢量字體、描邊和組字體字體。其中,點陣字體在早期計算機中使用很多,它是由點構成的,易于創建和存儲,放大后會失真,目前使用很少。矢量字體是用數學中的矢量函數記錄的文字顏色和形狀,在放大時不會產生失真,廣泛用于印刷領域。描邊字體的漢字采用描邊的方法,采用矢量函數完整地描繪出整個描邊漢字。組字體是采用拆卸組合的方法,將中文分成筆畫(矢量筆畫),再組合成不同的漢字,缺點是在構成漢字時會在筆畫的交叉處產生“漏白”現象,嚴重影響文字的美觀,基本被淘汰。

3.字符編碼

計算機中的數據可以分為數值型數據與非數值型數據。其中數值型數據就是常說的“數”(如整數、實數等),它們在計算機中是以二進制形式存放的。而非數值型數據與一般的“數”不同,通常不表示數值的大小,而只表示字符,非數值型數據還包括各種控制符號和圖形符號等信息,為了便于計算機識別與處理,它們在計算機中是用二進制形式來表示的,通常稱之為字符的二進制編碼。計算機中常用的字符編碼簡介如下。

(1)ASCII碼:目前使用最多的字符集是ASCII碼字符集(美國信息交換標準代碼),它是由美國標準化委員會制定的。該編碼被國際標準化組織ISO采納,作為國際通用的信息交換標準代碼。ASCII碼有7位碼和8位碼兩種版本。

國際的7位ASCII碼(基礎ASCII碼)使用7位二進制數表示一個字符的編碼,其范圍是(0000000)2~(1111111)2,即0000000B~1111111B,共27=128個不同的編碼。包括了計算機處理信息常用的26個英文大寫字母A~Z、26個英文小寫字母a~z,數字符號0~9、算術與邏輯運算符號、標點符號等。在一個字節(八位二進制)中,ASCII碼用了7位,最高一位空閑,常用來作為奇偶校驗位。另外,還有擴展的ASCII碼,它用8位二進制數表示一個字符的編碼,可表示28=256個不同的字符。用ASCII表示的字符稱為ASCII碼字符,如表1-2-1所示。

表1-2-1 ASCII碼字符表

十進制數字字符的ASCII碼與它們的二進制值是有區別的。例如,十進制數8的7位二進制數為(0001000)2,而十進制數字字符“8”的ASCII碼為(0111000)2=(38)16=(56)10,由此可以看出,數值8與字符“8”在計算機中的表示是不一樣的。數值8能表示數的大小,可以參與數值運算;而字符“8”是一個符號,不能參與數值運算。

為了統一各種語言字符的表達方式,國際上又制定了國際統一編碼(Unicode編碼)。在這種編碼的字符集中,一個字符的編碼占用2個字節,一個字符集可以表示的字符比ASCII碼字符集所表示的字符擴大了一倍。

(2)EBCDIC碼:它是對BCD碼的擴展,稱為擴展BCD碼。BCD碼又稱“二-十進制編碼”,用二進制編碼形式表示十進制數。BCD碼的編碼方法很多,最常用的是8421碼,其方法是用4位二進制數表示一位十進制數,自左至右每一位對應的位權是8、4、2、1。4位二進制數有0000到1111共16種形態,而十進制數只有0~9共10個數碼,BCD碼只取0000~1001十種形態。由于BCD碼中的8421碼應用最廣泛,所以一般說BCD碼就是指8421碼。

4.漢字編碼和漢字的處理過程

(1)國標碼:我國國家標準總局于1980年頒發了國家漢字編碼標準GB2312—1980,全稱為“信息交換用漢字編碼字符集基本集”,也稱為漢字信息交換碼或國標碼。1981年5月1日開始實施。國標碼規定,一個漢字的編碼用兩個字節表示。國標碼的字符集共收集了6763個漢字,682個數字、序號、拉丁字母等圖形符號。

根據漢字信息交換碼,一個漢字的機內碼也用2個字節存儲。因為ASCII碼是西文的機內碼,為了不使漢字機內碼與ASCII碼發生混淆,就把漢字每個字節的最高位置為1,作為漢字機內碼。國標碼規定,全部國標漢字及符號組成94×94矩陣,在該矩陣中,每一行稱為一個“區”,每一列稱為一個“位”。這樣,就組成了94個區(01~94區),每個區內有94個位(01~94)的漢字字符集。區碼和位碼簡單地組合在一起(即兩位區碼居高位,兩位位碼居低位)就形成了“區位碼”。區位碼可以唯一確定某一個漢字或漢字符號,反之,一個漢字或漢字符號都對應唯一的區位碼,如漢字“啊”的區位碼為“1601”(即在16區的第1位)。所有漢字及符號的94個區劃分成如下四個組。

①1~15區:為圖形符號區,其中,1~9區為標準符號區,10~15區為自定義符號區。

②16~55區:為一級常用漢字區,共有3755個漢字,該區的漢字按拼音排序。

③56~87區:為二級非常用漢字區,共有3008個漢字,該區的漢字按部首排序。

④88~94區:為用戶自定義漢字區。

(2)漢字處理過程:為了使計算機可以處理漢字,也需要對漢字進行編碼。從漢字編碼的角度看,計算機進行漢字處理的過程實際上是各種漢字編碼的轉換過程。這些漢字編碼有漢字輸入碼、漢字內碼、漢字地址碼和漢字字形碼(即漢字輸出碼)等,如圖1-2-1所示。

圖1-2-1 漢字的處理過程和漢字的幾種編碼

(3)漢字編碼:在漢字的處理過程中提到的漢字編碼簡介如下。

①漢字輸入碼:是為用戶能夠使用西文鍵盤輸入漢字而編制的編碼,也叫外碼。目前,漢字主要是經標準鍵盤輸入計算機的,所以漢字輸入碼都是由鍵盤上的字符或數字組合而成。漢字輸入碼有許多種不同的編碼方案,包括音碼,以漢語拼音和數字組成的漢字編碼,例如全拼輸入法的編碼等,種類非常多,被大多數用戶采用;形碼,根據漢字的字形結構對漢字進行的編碼,例如五筆字型輸入法的編碼;音形碼,以拼音為主,輔以字形、定義的漢字編碼,例如自然碼輸入法的編碼;數字碼,直接輸入固定位數的數字給漢字編碼等。同一漢字的不同編碼方案中的編碼通常是不同的。好的編碼要求易學習、重碼少、擊鍵次數少、容易實現盲打等。

②漢字機內碼:也稱漢字內碼,是從上述區位碼的基礎上演變而來的。它是在計算機內部進行存儲、處理和傳輸時所使用的漢字編碼。不論用何種輸入碼,輸入的漢字在機器內部都要轉換成統一的漢字機內碼,然后才能在機器內傳輸、處理。

區碼和位碼的范圍都在01~94內,如果直接作為機內碼必將與基本的ASCII碼沖突。為了在計算機內部區分是漢字編碼還是ASCII碼,避免與基本ASCII碼發生沖突,將國際碼每個字節的最高位由0改為1(即漢字內碼的每個字節都大于128)。

漢字的國標碼和相應的漢字機內碼的關系如下(其中的H表示為十六進制數)

漢字機內碼=漢字國標碼+8080H

其中,8080H=(8080)16=(1000000010000000)2

國標碼+8080H的含義是將國標碼的第7位和第15位置為1,因8080H=1000000010000000B,注意其中的第7位和第15位都為1(二進制是以0開始數起的,所以是7和15位)。為什么要加上8080H呢?是因為在計算機中ASCII碼和漢字機內碼是共存的,如何區分它們呢?因為ASCII碼的最高位是0,所以將漢字機內碼的最高位置為1,用來區別ASCII碼和漢字機內碼,計算機在判斷是ASCII碼還是漢字機內碼時,只需要判斷它們的最高位即可。

③漢字字形碼:也稱漢字輸出碼,漢字是一種象形文字,每一個漢字都是一個特定的圖形,它可以用點陣來描述。例如,如果用16×16點陣來表示一個漢字(見圖1-2-2),則該漢字圖形由16行16列共256個點構成,這256個點需用256個二進制的位來描述。約定當二進制位值為“1”表示對應點為黑,二進制位值為“0”表示對應點為白。一個16×16點陣的漢字需要2×16=32個字節存放圖形信息,這就構成了一個漢字的圖形碼,所有漢字的圖形碼就構成了漢字字庫。

圖1-2-2 “王”字16×16點陣字形

④漢字地址碼:是指漢字庫中存儲的漢字字形編碼的邏輯地址。在漢字庫中,字形編碼數據一般是按照一定順序連續存放在存儲介質內。漢字地址碼大多數也是連續有序的,而且與漢字內碼間有著簡單的對應關系,從而可以簡化漢字內碼到漢字的轉換。

當用某種漢字輸入法將一個漢字輸入到計算機之后,漢字管理模塊立即將它轉換為2個字節的國標碼,同時將國標碼每個字節的最高位置為“1”,作為漢字的標志,將國標碼轉換成漢字內碼。然后,根據漢字內碼轉換為漢字地址碼,再根據漢字地址碼在漢字庫中找到對應的一個漢字圖形碼,最后根據漢字圖形碼輸出漢字字形。

5.常見的文本文件格式

(1)TXT格式:TXT格式文件是包含極少格式信息的文本文件,是通用的、跨平臺的文本文件。TXT格式沒有明確的定義,它通常是指那些能夠被系統終端或者簡單的文本編輯器接受的格式。Windows“附件”中提供了一個“記事本”軟件,可以輸入、編輯、瀏覽和打開TXT格式文件。其他任何可以讀取文字的程序都能讀取TXT格式的文本。

(2)RTF格式:RTF是Rich Text Format的縮寫,含義是多文本格式,類似DOC格式,有很好的兼容性,是由微軟公司開發的跨平臺文檔格式。大多數的文字處理軟件都能讀取和保存RTF文檔。使用Windows“附件”中的“寫字板”可以創建、打開和編輯RTF文檔。

RTF的最大優點是具有通用兼容性,它的缺點是文件一般相對較大。Word等應用軟件可能無法正常保存為RTF格式文件等。對普通用戶而言,RTF格式是一個很好的文件格式轉換工具,用于在不同應用程序之間進行格式化文本文檔的傳送。

(3)DOC和DOCX格式:DOC格式文件是Office Word2003或之前版本的文件,DOCX格式文件是Office Word2007或之后版本的文件。它們都是微軟公司Office軟件的專屬格式,其文檔可以容納腳本語言和圖片等,但因為該格式屬于封閉格式,其兼容性也較低。

(4)WPS格式:WPS是Word Processing System的縮寫,中文含義是文字編輯系統,是金山軟件公司的一款辦公軟件。它具有豐富的全屏幕編輯功能、各種控制輸出格式及打印功能,基本上能滿足各界文字工作者編輯的需要。WPS格式是WPS軟件獨有的文檔格式。

在WPS軟件中打開WPS格式文檔,可以再保存為DOC或DOCX格式的文檔;在WPS軟件中打開DOC或DOCX格式的文檔,可以再保存為WPS格式的文檔。

(5)ODF格式:是Open Office軟件的專有格式,也有很多軟件可以打開ODF格式文檔。Open Office軟件是一款開源的、整合性、商業級辦公套件,它包含了許許多多的工具,其功能絕不遜于微軟的Microsoft Office,不但可以有Word一樣的字處理等功能,還可以輸出與Microsoft Office的Word、Excel和PowerPoint軟件的文檔格式相同的文檔。

Open Office是一套跨平臺的辦公室軟件套件,能在Windows、Linux、MacOSX(X11)等操作系統上執行,是自由軟件,可以免費下載。它與各個主要的辦公室軟件套件兼容。

(6)PDF格式:PDF文件格式是Adobe公司開發的電子文件格式,它與操作系統平臺無關,也就是說,PDF文件在Windows、UNIX和Mac OS操作系統中都是通用的,使它成為在Internet上進行電子文檔傳播的理想文檔格式。它已成為一個工業標準。

(7)RSS格式:RSS(簡易信息聚合)是一種消息來源格式規范,用以聚合經常發布更新數據的網站,如博客文章、新聞、音頻或視頻的網摘。RSS文件包含了全文或節錄的文字等。RSS文件可以借由RSS閱讀器來閱讀。RSS閱讀器軟件的種類很多,如看天下RSS閱讀器、Feedreader軟件和博閱RSS閱讀器等。RSS文件常用于更新頻繁的網站。

主站蜘蛛池模板: 论坛| 墨玉县| 崇左市| 库尔勒市| 临洮县| 班玛县| 中江县| 广德县| 盐池县| 绥宁县| 饶阳县| 定日县| 迁西县| 洪湖市| 新晃| 浦城县| 汶川县| 韶关市| 商洛市| 武义县| 都江堰市| 聊城市| 江孜县| 塔城市| 策勒县| 同德县| 东光县| 昆山市| 沾化县| 铁力市| 全椒县| 嵊泗县| 灌阳县| 遂平县| 金寨县| 松江区| 和平区| 麦盖提县| 镇平县| 安徽省| 宿迁市|