官术网_书友最值得收藏!

1.3.4 數據的表示

1.數值數據的表示

一個數在計算機中的表示形式,稱為機器數。機器數所對應的原來的數值稱為真值,由于采用二進制表示,所以必須把符號數字化,通常是用機器數的最高位作為符號位,僅用來表示數符。若該位為0,則表示正數;若該位為1,則表示負數。

2.字符數據的表示

除了數值數據外,人們用的更多的是字符數據。從鍵盤上輸入的各種命令和數據都是以字符形式體現的。由于計算機只能存儲二進制數,這就需要對字符數據進行編碼。

(1)英文字符編碼

英文字符編碼最常用的是ASCII碼,ASCII是American Standard Code for Information Interchange的縮寫,意為美國標準信息交換代碼。該編碼已被國際標準化組織ISO采納,作為國際通用的信息交換標準代碼。ASCII碼用七位二進制數(每個字節的最高位為0)表示一個字符,可以表示128個字符。這些字符包括:10個數符0~9,26個大寫英文字母,26個小寫英文字母,33個符號及33個控制符。表1-2所示為其中95個可見字符(行、列號是用十六進制數表示的)。

表1-2 ASCII碼表(部分)

(2)中文字符編碼

①國標碼和區位碼:中國國家標準局1980年頒布了《信息交換用漢字編碼字符集基本集》(代號為GB2312—1980),簡稱國標碼,規定一個漢字用兩個字節表示(每個字節的最高位為0)。國標碼中有6763個漢字(其中一級漢字3755個,二級漢字3008個)和682個其他基本圖形字符,共計7445個字符。整個字符集分成94個區,每區有94個位。每個區位上只有一個字符,因此可用所在的區和位來對漢字進行編碼,稱為區位碼。例如,“澤”字在52區83位,其區位碼是5283。區位碼也是一種漢字輸入法,并且沒有重碼,但是由于它不便記憶,所以人們用得很少。

將換算成十六進制的區位碼加上2020H,就得到國標碼。國標碼加上8080H,就得到常用的計算機機內碼。如果要求“澤”字的機內碼,首先將其十進制的區碼和位碼分別轉換為十六進制數,即3453H,進而可得出它的國標碼為5473H,機內碼為D4F3H。

2001年開始執行國家標準GB18030—2000《信息交換用漢字編碼字符集基本集的擴充》,其中收錄了27484個漢字及少數民族文字。現在最新版本是GB18030—2005,收入字符7萬余個。

②機內碼和輸入碼:漢字的機內碼是指計算機內部存儲、處理和傳輸漢字時所用的代碼。國標碼不能在計算機內部直接使用。為了不與早已通用的ASCII碼相混淆,將國標碼每個字節的最高位都從0換成1(相當于加上8080H),便可得到機內碼。

漢字輸入碼是指用戶從鍵盤輸入的漢字編碼。漢字輸入方法很多,不同輸入法有自己的編碼方案。不管用什么漢字輸入法,輸入碼都要轉換成機內碼,才能被存儲和處理。同一個漢字,雖然不同輸入法有不同的輸入碼,但其機內碼是唯一的。

③漢字字形碼:漢字字形碼又稱漢字字模,用于漢字的顯示或打印。漢字字形碼有兩種表示方式:點陣和矢量。

用點陣表示字形時,漢字字形碼就是漢字字形點陣的代碼。根據輸出漢字的要求不同,點陣的多少也不同,有16×16點陣,24×24點陣,32×32點陣等。一個16×16點陣的漢字字形要占32個字節。所有不同的漢字字體、字號的字形構成漢字庫,一般存儲在硬盤上,當要顯示輸出時才調入內存,檢索到要輸出的字形,然后送到顯示器輸出。

矢量表示方式存儲的是描述漢字字形的輪廓特征,當輸出漢字時,通過計算生成所需的漢字。矢量方式得到的漢字在放大時不失真。

(3)Unicode碼

Unicode只有一個字符集,中、日、韓的三種文字占用了Unicode中0x3000到0x9FFF的部分。Unicode目前普遍采用的是UCS-2,它用兩個字節來編碼一個字符,比如漢字“出”的編碼是0x51FA,注意字符編碼一般用十六進制來表示,為了與十進制區分,十六進制以0x開頭,0x51FA轉換成十進制就是20986,UCS-2用兩個字節來編碼字符,兩個字節就是16位二進制,2的16次方等于65536,所以UCS-2最多能編碼65536個字符。編碼從0到127的字符與ASCII編碼的字符一樣,比如字母“A”的Unicode編碼是0x0041,十進制是65,而“A”的ASCII編碼是0x41,十進制也是65。

UCS-2對漢字支持并不理想,簡體和繁體總共有六七萬個漢字,而UCS-2最多能表示65536個,所以Unicode只能排除一些幾乎不用的漢字,好在常用的簡體漢字只有七千多個。為了能表示所有漢字,Unicode制定了UCS-4規范,即用4個字節來編碼字符。

3.聲音和圖像數據的表示

聲音是一種連續變化的模擬量,可以通過“模/數”轉換器對聲音信號按固定的時間進行采樣,把它變成數字量,便可在計算機中存儲和處理了。數字化聲音的質量取決于聲音采樣的頻率和每個樣本值用多少數字表示的采樣深度。

圖像是點的集合。在計算機中表示圖像有位圖和矢量圖兩種方法。在位圖表示方法中,每個點被稱為像素。對每個像素用若干二進制位編碼,整個圖像就表示成已經編碼的像素的集合。矢量圖是用一組指令來描述的,這些指令給出構成該圖的直線、曲線等的形狀位置和顏色等參數。

主站蜘蛛池模板: 克什克腾旗| 卫辉市| 怀化市| 平泉县| 抚宁县| 呈贡县| 汉阴县| 隆回县| 胶州市| 长汀县| 西城区| 克拉玛依市| 建宁县| 腾冲县| 黔西县| 施秉县| 平潭县| 彭阳县| 龙口市| 图木舒克市| 上犹县| 望都县| 洛宁县| 博客| 安乡县| 绿春县| 彰化市| 乌海市| 鲁山县| 朝阳市| 齐河县| 兴仁县| 青铜峡市| 集安市| 沁源县| 桦甸市| 稷山县| 满洲里市| 库伦旗| 洛南县| 丹寨县|