2.11 數字視頻信號的信源編碼
2.11.1 數字視頻信號壓縮機理
數字視頻信號壓縮的機理,一是充分利用了圖像信號中存在大量冗余度,二是充分利用人眼的視覺特性(生理光學與心理光學特性)。
(1)圖像信號中存在大量冗余度
統計表明相鄰像素間、相鄰行間與相鄰幀間,有很強的相關性。電視畫面中大部分區域的信號變化緩慢(尤其背景部分)。
① 空間冗余
一幅圖像中規則物體、規則背景有很強的相關性,如藍天或草地的背景中,所有點的亮度、色度及飽和度基本相同,表達這樣的圖像有很大的冗余。
② 時間冗余
相鄰兩幅圖像之間有較大的相關性(如火車飛奔,兩幅之間背景基本不變,火車本身的信息也時間相關)。
③ 視覺冗余
人眼對圖像的感知是非均勻和非線性的,分辨率是有限的,對圖像的微量變化并不能都能感覺出來,允許引入覺察不到的噪聲(人眼的灰度分辨率大約26-27,而圖像量化采用28的灰度等級)。
(2)人眼的視覺特性
人眼視覺特性是圖像壓縮編碼的重要依據,視覺特性主要表現在以下幾個方面。
① 亮度辨別閾值
剛剛能夠覺察到的亮度變化值。
② 視覺閾值
干擾或失真剛好可被覺察的門限值。
③ 空間分辨力
對一幅圖像相鄰像素的灰度與細節的分辨力,對不同內容的圖像有不同的分辨力。對靜止與活動圖像有不同的分辨力,亮度不同,分辨力也不同。
④掩蔽效應
掩蔽效應是指人眼對圖像中量化誤差的敏感程度,與圖像信號變化的劇烈程度有關。
(3)視頻數據壓縮編碼的分類
根據解碼或與壓縮前的數據是否一樣,可分為:無損壓縮(不失真壓縮)和有損壓縮(失真壓縮)。
根據壓縮的機理不同分類,和分為基于信源統計特性的壓縮編碼;基于人眼視覺特性的壓縮編碼;基于圖像景物特征的壓縮編碼。
基于信源統計特性的壓縮編碼:屬于這一類的編碼方法有預測編碼、變換編碼、矢量量化編碼、子帶-小波編碼、神經網絡編碼等。
基于人眼視覺特性的壓縮編碼:屬于這一類的編碼方法有方向濾波的圖像編碼方法、圖像輪廓-紋理編碼方法。
基于圖像景物特征的壓縮編碼:屬于這一類的編碼方法有分形編碼法和模型編碼法。
2.11.2 常用視頻編碼方法
(1)預測編碼
減少數據在時間和空間上的相關性:任何一個像素可以由與它相鄰的且被編碼的像素預測估計,進行幀內預測編碼(利用空間冗余)和幀間預測編碼(利用時間冗余)。
預測編碼是根據某一模型,利用過去的樣值預測當前的樣值,再將當前的樣值的實際值與預測值相減得到一個誤差值,只對該預測誤差值進行編碼。由于預測誤差信號要比原始信號小得多,可用較少的電平等級量化,從而大大減小數據率。
(2)變換編碼
變化編碼的基本思想:將在幾何空間描述的圖像信號,變換到另外的向量空間(變換域)描述,再根據圖像在變換域中系數的特點和人眼的視覺特性進行編碼。
由于圖像數據在空間上的相關性,變換到變換域后,能量往往集中在少數養值上,通過舍棄一些較小的系數,實現數據壓縮。
變換編碼一般采用正交變換,常用的圖像正交變換有:離散傅里葉變換、最佳變換、離散余弦變換等。
(3)統計編碼
利用信息論原理減少數據冗余。信源中所含的平均信息量“熵”是無失真壓縮編碼的理論極限。
霍夫曼編碼方法(利用概率分布特性)就是利用信息熵的編碼。霍夫曼編碼根據符號發送概率的不同,分配不同碼長的碼字(變字長編碼)。
(4)子帶編碼
利用帶通濾波器組將信號頻帶分割為很多子頻帶,再對每一個子帶進行獨立的編碼(數據壓縮)。
(5)小波變換編碼
小波變換編碼是一種不受帶寬約束的圖像壓縮方法。可以在指定的頻帶和時(空)域內對信號進行分析,在任意的時(空)域尺度內,以任意高的分辨率觀察信號的細微特征。小波變換編碼在MPEG-4靜止圖像壓縮中得到應用。
2.11.3 視頻壓縮標準與應用
(1)JPEG標準
1986年發布,適用于靜止圖像的壓縮以及電視圖像序列的幀內壓縮。
(2)H.261和H.263標準
1990年CCITT通過,主要應用在綜合業務數字網ISDN上傳輸電視電話會議等低碼率多媒體領域。
后來的H.263標準既適應低速也適應高速通信網;H.263的壓縮方法與H.261基本相同,但視頻格式不同。
(3)H.264
MPEG(Moving Picture Experts Group)和VCEG(Video Coding Experts Group)聯合開發了比早期的MPEG及H.263 性能更好的視頻壓縮編碼標準,稱為AVC(Advanced Video Coding),也被稱為ITU-T H.264 建議和MPEG4 的第10 部分(MPEG-4 ISO/IEC 14496-10)。該標準已于2003年3月被ITU-T通過并在國際上正式頒布。
(4)MPEG標準
① MPEG-1 ISO/IEC 11 1 72-2
數據率為1.5Mb/s的圖像信號的壓縮,在VCD中應用。
② MPEG-2 ISO/IEC 13818-2
各種數據率的圖像信號的壓縮,主要應用于DVD,SDTV和HDTV中。
③ MPEG4 ISO/IEC 14496-2
1999年1月發布,主要特征:采用基于對象編碼,可以對不同來源的對象進行合成,對象可以是自然的,也可以是合成的。
主要應用:目標是多媒體的多領域應用,支持各種數據率(5kb/s~4Mb/s)格式和分辨率。時實通信(視頻會議、可視電話等)、移動多媒體(PDA等)、交互媒體存儲(DVD等)、交互視頻游戲、節目制作及廣播業務。
(5)WMV9
WMV:全稱Windows Media Video,是微軟在ASF基礎上推出的一種媒體格式,具有體積小,可進行高速網絡傳輸等特點,目前,在網上比較流行。
Windows Media Audio & Video 9系列編解碼器,它具有特別設計的功能,可在撥號速率下提供出色的音質和畫質,在使用寬帶連接時為用戶提供類似家庭影院的體驗,并可優化下載后播放的內容。
微軟宣稱,WMV9是一種經過驗證的編解碼器,能夠在壓縮效率與計算效率之間達到比H.264更好的平衡。
WMV9與H.264一樣,都是高性能的視頻編解碼標準,區別在于前者是軟件霸主微軟的獨門絕技,而后者是真正的國際標準。實驗數據表明,同樣是2小時的HDTV節目,如果使用MPEG-2最多只能壓縮至30GB,而使用H.264、WMV9這樣的高壓縮率編碼器,在畫質絲毫不降的前提下都可壓縮到15GB以下。
WMV9是微軟開發的視頻壓縮技術系列中的最新版本,盡管WMV9是微軟的獨有標準,但因其在操作系統中大力支持WMV系列版本,從而在桌面系統得以迅速普及。
在性能上,WMV9的數據壓縮率與H.264一樣,兩者的應用領域也極其相似,因此在新一代主流視頻編碼標準霸主地位的爭奪之中,雙方展開了針鋒相對的斗爭,而斗爭的焦點集中在下一代光盤規格“HD DVD”和數字微波廣播電視等領域。
(6)AVS
國家信息產業部科學技術司于2002年6月批準成立數字音視頻編解碼技術標準工作組。工作組的任務是:面向我國的信息產業需求,聯合國內企業和科研機構,制(修)定數字音視頻的壓縮、解壓縮、處理和表示等共性技術標準,為數字音視頻設備與系統提供高效經濟的編解碼技術。
服務于高分辨率數字廣播、高密度激光數字存儲媒體、無線寬帶多媒體通信、互聯網寬帶流媒體等重大信息產業應用。
AVS標準作為數字音視頻產業的共性基礎標準,廣泛應用于高清晰度和標準清晰度數字電視廣播、激光視盤機、移動多媒體通信、視頻會議與視頻監控、寬帶網絡流媒體、數字電影等產業群。
與其他類似標準相比,AVS有兩大優勢:基于自主技術和部分開放技術構建的開放標準,妥善解決專利許可問題;中國日漸強大的產業化實力和市場提供了良好土壤。
2.11.4 H.264編碼原理與性能
由于H.264編碼方法在多媒體廣播傳送視頻信號中得到廣泛應用,在這一節中專題介紹這種方法的編碼原理及其性能。
(1)H.264編碼器的基本原理
H.264采用的編碼結構實際上和MPEG-2相似。在H.264編碼器中主要應用了下列技術:
非常靈活的動態補償體系;多層參考圖像;循環濾波;去除塊效應;進行幀內預測。
如圖2-11-1所示是H.264/AVC基本編碼器原理方框圖。編碼算法大體可分為兩個層次:一是完成對視頻內容的有效描述,進行高效編碼的視頻編碼層(VCL),二是完成在不同的網絡上進行視頻數據打包傳輸的網絡適配層(NAL,包括打包和相應的信令)。此外,在VCL與NAL之間定義了建立在分組基礎上的接口。H.264/AVC的分層結構如圖2-11-2所示。

圖2-11-1 H.264/AVC基本編碼器原理方框圖

圖2-11-2 H.264/AVC的分層結構
預測編碼是利用圖像信號在時間和空間上的相關性,減少冗余度而達到減低數據率的目的。
幀內預測
幀內預測是根據前面已經傳送的同一幀內的像素預測當前像素,利用圖像信號的空間相關性減低冗余度。H.264采用了新的幀內預測模式,通過已編碼重建的當前像素塊的左邊與上邊的像素進行預測,只對實際值與預測值之間的差值編碼。在H.264標準中,亮度塊的預測模式有9種4×4塊和4種16×16塊,色度有8×8塊4種模式(與亮度的4種16×16塊的模式相同)。
幀間預測
幀間預測是根據圖像相鄰幀之間在時間上的相關性來實現數據率的減低。將每個亮度塊劃分為形狀不等的區域,作為運動描述區域。通常有16×16、16×8、8×16和8×8(該方式可以繼續劃分為8×8、8×4、4×8和4×4共四個子區域)四種不同劃分方法。每個區域包含各自的運動矢量(表示運動方向與位移量),通過編碼傳送運動矢量與區域選取信息。區域選取的大(小),表示運動矢量和區域選取信息的數據量小(大),運動補償后的殘差大(小)。
變換與量化
在H.264中,運動估計值與幀內預測的殘差結果從時域變換到頻域,使用了類似于4×4離散余弦變換的整數變換,代替了MPEG-2和MPEG-2采用的浮點數變換,具有計算速度快、效果好等優點。同時,根據殘差系數的不同,H.264采用了三種不同的變換矩陣。
在H.264中,量化系數借助無擴展的分級量化進行量化。同時,H.264還提供了自適應塊變換,能夠根據分塊的尺寸調整變換和量化的參數。
抗塊效應濾波
在H.264中,基于內容的抗塊效應濾波的作用,是為了提供更好的參考圖像,提高解碼圖像的主觀與客觀質量。
熵編碼
經過上述的變化和量化之后,得到的每一系數需要一對應的碼字表示,并傳送到解碼端。熵編碼是可變字長編碼,它根據符號發送概率的不同分配有不同碼長的碼字。出現概率大的符號,配以短碼;否則,配以長碼。
在H.264中,使用了兩種熵編碼方法。一種是基于上下文的自適應變字長編碼,另一種是普通的變字長編碼。普通的變字長編碼的缺點是沒有考慮由符號相關性決定的條件概率,影響中高碼率時的壓縮效果。
(2)H.264解碼器的基本原理
如圖2-11-3所示是H.264解碼器方框圖。解碼處理的兩條路徑包括對預測視頻塊的解碼以及對編碼殘差塊的解碼,根據這兩種解碼結果來形成重構塊。解碼處理步驟包括:熵解碼、運動補償預測、反轉掃描、反量化與反變換等。

圖2-11-3 H.264解碼器方框圖
(3)H.264性能
H.264在顯著低的數據率下,能提供明顯高的圖像質量。H.264 屬于MPEG4 的第10部分,是高效的技術。相對于前一代的編碼器它可以節約帶寬和大的存儲器的費用。H.264只用1/3或1/2 的數據率就有與MPEG2 相同的質量,在相同的的數據率下,分辨率為MPEG4第2部分的4倍。
H.264為最不同的應用領域在所有時間實現最好的壓縮效率,如TV發射、DVD、視頻會議,視頻點播,流和多媒體信息等。在數字電視廣播、視頻實時通信、網絡視頻流媒體傳遞以及多媒體短信等方面發揮重大作用。
由于它的苛求的設計,在很多領域產生一等的質量-從3G到HD等。不管何種需要,H.264選用了多種編碼方式和多種預測方式,以便自適應的選用壓縮效果最佳的編碼方法。H.264都可以確保在特別低的數據率下有特別不尋常的能力。
如表2-11-1所示是不同應用、分解率和圖像速率、數據率之間的關系(fps為每秒幀數)
H.264提供了一系列誤碼恢復和校正措施,提高了網絡的親和性。與H.263和MPEG-2相比,峰值信噪比提高了3dB,或者碼率節省了一半。
H.264與以前的國際標準如H.263和MPEG-4相比,最大的優勢體現在以下四個方面:
① 將每個視頻幀分離成由像素組成的塊,因此視頻幀的編碼處理的過程可以達到塊的級別。
② 采用空間冗余的方法,對視頻幀的一些原始塊進行空間預測、轉換、優化和熵編碼(可變長編碼)。
③ 對連續幀的不同塊采用臨時存放的方法,這樣,只需對連續幀中有改變的部分進行編碼。該算法采用運動預測和運動補償來完成。對某些特定的塊,在一個或多個已經進行了編碼的幀執行搜索來決定塊的運動向量,并由此在后面的編碼和解碼中預測主塊。
④ 采用剩余空間冗余技術,對視頻幀里的殘留塊進行編碼。例如,對于源塊和相應預測塊的不同,再次采用轉換、優化和熵編碼。