2.4 MPEG音頻編碼標準
1988年國際標準化組織(ISO)和國際電工技術委員會(IEC)建立了在信息技術領域的聯合技術委員會,該委員會的第11工作組稱為運動圖像專家組(Motion Picture Experts Group,MPEG),負責起草制定數字音頻、視頻信號的國際編碼標準。到目前為止,已先后公布了MPEG-1、MPEG-2和MPEG-4等用于數據率壓縮的國際標準。
2.4.1 MPEG-1 音頻編碼標準
MPEG的第一階段的成果MPEG-1標準,編號為ISO/IEC11 1 72。該標準適用于視頻、音頻(伴音)信息經壓縮后的總數據率上限為1.5Mb/s,可以滿足在CD-ROM、硬盤、可寫光盤、數字音頻磁帶(DAT)等介質上存儲,也可以在局域網、ISDN(綜合業務數字網)上進行經壓縮的數字視頻和音頻信號的傳輸。
ISO/IEC11 1 72標準于1993年正式公布實施。這里,我們著重討論ISO/IEC11 1 72-3 音頻編碼部分。
MPEG-1音頻編碼標準,適用于32kHz(在數字衛星廣播DSR中應用)、44.1kHz(CD中應用)和48kHz(演播室中應用)等取樣頻率。聲音信號的工作模式有單聲道、雙聲道(兩個單聲道)、立體聲和聯合立體聲。
在MPEG-1音頻編碼標準中,有三種編碼算法系列,稱為三種Layer(層)。Layer1、Layer2和Layer3之間的關系是:
Layer1:是MUSICAM(掩蔽型通用自適應子帶綜合編碼與復用)編碼方法的簡化版本。
Layer2:是MUSICAM編碼方法的標準版本,因此,歐洲人通常稱MPEG-1音頻編碼方法Layer2為MUSICAM編碼方法。
Layer3:是MUSICAM與ASPEC(自適應頻譜感知熵編碼)的結合。
三層之間的關系是,隨著層號的增加,編碼器的復雜性也增加,信號處理過程(編碼和解碼)的時延也增加,這可以說是缺點;但是,最大的優點是能力增加。所謂能力增加,體現在兩個方面:一是在保證相同的質量下,可以有更低的碼率;二是在相同的數據率下,可以有更好的質量。
三層之間解碼器有向下兼容的特性,即層號高的解碼器可以對用本層和低層編碼算法進行編碼的數據流解碼。
MPEG音頻標準對每種Layer定義了編碼聲音信號的格式和在解碼器中這些格式的處理。在標準中沒有確定解碼器,是考慮到允許將來編碼方法的繼續發展,重要的只是每種MPEG編碼器都要遵守統一的數據格式。
所有的Layer在確定短時間頻譜時都使用相同的濾波器組(有32個子頻帶的多相濾波器組,每個子頻帶寬750Hz)。Layer3 增加了一個MDCD(改良的離散余弦變換),這樣做,使頻率分辨率提高18倍。
三種Layer在它們的比特流中使用了相同的“幀頭”,它們的比特流既包括對比特差錯反應很敏感(即一旦出現比特差錯,便有很大的干擾作用)的部分,也包括對比特差錯反應不敏感的部分,如頻譜樣值成分的數據。
所有的Layer都支持在它的音頻數據流中,插入與節目有關的信息(輔助數據);所有的Layer使用通用的取樣頻率(32,44.1和48kHz),可以以相似的數據率工作,不同的Layer適合于不同的應用:
Layer1:32—448kb/s,用于DCC、VCD;
Layer2:32—384kb/s,用于數字音頻廣播(DAB),電纜和衛星廣播(ADR)、電纜和衛星電視(DVB)、計算機多媒體;
Layer3:32—320kb/s,用于通過ISDN傳送廣播節目、Internet網聲音點播、MP3光盤存儲等。
Layer的選擇當然取決于應用的要求。首先要注意應用中可提供的比特率,因為各Layer支持確定的數據率的特別有效性,使用不同的Layer,可以實現不同的聲音信號數據壓縮程度。如表2-4-1所示是不同Layer的比較。
表2-4-1 不同Layer的比較

2.4.2 MPEG-2音頻編碼標準
MPEG-2音頻編碼標準文號為ISO/IEC13818-3,它是對MPEG-1 音頻編碼標準的發展和擴展。發展和擴展表現在兩方面:一是多聲道環繞聲編碼和多語言節目編碼;二是低取樣頻率(LSF)低比特率編碼。MPEG-2標準于1994年11月公布。
(1)多聲道環繞聲編碼和多語言節目編碼
眾所周知,重放立體聲節目的起碼條件是雙聲道。但是,雙聲道立體聲并不是重放立體聲信號的最好形式,最好的方法是采用多聲道環繞聲,能最好體現出現場感,立體(空間)感。此外,電視伴音也很需要用多種語言,以滿足不同的要求。
前面曾經談到,MPEG-1 音頻編碼的最大總數據率為384kb/s。MPEG-2 音頻編碼標準就是解決在不超出384kb/s的數據率下,如何實現多聲道環繞聲(5+1 聲道或5.1 聲道)的編碼與多語言(多至7種)的編碼。
(2)MPEG-2低取樣頻率(LSF)低比特率編碼
在MPEG-1音頻編碼標準中,雖然也給出了很寬范圍的數據率,但編碼算法并不是對每種數據率都是最佳的。此外,對于某些應用來說,傳送的信號不需要很寬的頻率范圍,不需要像MPEG-1中那樣高的取樣頻率。因此,可以將取樣頻率降低,取樣頻率降低后,每秒的樣值數量降低,數據率就降低。此外,取樣頻率降低,總信號帶寬降低,子帶帶寬也相應變小,可以更有效的實現壓縮(原理后文詳述),進一步使編碼后的總數據率降低。
在MPEG-2低取樣頻率低比特率編碼方法中,使用的取樣頻率可以為16kHz、22.05 kHz和24kHz,是MPEG-1的一半,因此也稱半取樣頻率。
需要指出的是,MPEG-2音頻編碼標準也有Layer1、Layer2和Layer3 之分。如表2-4-2所示是MPEG-1和MPEG-2-LFS Layer2可提供的數據率對比。它們各自都可提供14種不同的數據率,編碼器提供的不同數據率通過4比特編碼數據來標記出。
表2-4-2 MPEG-1和MPEG-2—LSF的數據率

2.4.3 ISO/IEC13818-7
前面談到的MPEG-2多聲道環繞聲編碼標準有兩個限定條件:一是不突破384kb/s的總數據率,很難保證有較高的質量。對5個全帶寬聲道,只有使用640~896kb/s的數據率,才能提供高質量的多聲道編碼信號。二是要考慮若干個兼容條件,即能夠與已有的MPEG-1系統向下兼容。
ISO/IEC13818-3公布后,運動圖像專家組接著又制定新的多聲道編碼標準,仍屬于MPEG-2的一部分,稱為MPEG-2非向下兼容音頻標準,后來更名為MPEG-2 先進音頻編碼(MPEG-2 AAC),使編碼效率和質量進一步提高。1996年的測試表明,在5個全帶寬聲道總數據率為320kb/s的情況下,就能達到與原版不可分辨的音頻質量,滿足了ITU-R提出的要求(384kb/s或更低)。
1994年4月,MPEG-2 AAC正式成為一個國際標準,文號為ISO/IEC13818-7。
AAC(Advanced Audio Coding—先進音頻編碼)方法把高分辨率濾波器組、預測技術、霍夫曼編碼的編碼效率和其他功能結合在一起,在很低數據率時實現高質量音頻信號的傳輸。
MPEG-2 AAC系統默認配置方式有單聲道、雙聲道和5+1聲道[其中的1聲道指低頻效果增強(LFE)聲道,通常帶寬在200Hz或150Hz以下]。
此外,AAC系統支持從8kHz到96kHz的取樣頻率。如表2-4-3所示是MPEG-2 AAC取樣頻率和相應的最大數據率。
表2-4-3 MPEG-2 AAC取樣頻率和最大數據率

根據不同的應用,AAC可提供三種類型供選擇:主要(或基本)類型、低復雜度類型和可變化取樣頻率類型。類似于MPEG-1和MPEG-2中的三種Layer。
2.4.4 MPEG-4音頻編碼標準
MPEG-4編碼標準于1999年正式公布實施,聲音編碼部分的文號為ISO/IEC 14496-3。MPEG-4針對不同的應用,根據具體信號的特點,提供相應有效的編碼算法。
MPEG-4包含對人工合成和自然兩種不同聲音素材進行壓縮編碼的多種算法。在自然聲音信號壓縮方面,MPEG-4支持的數據率為2~64kb/s。MPEG-4是完全新的編碼方法,提供新的可能性,支持新功能:
*由內容決定的交互性;
*通用存取(通過完全不同的網絡);
*編碼效率的提高。
MPEG-4支持不同質量要求的信號等級:
*HiFi質量的音樂(上限頻率至15~20 kHz),每聲道64kb/s可達CD質量;
*中等質量的音樂(上限頻率至5~11kHz),每聲道16~48kb/s;
*寬帶語言(上限頻率7kHz),每聲道16~32kb/s;
*電話質量的語言(3kHz),4~8kb/s;
*很低比特率的語言(2kb/s);
*合成音樂(低于16kb/s);
*合成語言。
在應用方面,原有的MPEG-1和MPEG-2是以聲音信號的記錄存儲和廣播等用途為主,MPEG-4則增加了通信用途,還用于各種傳輸線路形式及連接方式,以各種數據率傳送信息。
MPEG-4音頻編碼器中,主要包括T/F(時間/頻率)變換編碼、CELP(代碼激勵線性預測)編碼、參數編碼[包括以2~4kb/s語言編碼為目標的諧波矢量激勵編碼(HVXC)和以6-16kb/s音樂編碼為目標的獨立線編碼(IL)]、合成與自然混合編碼(SNHC)。在T/F編碼中,包含兩種方式,一種基于MPEG-2 AAC(先進音頻編碼),另一種基于Twin VQ(變換域加權交錯矢量量化)。
MPEG-4音頻編碼標準有兩個版本。MPEG-4音頻編碼標準的第一版本是在1998年10月起草的并且提供了所謂“工具”模塊,對自然與合成音頻對象進行編碼以及將這些音頻對象組合成一個音頻景象。由于MPEG-4標準化特別短的時間安排,只考慮了在標準的第一版本中的模塊,還有許多模塊沒有固定。然而由于在第一版本沒有覆蓋的這些模塊提供重要的功能,MPEG決定繼續開發這些模塊作為標準的擴展,于1999年12月起草了MPEG-4音頻標準的第二版本。第二版本是完全向下兼容的第一版本的擴展。如圖2-4-1所示是兩種版本之間的關系。

圖2-4-1 MPEG-4版本 1和版本 2之間的關系
不言而喻,一個MPEG-4音頻解碼器要實現所有模式并用于很多應用,那就會有相當高的復雜性,因此定義了所謂的“型”與“層”。一個型規定一組允許的模型,同時,最大的復雜性,即在解碼器中所需要的計算能力和存儲量,通過型的不同層來限制。據此,盡管由于MPEG-4標準的靈活性和復雜性,也可以實現良好的內部可操作性。
(1)MPEG-4音頻標準版本1中定義的四種型:
① 語言型包含所有用于自然和合成語言信號編碼的模型:CELP(代碼激勵線性預測)、HVXC(諧波矢量激勵編碼)和TTSI(文本到語言接口)。
② 分級型是建立是在語言型的基礎上,補充了用于任意聲音信號編碼的模型:AAC LC(先進音頻編碼 低復雜度)、AAC LTP(AAC長期預測)、AAC可分級和Twin VQ(變換域加權交織矢量量化)。
③ 合成型包含所有用于產生合成語言和合成聲音信號的模型:SAOL(結構音頻管弦樂隊語言)、SASBF(結構音頻樣品庫格式)和TTSI。
④ 主型包含MPEG-4音頻版本1的所有模型。
(2)MPEG-4音頻標準版本2中定義的四種附加型:
① 高質量音頻型包含用于語言信號和聲音信號編碼的低復雜度的模型:CELP、AAC LC、AAC LTP和AAC可分級。
② 低延時音頻型包含用于具有低的系統延時的語言信號和聲音信號編碼的模型:AAC LD(AAC低延時)、CELP、HVXC和TTSI。
③ 移動音頻互聯網型僅包含用于音頻信號編碼的以下模型:AAC LC、AAC可分級、Twin VQ、AAC LD和BSAC(比特切片運算編碼)。
④ 自然音頻型包含版本1和2用于自然語言和聲音信號編碼的所有模型以及TTSI。在以上所有四種型中可以應用用來改善差錯強壯性的模型。
如圖2-4-2所示是聲音信號數據壓縮編碼方法的基本結構。這里,要追求一個盡可能高的編碼效率,即解碼信號的主觀質量和應用的數據率之間盡可能好的關系。為了實現高的編碼效率,不僅信號源的特性而且接收者的感覺特性,即人的聽覺特性,使用冗余壓縮和不相關壓縮。

圖2-4-2 音頻編碼器(a)與解碼器(b)原理方框圖
按照信號的形式和可提供的數據率,近年來建立了不同的源模型和感覺模型。
(1)語言編碼方法主要是充分利用了在人類發聲中語言產生的特殊模型,然而僅應用了簡單的感覺模型。
(2)任意信號的編碼方法主要充分利用了人耳的掩蔽效應,然而只應用了相當普通的信號模型,這樣就可以在假設短暫時間是固定的情況下進行頻譜的分解。
基于特殊的源模型,在語言信號編碼時,在很低數據率(低于24kb/s)的情況下,語言編碼方法與普通的編碼器相比,提供明顯高的編碼效率。另一方面,語言編碼器在音樂信號時僅能達到較差的質量,因為這種信號不滿足關于信號源的假設。除了已經建立的語言和音頻編碼方法外,近年來還開發了編碼方法的一種新形式,它基于抽象的信號模型,它特別適合于很低的數據率。基于應用的聲音或語言信號的參數的描述,它被稱為“參數編碼方法”。
因為MPEG-4音頻應該覆蓋很大的應用和數據率范圍,有必要強調,將語言編碼方法和普通的音頻編碼方法結合在一起。此外,對于合成語言和聲音信號來說通常是有效的,只是要傳送合成器控制所需要的信息,以便在接收機合成原始的聲音信號。
典型的聲音信號是由許多單一的信號所組成。因此,MPEG-4音頻應該有可能對很多個單一的信號(稱為音頻對象),相互獨立的進行編碼和傳送。在接收機中,這些音頻對象借助一個也同時傳輸的情景描述,組合成一個完整的音頻情景。同時,音頻對象可以通過比如濾波或回聲效應來處理。
如圖2-4-3所示是一個完整的MPEG-4音頻解碼器方框圖。這里涉及到了在MPEG-4標準的“系統”部分中很多對象的復合以及情景描述。

圖2-4-3 一個完整的MPEG-4音頻解碼器電路方框圖