- 數(shù)字多媒體廣播
- 李棟編著
- 2571字
- 2018-12-27 19:01:22
2.3 數(shù)字音頻數(shù)據(jù)率壓縮的理論基礎(chǔ)
2.3.1 頻譜掩蔽效應(yīng)
聲音信號的強(qiáng)弱用聲壓級(簡稱聲級)表示,其定義是:

式中P表示聲壓,單位是牛頓/平方米(N/m2),P0為基準(zhǔn)聲壓,為20μPa,即

在安靜的環(huán)境下,人耳剛剛能感覺到的最小聲音強(qiáng)度,稱為靜聽閾(門限),是隨頻率變化的,如圖2-3-1所示。人耳對頻率為3~4kHz附近的聲音信號最敏感,對太低和太高的頻率的聲音感覺都很遲鈍。
當(dāng)有一個強(qiáng)度為70dB,頻率為1kHz的純音出現(xiàn)時,靜聽閾曲線將變?yōu)橥犻撉€,如圖2-3-1所示。0.5kHz以下和5kHz以上部分,由于與1kHz相距較遠(yuǎn),聽覺門限不受影響而保持不變,或者說在這些部分同聽閾曲線與靜聽閾曲線重合;在0.5~5kHz之間,形成新的聽閾曲線。處于同聽閾以下的聲音事件(不管是聲音信號還是噪聲),由于被70dB強(qiáng)的1kHz信號所掩蔽都聽不到,當(dāng)然也就不必編碼和傳送。通常我們稱此時的1kHz純音為掩蔽音,而處于同聽閾曲線以下的聲音事件稱為被掩蔽音。
例如,要想同時能聽到上述的1kHz信號和另一個2kHz的信號,那么由圖2-3-1可以看出,2kHz的信號強(qiáng)度必須在40dB以上(剛剛超出同聽門限)。

圖2-3-1 頻譜掩蔽特性(靜聽閾和同聽閾)
如果有多個頻率成分的復(fù)雜信號存在,那么頻譜的總的同聽閾與頻率的關(guān)系,取決于各掩蔽音的強(qiáng)度、頻率和它們之間的距離。因此同聽閾是衡量尺度:在多大的聲級下,具有相應(yīng)頻率的一個附加插入的測試聲,或者一個具有相應(yīng)中心頻率的窄帶噪聲剛好聽不到,即處于靠近可感覺門限。
如圖2-3-2所示是在中心頻率分別為250Hz、1kHz和4kHz,強(qiáng)度均為60dB的窄帶噪聲的共同作用下形成的同聽閾曲線。由圖2-3-2可以看出:各自的同聽閾曲線形狀不完全相同;同聽閾的最大值距60dB的距離隨著中心頻率的提高而變大,即同聽閾的最大聲級減小。

圖2-3-2 不同中心頻率的窄帶噪聲形成的同聽閾
如圖2-3-3所示是中心頻率相同(1kHz),在不同聲音強(qiáng)度下的同聽閾曲線。由圖2-3-3可以看出:聲級越強(qiáng),掩蔽曲線就越高,占據(jù)的頻率范圍就越寬,掩蔽能力就越強(qiáng)。還可以看出,掩蔽曲線以1kHz為中心,并不對稱,左側(cè)上升陡峭,右側(cè)下降平緩。

圖2-3-3 中心頻率為 1kHz的純音、不同聲級時的同聽閾
在進(jìn)行數(shù)據(jù)壓縮時,凡是處于總的同聽閾以下的聲音信號部分,由于掩蔽效應(yīng)都不能被人耳聽到,都不需要編碼和傳送;而處于總的同聽閾以上的信號部分,在編碼時,可按照使量化噪聲起碼保持在同聽閾以下的原則被量化。
以dB表示的信號強(qiáng)度與最小同聽閾之差,稱為信號掩蔽比(SMR);以dB表示的信號強(qiáng)度與量化噪聲之差,稱為信號噪聲比(SNR);以dB表示的最小同聽閾與量化噪聲之差稱為掩蔽噪聲比(MNR)。三者的關(guān)系是:

在進(jìn)行數(shù)據(jù)壓縮時,根據(jù)信號掩蔽比確定必要的量化。因此,在準(zhǔn)確的頻譜分析的情況下,量化噪聲可以良好地與人耳聽覺的同聽閾相適配。提供的分別量化的子頻帶越多,SMR越小,允許的量化越粗,壓縮效果越好。如圖2-3-4 示出了在一個短時間段之內(nèi),典型聲音信號的頻譜及其同聽閾及以編碼(壓縮)為條件的量化噪聲。

圖2-3-4 一個典型元音的幅度譜、同聽閾和各子帶中的量化噪聲
一個子帶中的最小同聽閾是衡量剛好感覺不到量化噪聲的尺度,由各子頻帶的同聽閾最小值確定各子頻帶取樣值的必要的量化。
與人耳的聽覺特性最佳適配的源編碼器,應(yīng)該含有一個與聽覺等效的頻率分析,具有盡可能準(zhǔn)確的同聽閾仿真,以便可使量化噪聲準(zhǔn)確地與信號的變化過程相適配。
如圖2-3-5所示是在三個掩蔽音的共同作用下,每個子頻帶允許的最大量化噪聲。允許的量化噪聲也間接地確定了要求的信號數(shù)據(jù)率,即數(shù)據(jù)率取決于掩蔽的程度,是隨時間變化的(波動的)。

圖2-3-5 各子帶允許的最大量化噪聲
為了可以進(jìn)行信號處理,起碼的條件是這樣來確定量化,即讓掩蔽閾與量化噪聲之間保留一定的距離。為此,在一個迭代過程中,掩蔽閾和量化噪聲之間的距離這樣加大,直到信道提供的最大數(shù)據(jù)率盡量利用完為止。因此,提供使用的數(shù)據(jù)率越大,信號后期加工處理的可能性也越大。
2.3.2 時間掩蔽效應(yīng)
在時域中,在聽到強(qiáng)信號之前的短暫時間內(nèi),業(yè)已存在的弱音可以被掩蔽而聽不到,這種現(xiàn)象稱為前掩蔽;強(qiáng)音和弱音同時存在時,弱音被強(qiáng)音掩蔽,稱為同期掩蔽;當(dāng)強(qiáng)音消失后,經(jīng)過較長的持續(xù)時間,才能重新聽到弱音信號,這種現(xiàn)象稱為后掩蔽。
圖2-3-6示出典型的時間掩蔽過程,在前掩蔽期間,具有典型的聽閾上升的趨勢,且持續(xù)時間較短;在后掩蔽期間,具有同聽閾下降的趨勢,且持續(xù)時間較長。

圖2-3-6 時間掩蔽特性
在編碼時,將時間上彼此相繼的一些取樣值歸并成塊,以降低碼率,就是基于人耳的時間掩蔽特性而采取的策略。
2.3.3 子頻帶編碼
在子頻帶編碼時,使用多相濾波器組使寬帶的PCM聲音信號被分割為許多子頻帶,相當(dāng)于信號由時域變?yōu)轭l域,對各子頻帶的取樣值分別進(jìn)行數(shù)據(jù)率降低的編碼。這種數(shù)據(jù)率降低對于各子頻帶來說是分別受控的,并且可以是固定的或隨時間變化的(動態(tài)比特分配)。量化的降低取決于在確定的時間間隔內(nèi)計(jì)算出的同聽閾。解碼器通過數(shù)據(jù)擴(kuò)展和相反的濾波器組,由頻域變到時域,重建寬帶的PCM聲音信號。如圖2-3-7所示是子頻帶編、解碼系統(tǒng)示意圖。

圖2-3-7 子頻帶編、解碼系統(tǒng)
利用等帶寬的許多帶通濾波器(BPF)把寬帶信號分割為許多子頻帶,因此編碼端這些帶通濾波器又稱分析濾波器組。然后,用奈奎斯特速率對各子帶濾波器的輸出取樣,并對取樣值進(jìn)行通常的數(shù)字編碼。然后,通過多路復(fù)用器,將各路并行信號變?yōu)榇袛?shù)據(jù)流在信道中傳輸。在解碼端,通過多路分配器將串行數(shù)據(jù)流變?yōu)椴⑿校捶纸獬龈髯訋У木幋a信號,通過各自的解碼器進(jìn)行解碼,然后通過帶通濾波器組(又稱綜合濾波器組)將各子頻帶信號同步相加,合成寬帶的信號。
子頻帶編碼的優(yōu)點(diǎn)是:
(1)聲音信號固有的頻譜不平坦性,對不同子帶合理分配比特?cái)?shù),使數(shù)據(jù)率更精確地與各子帶的信源統(tǒng)計(jì)特性相匹配。
(2)調(diào)整不同子帶的比特賦值,就能控制總的重建誤差頻譜的形狀。
(3)各子頻帶的量化噪聲都限制在本子帶內(nèi),這樣,就能避免能量較小的輸入信號被其他頻段的量化噪聲所掩蓋。
(4)比特差錯的影響,在寬帶系統(tǒng)中延伸至整個音頻范圍,而在子頻帶編碼方法中被限制在窄的子帶內(nèi),干擾作用大大減弱。
(5)子頻帶編碼的時間分辨率較高。
子頻帶編碼方法應(yīng)用在MPEG1音頻編碼標(biāo)準(zhǔn)的第1層和第2層。
2.3.4 變換編碼
在進(jìn)行變換編碼時,輸入的時域信號的一個時間限定的環(huán)節(jié),應(yīng)用快速傅里葉變換(FFT)或離散余弦變換(DCT),首先被變換為頻域的信號,所產(chǎn)生的頻譜值和相位值經(jīng)過心理聲學(xué)計(jì)值處理之后,以最少的量化進(jìn)行編碼、傳輸,最后在解碼器中擴(kuò)展并被變換為時域信號。
- 大話傳送網(wǎng)
- 電子工藝與EDA
- 無線接入網(wǎng)同步性能測試技術(shù)
- LED封裝與檢測技術(shù)
- 圖解電子技術(shù)速學(xué)速用
- Android 10 Kotlin編程通俗演義
- 無線網(wǎng)絡(luò)優(yōu)化分析
- 高速設(shè)計(jì)技術(shù)
- 5G無線系統(tǒng)設(shè)計(jì)與國際標(biāo)準(zhǔn)
- 天地一體化信息網(wǎng)絡(luò)架構(gòu)與技術(shù)
- 圖表細(xì)說收音機(jī)裝配與整機(jī)電路分析
- PTN分組傳送設(shè)備組網(wǎng)與實(shí)訓(xùn)(第2版)
- 移動通信天線技術(shù)與工程應(yīng)用
- 基站天線測試技術(shù)與實(shí)踐
- 通信工程項(xiàng)目管理及監(jiān)理