- 數字音頻水印技術及應用
- 劉海燕
- 1908字
- 2021-03-19 16:43:38
1.3 聽覺系統感知特點
數字水印主要利用人類感知系統(視覺和聽覺)的冗余實現水印不可感知性,因此數字音頻水印技術是依賴人類聽覺系統(human auditory system,HAS)的某些特性,來滿足嵌入水印的不可感知性的要求。
1.3.1 掩蔽效應
人類聽覺系統的一個重要特性是聽覺的掩蔽效應。一個較弱的聲音(被掩蔽音)的聽覺感受被另一個較強的聲音(掩蔽音)影響的現象稱為人耳的掩蔽效應。掩蔽效應與兩個聲音的聲強、頻率、相對方向及延續時間有關。利用掩蔽效應可以用有用的聲音信號去除或掩蔽無用的聲音信號。圖1-1所示為人耳聽覺掩蔽曲線,由于A頻帶音頻信號的能量大于相鄰頻帶的音頻信號,因此在掩蔽曲線之下的其他頻帶信號都被掩蔽起來,即使其能量已超越人耳絕對閾值曲線仍然無法被人耳察覺[2]。掩蔽效應可分為頻域掩蔽(simultaneous masking)和時域掩蔽(temporal masking)兩種。

圖1-1 聽覺掩蔽曲線
1.頻域掩蔽
所謂頻域掩蔽是指掩蔽聲與被掩蔽聲同時作用時發生掩蔽效應,又稱同時掩蔽[3]。如果一個較弱的聲音落在一個較強聲音的臨界頻帶中,那么強信號(掩蔽聲)就會將弱信號(被掩蔽聲)掩蔽掉。通常來說,頻域中的一個強音會掩蔽與之同時發聲的附近的弱音,弱音離強音越近,越容易被掩蔽;反之,離強音較遠的弱音不容易被掩蔽。
2.時域掩蔽
所謂時域掩蔽是指掩蔽效應發生在掩蔽聲與被掩蔽聲不同時出現時,又稱異時掩蔽。異時掩蔽又分為超前掩蔽和滯后掩蔽。若掩蔽聲音出現之前的一段時間內發生掩蔽效應,則稱為前掩蔽(pre-masking);否則稱為后掩蔽(post-masking)。產生時域掩蔽的主要原因是人的大腦處理信息需要花費一定的時間,異時掩蔽也隨著時間的推移很快會衰減,是一種弱掩蔽效應。一般情況下,超前掩蔽只有5~20ms,而滯后掩蔽卻可以持續50~100ms。
圖1-2給出了頻域掩蔽和時域掩蔽現象。從圖中可知,頻域掩蔽在掩蔽者持續的時間內一直有效,它是一種較強的掩蔽效應,而時域掩蔽隨著時間的推移很快衰減。

圖1-2 三種掩蔽現象的強度以及持續時間
1.3.2 MPEG心理聲學模型Ⅰ
因為掩蔽閾值與信號聲壓級有關,使用心理聲學模型對水印整形的過程與感知音頻編碼的量化噪聲控制過程相似,所以在采用心理聲學模型的水印系統設計中,經常采用已經比較成熟的感知音頻編碼的心理聲學模型。音頻水印中常常使用的感知模型主要有MPEG-1心理聲學模型Ⅰ和心理聲學模型Ⅱ,其中心理聲學模型Ⅱ采用了感知熵的概念。使用心理聲學模型,最終獲得一個全局掩蔽閾值。當量化噪聲的聲壓級等于這個掩蔽閾值時,聽覺系統剛好能夠感知到噪聲,所以這個掩蔽閾值又稱為臨界感知失真(just noticeable distortion,JND)。音頻水印使用臨界感知失真來限制嵌入的水印最大能量,當水印的能量被限制在臨界感知失真閾值以下時,就能保證水印的不可感知性[4]。本節詳細介紹MPEG-1中的心理聲學模型的實現過程[5]。
1.計算原始信號的功率譜
用FFT計算聲頻信號s(i)的信號功率譜密度X(k)。X(k)的計算公式為

(1-1)
式中,h(i)為Hanning窗函數,用來減少邊界效應;N為每幀樣本數。
2.音調成分和非音調成分的識別
掩蔽者的音調性會影響掩蔽閾值,因此要根據X(k)識別出類音調信號和類窄帶噪聲信號。一個音調分量是滿足如下條件的局部最大值,其余視為噪聲分量。

3.計算單個掩蔽者的掩蔽閾值
掩蔽者的掩蔽閾值取決于掩蔽者的聲壓級、自身掩蔽級和掩蔽函數。類音調信號和類窄帶噪聲信號的自身掩蔽級是不同的,分別是Y1(zi)和Y2(zi)(單位:dB):

(1-2)

(1-3)
其中zi是臨界頻帶率。類音調信號和類窄帶噪聲信號的掩蔽函數Yf(zi,zj)相同:

(1-4)
其中X(zi)是臨界頻帶率為zi的掩蔽者的聲壓級;Δz=zj-zi,是被掩蔽者與掩蔽者的距離;T1(zi,zj)或T2(zi,zj)是臨界頻帶率為zi的掩蔽者在臨界頻帶率zj處產生的掩蔽閾值。
類音調掩蔽者為

(1-5)
類窄帶噪聲掩蔽者為

(1-6)
式中,Y1、Y2分別為類音調和類窄帶噪聲的掩蔽系數;Yf為掩蔽函數。由于隨臨界頻帶率之差Δz增大,掩蔽作用降低,所以當Δz<-3Bark或Δz≥8Bark時,不考慮掩蔽,這時設T1(zi,zj)和T2(zi,zj)為-∞。
4.計算全局掩蔽閾值
掩蔽是可疊加的,因而zj處的全局掩蔽閾值Tg(zj)為該點的安靜閾值T0(zj)和所有有調、無調成分在該點產生的掩蔽閾值之和,即

(1-7)
5.決定最低掩蔽閾值
在每個子帶中,根據總體掩蔽閾值的情況,決定各個子帶的最小掩蔽閾值:

(1-8)
音頻掩蔽現象及MPEG心理聲學模型對數字音頻水印技術是十分重要的。大多數音頻水印技術為了保證嵌入數據的不可感知性,都直接或間接地利用了音頻掩蔽現象。嵌入的水印信息要適應并高度依賴于宿主音頻信號,其時域和頻域分布由宿主音頻信號的時域和頻域掩蔽特性決定。水印信號強度隨宿主音頻信號而變化,比如在靜音區的水印信號強度應較小,這保證了嵌入水印信息在具有最大能量的同時不可感知,能量的最大化增強了水印抵抗攻擊的能力。
- PS是這樣玩的:輕松掌握 Photoshop 通關秘籍
- Creo Parametric 8.0中文版基礎入門一本通
- ANSYS19.0實例詳解
- VR、AR與MR項目開發實戰
- Entity Framework Tutorial
- Tomcat 6 Developer's Guide
- 從零開始:Photoshop工具詳解與實戰
- Unity 3D\2D手機游戲開發:從學習到產品(第4版)
- 輕松玩轉3D One AI
- 學摳圖:Photoshop專業摳圖技法案例教程
- 中文版Photoshop CS6從新手到高手·全彩版
- AutoCAD 2022中文版完全自學一本通
- 邊做邊學:CorelDRAW X6圖形設計案例教程(第2版)(微課版)
- Revit 2022中文版完全自學一本通
- Building Enterprise Ready Telephony Systems with sipXecs 4.0