- 數(shù)字媒體技術導論
- 許志強 邱學軍
- 4094字
- 2020-06-28 17:32:31
3.5 數(shù)字音頻技術的應用
3.5.1 語音識別技術
1.什么是語音識別技術
語音識別技術也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎?,也就是讓機器聽懂人類的語音。如果計算機配置有“語音辨識”程序組,那么當人的聲音通過一個轉(zhuǎn)換裝置輸入計算機內(nèi)部并以數(shù)位方式存儲后,語音辨識程序便開始以輸入的聲音樣本與事先存儲好的聲音樣本進行對比工作。聲音對比工作完成之后,計算機就會輸入一個它認為最“像”的聲音樣本序號,就可以知道剛才的聲音是什么意義,進而執(zhí)行此命令。
2.語音識別技術所涉及的領域
語音識別技術所涉及的領域大體有:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等。其中,模式識別技術是目前語音識別系統(tǒng)中最常用的技術。模式識別是指對事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關系的)信息進行處理和分析,以對事物或現(xiàn)象進行描述、辨認、分類和解釋的過程,是信息科學和人工智能的重要組成部分。
3.語音識別系統(tǒng)的分類
語音識別系統(tǒng)的分類主要是根據(jù)對輸入語音的限制進行分類的。
(1)如果從說話者與識別系統(tǒng)的相關性考慮,可以將識別系統(tǒng)分為以下三類
①特定人語音識別系統(tǒng):僅考慮對于專人的話音進行識別。
②非特定人語音系統(tǒng):識別的語音與人無關,通常要用大量不同人的語音數(shù)據(jù)庫對識別系統(tǒng)進行學習。
③多人的識別系統(tǒng):通常能識別一組人的語音,或者稱為特定組語音識別系統(tǒng),該系統(tǒng)僅要求對要識別的那組人的語音進行訓練。
(2)如果從說話的方式考慮,也可以將識別系統(tǒng)分為以下三類
①孤立詞語音識別系統(tǒng):孤立詞識別系統(tǒng)要求輸入每個詞后要停頓。
②連接詞語音識別系統(tǒng):連接詞輸入系統(tǒng)要求對每個詞都清楚發(fā)音,一些連音現(xiàn)象開始出現(xiàn)。
③連續(xù)語音識別系統(tǒng):連續(xù)語音輸入是自然流利的連續(xù)語音輸入,大量連音和變音會出現(xiàn)。
(3)如果從識別系統(tǒng)的詞匯量大小考慮,也可以將識別系統(tǒng)分為以下三類
①小詞匯量語音識別系統(tǒng):通常包括幾十個詞的語音識別系統(tǒng)。
②中等詞匯量的語音識別系統(tǒng):通常包括幾百個詞到上千個詞的識別系統(tǒng)。
③大詞匯量語音識別系統(tǒng):通常包括幾千到幾萬個詞的語音識別系統(tǒng)。隨著計算機與數(shù)字信號處理器運算能力以及識別系統(tǒng)精度的提高,識別系統(tǒng)根據(jù)詞匯量大小進行分類也不斷進行變化。目前是中等詞匯量的識別系統(tǒng),將來可能就是小詞匯量的語音識別系統(tǒng)。這些不同的限制也確定了語音識別系統(tǒng)的困難度。
4.語音識別的應用領域
辦公室或商務系統(tǒng):典型的應用包括填寫數(shù)據(jù)表格、數(shù)據(jù)庫管理和控制、鍵盤功能增強等。
制造業(yè):在質(zhì)量控制中,語音識別系統(tǒng)可以為制造過程提供一種“不用手”“不用眼”的檢控(部件檢查)。
電信:相當廣泛的一類應用,在撥號電話系統(tǒng)上都是可行的,包括話務員協(xié)助服務的自動化、國際國內(nèi)遠程電子商務、語音呼叫分配、語音撥號、分類訂貨。
醫(yī)療:這方面的主要應用是由聲音來生成和編輯專業(yè)的醫(yī)療報告。
其他方面:包括由語音控制和操作的游戲和玩具、幫助殘疾人的語音識別系統(tǒng)、車輛行駛中一些非關鍵功能的語音控制,如車載交通路況控制系統(tǒng)、音響系統(tǒng)。
語音識別:語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結(jié)合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經(jīng)成為一個具有競爭性的新興高技術產(chǎn)業(yè)。
5.語音識別技術的基本方法
一般來說,語音識別的方法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡的方法。
(1)基于聲道模型和語音知識的方法
第一步,分段和標號,把語音信號按時間分成離散的段,每段對應一個或幾個語音基元的聲學特性。然后根據(jù)相應聲學特性對每個分段給出相近的語音標號。
第二步,得到詞序列,根據(jù)第一步所得語音標號序列得到一個語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時進行。
(2)模板匹配的方法
模板匹配的方法發(fā)展比較成熟,目前已達到實用階段。在模板匹配方法中,要經(jīng)過4個步驟:特征提取、模板訓練、模板分類、判決。常用的技術有三種:動態(tài)時間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術。
(3)人工神經(jīng)網(wǎng)絡的方法
人工神經(jīng)網(wǎng)絡是20世紀80年代末期提出的一種新的語音識別方法。人工神經(jīng)網(wǎng)絡(ANN)本質(zhì)上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應性、并行性、健壯性、容錯性和學習特性,其強的分類能力和輸入/輸出映射能力在語音識別中都很有吸引力。但由于存在訓練、識別時間太長的缺點,目前仍處于實驗探索階段。由于人工神經(jīng)網(wǎng)絡不能很好地描述語音信號的時間動態(tài)特性,所以常把人工神經(jīng)網(wǎng)絡與傳統(tǒng)識別方法結(jié)合,分別利用各自優(yōu)點來進行語音識別。
3.5.2 音頻檢索
1.什么是音頻檢索
音頻檢索是指通過音頻特征分析,對不同音頻數(shù)據(jù)賦予不同的語義,使具有相同語義的音頻在聽覺上保持相似。音頻包括語音和非語音兩類信號。一直以來,音頻信號的處理主要集中于語音識別、說話者識別等語音處理的方面。
2.音頻檢索的基本方法
首先是建立數(shù)據(jù)庫,對音頻數(shù)據(jù)進行特征提??;通過特征對數(shù)據(jù)聚類,用戶通過查詢界面選擇一個查詢例子,并設置屬性值;然后提交查詢。系統(tǒng)對用戶選擇的示例提取特征,結(jié)合屬性值確定查詢特征矢量,并對特征矢量進行模糊聚類,然后檢索引擎對特征矢量與聚類參數(shù)集匹配,按相關性排序后通過查詢接口返回給用戶。
3.音頻檢索中對音頻特征提取的方法
特征提取是指尋找原始音頻信號表達形式,提取能代表原始信號的數(shù)據(jù)。
音頻特征提取有兩種不同的技術線路:一種是從疊加音頻幀中提取特征,其原因在于音頻信號是短時平穩(wěn)的,所以在短時提取的特征較穩(wěn)定;二是從音頻片段中提取,因為任何語義都有時間延續(xù)性,在長時間刻度內(nèi)提取音頻特征可以更好地反映音頻所蘊涵的語義信息,一般是提取音頻幀的統(tǒng)計特征作為音頻片段特征。
首先,對音頻數(shù)據(jù)進行加窗處理形成幀,加窗大小在幾到幾十微秒,相鄰幀之間一般有30%~50%的疊加。然后,對每一幀作離散傅里葉變換(DFT),實際上常用快速傅里葉變換(FFT),得到傅里葉系數(shù)F(w)和頻域能量

其中, =fs/2,fs為采樣頻率。最后應用不同算法計算相應的幀特征,再計算幀特征的標準偏差、數(shù)學期望值和方差,把幀特征推廣成片段特征。
4.音頻分類技術與方法
音頻檢索中音頻分類占據(jù)著非常重要的作用。音頻分類技術是音頻結(jié)構(gòu)化的基礎,在一定程度上實現(xiàn)了音頻流的結(jié)構(gòu)化,為在更高語義層次上實現(xiàn)音頻內(nèi)容結(jié)構(gòu)化提供了基礎。
其基本方法是:首先應提供適量的訓練樣本,比如選取足量的音樂文件;然后提取樣本特征,進行聚類處理,將每類的全體文件看成一個音頻數(shù)據(jù)來處理,計算該類的樣本模板。判斷文件的類別時,與計算音頻相似度類似,計算音頻的模板與各類模板間的距離,當距離小于某一閾值或為最小距離時,則此時的類即為文件所在的類。
5.音頻檢索的應用與發(fā)展
國內(nèi)外已經(jīng)開發(fā)出了多種音頻檢索原型系統(tǒng)。如MELDEX系統(tǒng)、QBH客戶端、ECHO,以及由我國上海交通大學的薛鋒、楊宗英、鄭巧英和黃敏等研發(fā)的音樂檢索系統(tǒng)。
音頻檢索在互聯(lián)網(wǎng)檢索頁面具有重要的現(xiàn)實意義,如Google、Podcastle等。隨著多媒體技術、數(shù)據(jù)庫技術、網(wǎng)絡通信技術和信息壓縮技術等的迅速發(fā)展,以及更多國際標準的出臺,為音頻檢索提供了更多的技術支持和發(fā)展空間。
【實例分析3-10:語音識別技術“Siri”】
Siri是蘋果公司在其產(chǎn)品iPhone4S、iPad 3及以上版本手機上應用的一項語音控制功能。Siri可以令iPhone 4S及以上手機變身為一臺智能化機器人,利用Siri用戶可以通過手機讀短信、介紹餐廳、詢問天氣、語音設置鬧鐘等。Siri可以支持自然語言輸入,并且可以調(diào)用系統(tǒng)自帶的天氣預報、日程安排、搜索資料等應用,還能夠不斷學習新的聲音和語調(diào),提供對話式的應答。其最大的特色則是人機的互動方面,不僅有十分生動的對話接口,其針對用戶詢問所給予的回答,也不至于答非所問,有時候更是讓人有種心有靈犀的驚喜,例如使用者如果在說出、輸入的內(nèi)容包括了“喝了點”“家”這些字(甚至不需要符合語法),Siri則會判斷為喝醉酒、要回家,并自動建議幫忙叫出租車。
Siri成立于2007年,2010年被蘋果以2億美元收購,最初是以文字聊天服務為主,隨后通過與全球最大的語音識別廠商Nuance合作,Siri實現(xiàn)了語音識別功能。
本章小結(jié)
數(shù)字音頻的發(fā)展可以說是超乎人們想象,特別是設備上,更是發(fā)展飛快。更多新型硬件層出不窮。即便是更新?lián)Q代如此之快,也都是從根本上的知識來進行創(chuàng)造的。所以基礎知識非常重要。
思考題
1什么是聲音的三要素?它們分別由哪些物理屬性來決定?
2常見的有哪幾種聽覺效應?
3簡述壓縮器中都有哪些參數(shù)。這些參數(shù)所代表的意義是什么。
4什么是混響?什么是混響時間?簡述混響時間與房間大小的關系。
5話筒都有哪些指向性?
6調(diào)音臺的主要功能有哪些?數(shù)字調(diào)音臺與模擬調(diào)音臺最大的區(qū)別是什么?
7音箱監(jiān)聽與耳機監(jiān)聽的區(qū)別有哪些?
8簡述采樣率、比特精度。
9什么叫聲畫對位、聲畫同步?
10闡述模/數(shù)、數(shù)/模是如何轉(zhuǎn)換的。
知識點速查
◆聲波由物體振動產(chǎn)生,振動發(fā)聲的物體稱為聲源,有聲波傳播的空間稱為聲場。
◆聲速:空氣(15℃)340m/s
◆頻率范圍:低頻20~200Hz;中頻200Hz~5kHz;高頻5~20kHz。
◆聲音的傳播特點:反射、衍射、干涉、能量耗損。
◆人耳幾種聽覺效應:掩蔽效應、雙耳效應、哈斯效應、雞尾酒會效應、多普勒效應。
◆聲波的三種物理特性:頻率、波長和振幅。
◆動態(tài)范圍及動態(tài)余量:動態(tài)范圍用來描述某一段音頻或者某一臺設備能夠處理的最大信號與最小信號的差值。動態(tài)余量是指正常信號電平與失真電平之間用分貝來表示的電平差。
◆信噪比:信號與噪聲的比例。
◆調(diào)音臺的基本功能:放大、為每個通道設置可控均衡器、通道或母線分配、聲音監(jiān)聽、視覺監(jiān)視、電平調(diào)節(jié)、提供測試信號、跳線。
◆常見音頻信號處理器:均衡器、壓縮器、混響器。
◆壓縮比:輸入信號分貝數(shù)與輸出信號分貝數(shù)之比,其大小決定了對輸入信號的壓縮程度。
◆門限:決定壓縮器在多大輸入電平時才起作用的參數(shù)。
◆比特:單位為bit。比特率是指將模擬聲音信號轉(zhuǎn)換成數(shù)字聲音信號后,單位時間內(nèi)的二進制數(shù)據(jù)量,表示單位時間(1s)內(nèi)傳送的比特數(shù)的速度。比特率越大音質(zhì)就越好。
◆采樣率(Sampling Rate):單位為Hz。采樣率或是采樣頻率是音頻數(shù)字化時對模擬信號測量時的速率。