官术网_书友最值得收藏!

  • 智能語音處理
  • 張雄偉 孫蒙 楊吉斌
  • 3976字
  • 2020-11-05 10:07:05

1.4.1 語音處理的傳統應用領域

語音處理的傳統應用領域主要包括語音壓縮編碼、語音識別、說話人識別、語音合成、語音增強等。

1. 語音壓縮編碼

語音壓縮編碼的目的是實現語音信號數字化,是語音處理最重要的一種應用,可簡稱為語音編碼或語音壓縮。語音編碼的目標是用盡可能低的比特率來獲得盡可能高的合成語音質量,即在保證一定的編碼語音質量的前提下高效率地進行壓縮編碼,或者在給定編碼速率的前提下盡可能地提高編碼后的合成語音質量。語音編碼的主要應用包括數字語音通信、數字語音存儲、語音應答等。

雖然光纖通信和微波通信等系統可以提供很寬的頻帶,但在很多情況下仍然需要壓縮語音編碼速率以節省頻帶。一方面,壓縮編碼后可以在有限帶寬的信道上傳輸多路語音,提高信道的利用率;另一方面,可以在窄帶的模擬信道(如短波或衛星)上傳輸數字語音。通常來說,語音編碼需要在保持語音的音質、降低編碼速率、減少編碼時延和降低算法的運算復雜度等方面進行綜合考慮和折中。

語音編碼通常有兩種實現方式:波形編碼和參數編碼。波形編碼以波形逼近為原則,盡可能低失真地重構語音波形。波形編碼方式可以合成出質量很高的語音,但壓縮效率不高。參數編碼的出發點與波形編碼不同,它以語音信號模型為基礎,以盡可能保持語音的可懂度為原則,通過對語音信號的模型參數進行量化編碼來實現。與波形編碼相比,參數編碼由于模型參數編碼數據量較小,因此其壓縮效率很高,但語音質量不如波形編碼。綜合波形編碼和參數編碼兩者的優點,采用混合編碼方式可以在編碼效率和語音質量兩方面獲得較好的折中。

根據語音采樣頻率,語音編碼可以分為窄帶(電話帶寬300~3400Hz)語音編碼、寬帶(7kHz)語音編碼和20kHz的音樂帶寬編碼。窄帶語音編碼的采樣頻率通常為8kHz,一般應用于語音通信中;寬帶語音編碼的采樣頻率通常為16kHz,一般用于要求更高音質的應用中,如會議電視;而20kHz帶寬主要適用于音樂數字化,采樣頻率高達44.1kHz。窄帶語音編碼是最重要的一類語音編碼方式,在數字通信領域具有重要的應用價值,研究最深入,研究成果也最多。

經過幾十年的研究與發展,窄帶語音編碼技術發展得非常迅速。自20世紀70年代推出64Kbit/s PCM語音編碼國際標準以來,已相繼有32Kbit/s ADPCM、16Kbit/s LD-CELP、8Kbit/s CS-ACELP等國際標準推出。地區性或行業性的標準也有不少,如用于移動通信系統中的語音編碼,美國國防部制定的軍用4.8Kbit/s CELP和2.4Kbit/s MELP語音編碼標準等,目前編碼速率在2.4Kbit/s以上時,所合成的語音質量已得到認可,并已廣泛應用。實現窄帶語音編碼(特別是中低速率)的設備通常稱為聲碼器(Vocoder),在需要進行加密傳輸數字語音的應用場合,聲碼器具有不可替代的作用。

2. 語音識別

語音識別的作用是將語音轉換成相應的文字或符號等書面信息,也就是讓計算機聽懂人說話。語音識別可以有許多分類方法。例如,根據語音識別對象來劃分,可以分為孤立詞識別、連續語音識別等;根據詞匯量來劃分,可以分為小詞匯量(100個詞以下)語音識別、中詞匯量(100~500個詞)語音識別、大詞匯量(500個詞以上)語音識別以及連續語音識別等;根據對說話人的要求來劃分,可以分為特定說話人(speaker dependent)語音識別、多說話人語音識別和非特定說話人(speaker independent)語音識別等。語音識別是語音處理研究領域的重點和難點技術。

雖然從原理上看,實現語音識別并不困難,但在實際實現時會遇到很多困難。例如,發音的多變性,如不同人發同一個音、同一個人在不同的條件下發同一個音等,會導致不同的發音參數;發音的模糊性,在實際的連續語音流中,語音聲學變量與音素變量之間不存在一一對應關系;語音流中變化多端的音變現象,這些音變對人類的聽覺系統來說很容易辨認,但機器識別起來卻很不容易;語音環境的變化與惡化,會使得語音識別算法難以自適應跟蹤。

語音識別的應用很廣,如語音錄入、語音翻譯、聲音控制、機器人語音交互等,將語音識別與語音合成結合起來還可以實現極低比特率的語音通信系統。

近年來,隨著機器學習技術在語音識別中的應用,語音識別系統已在多種場合得到成功應用。目前研究的重點是進一步提高語音識別系統的環境適應性,提高機器人人機交互、實時語音翻譯等場合中語音識別的性能。

3. 說話人識別

說話人識別的作用是根據語音辨別說話人,說話人識別有時也稱為“聲紋識別”。說話人識別并不關注語音信號中的語義內容,而是希望從語音信號中提取出說話人的個性特征,即根據語音判別說話人是誰。語音信號既包含說話人的語言信息,同時也包含說話人本身的特征信息。每個人的發音器官都有自己的特征,說話時也都有自己的特殊語言習慣。在分析語音信號時,可以提取說話人的個性特征,進而識別說話人是誰。在進行語音識別時,要消除說話人的個性特征,以免影響識別的準確率;而在研究說話人識別時,則要專門研究說話人的個性特征,從語音信號中分析和提取個性特征,去除不含個性特征的語音信息。

說話人識別通??煞譃檎f話人確認和說話人辨認兩種類型。說話人確認是確認說話人的身份,說話人說一句或幾句測試語句,算法從測試語句中提取說話人的特征參數,并與存儲的特定語音的參數進行比較,最后給出“是與否”的判斷。說話人辨認是要辨認待識別的說話人來自若干人中的哪一位,要將待識語音與每個說話人的語音個性特征進行比較,找出距離最近的語音所對應的說話人。從語音信號處理的角度來看,兩者基本上是相同的,都需要確定選用的參數和計算距離的準則。說話人確認需要確定“是與否”的門限,說話人辨認需要與待識語音比較它們各自的距離。比較的方法與識別語音的方法相類似。參數的選擇原則,一是要能反映說話人的個性,二是要兼顧識別率和復雜程度。比較簡單的特征參數是基音和能量,也可以用LPC參數、共振峰、MFCC參數等,也有用語譜圖來識別的,稱為“聲紋”。

提高說話人識別準確率受制于很多因素。語音是動態變化的,與說話人所處的環境、說話時的情緒和身體狀況關系很大。一個人在不同時間、不同情況下說同一句話,差異不一定比不同人小,不像“指紋”是靜態的、絕對的。還有一些識別難度更大,但更有實際價值的領域,如:①用通過電話信道的語音進行“說話人識別”,由于電話頻帶窄、有失真、噪聲大,不同信道條件各異,識別十分困難,但這方面的研究具有重要的實際價值;②在“辨認”說話人時,語句往往不能規定,在沒有指定語句條件下的識別也較困難。必須有更多的樣本用作訓練和測試,以降低誤識率。這類無指定測試語句的說話人識別稱為“與文本無關”的說話人識別,而在有指定語句條件下進行的識別稱為“與文本有關”的說話人識別。

4. 語音合成

語音合成的目的是將存儲在計算機中的文字或符號變成聲音,即讓計算機說話。語音合成是語音識別的逆過程。

最簡單的語音合成應當是語音響應系統,其實現技術比較簡單。在計算機內建立一個語音庫,將可能用到的單字、詞組或一些句子的聲音信號編碼后存入計算機,當輸入所要的單字、詞組或句子代碼時,就能調出對應的數碼信號,并轉換成聲音。

規則的文字-語音合成系統是將文字轉換成語音,讓計算機模仿人來朗讀文本。系統具有以下作用:有一個存儲基本語音單元的音庫;當用各種方式輸入文字信息時,計算機能將文字內容按照語言規則,轉換成由基本音元組成的序列;按說話時聲音單元(簡稱“音元”)連接的規則控制音元序列,輸出連續自然的聲音。這種系統也稱為“文本-語音轉換”(TTS)系統。建立音庫時對語音單元的選擇是一個很重要的問題。因為一種語言的音素通常只有幾十個,采用音素作為音元可以降低存儲容量,但用音素合成語音非常復雜,而且自然度較差。因此一般認為,漢語中采用音節作為音元比較合適,因為漢語中一個音節就是一個字的音,漢語中只有412個無調音節,形成音庫比較適中。也可以用單字和詞組作為音元,但一個字不能只存一種發音,因為漢語中有多音字,字的發音與上下文有關,只有存儲與上下文關聯的幾種發音,使用時按上下文關系調用,合成的語音才能比較自然,這就要求有很大的存儲容量。系統中的“規則”有兩層含義:一是文字變語言,如“?!币脫Q成“句號”;二是要按照復雜的語音規則和上下文的關系決定音調、語氣、重音、音長、停頓、過渡等,組成發音控制參數序列。

要使TTS系統合成出高質量的語音,不僅要掌握語音信號的數字處理技術,而且要有語言學知識的支撐。

更高層次的合成是“按概念或意向到語音的合成”。要將“想法、意向”組成語言并變成聲音,就如大腦形成說話內容并控制發聲器官產生聲音一樣。

5. 語音增強

在實際的應用環境中,語音都會不同程度地受到環境噪聲的干擾。語音增強就是對帶噪語音進行處理,以降低噪聲對語音的影響,改善聽覺效果。有些語音編碼和語音識別系統在無噪聲或噪聲很小的環境中性能很好,但當環境噪聲增大或變化時,性能可能急劇下降。因此,盡可能降低噪聲影響,改善聽覺效果,是語音編碼和語音識別等系統必須解決的問題。

實際語音遇到的噪聲干擾可能有以下幾類:①周期性噪聲,如電氣干擾、發動機旋轉引起的干擾等,這類干擾在頻域上表現為一些離散的窄峰;②脈沖噪聲,如電火花、放電產生的噪聲干擾,這類干擾在時域上表現為突然出現的窄脈沖;③寬帶噪聲,這是指高斯噪聲或白噪聲一類的噪聲,其特點是頻帶寬,幾乎覆蓋整個語音頻帶;④語音干擾,如話筒中同時進入多個人的聲音,或者在傳輸時遇到串音引起的語音噪聲。

對于上述不同類型的噪聲,采用的語音增強的方法也是不同的。例如,周期性噪聲可以用濾波的方法濾除。脈沖噪聲可以通過相鄰的樣本值,采取內插方法去除,或者利用非線性濾波器濾除。寬帶噪聲是一種難以濾除的干擾,因為它與語音具有相同的頻帶,在消除噪聲的同時將不可避免地影響語音的質量,典型的方法有譜減法、自相關相減法、最大似然估計法、自適應抵消法等。語音干擾也是很難消除的,一般可以采用以自適應技術來跟蹤某個說話人特征的方法進行消除。

語音增強仍然是目前語音處理領域的研究重點,融合傳統和智能處理技術的語音增強算法也在持續研究中。

主站蜘蛛池模板: 湾仔区| 兰考县| 安塞县| 隆尧县| 邯郸市| 崇州市| 宜君县| 微山县| 桃园县| 云龙县| 汕尾市| 孝义市| 阳江市| 峨山| 宜州市| 聂拉木县| 平顶山市| 麻栗坡县| 高邑县| 德保县| 青神县| 安国市| 阿拉善右旗| 嘉义县| 藁城市| 铅山县| 自治县| 莫力| 澳门| 兴宁市| 榕江县| 城步| 宁夏| 津市市| 巴东县| 新巴尔虎左旗| 浦江县| 丹东市| 长沙市| 阳高县| 扎囊县|