官术网_书友最值得收藏!

1.4.2 語音處理的新應用領域

除了傳統的應用領域之外,語音理解、語音轉換、骨導語音增強、語音情感分析等語音處理新應用領域也越來越受到人們的廣泛關注。

1. 語音理解

語音理解是利用知識表達和組織等人工智能技術進行語句自動識別和語義理解,即讓計算機理解人所說的話的含義,是實現人機交互的關鍵。

語音理解與語音識別的主要區別是對語法和語義知識的充分利用程度。由于人們已經掌握了很多語音知識,對要說的話能有一定的預見性,因此人對語音具有感知分析的能力。語音理解研究的核心是依靠人對語言和談論的內容所具有的廣泛知識,利用知識提高計算機理解語言的能力。

利用知識提高計算機理解能力,不僅可以排除噪聲的影響,理解上下文的意思并能用它來糾正錯誤,澄清不確定的語義,而且能夠處理不符合語法或意思不完整的語句。一個語音理解系統除了包括原語音識別所要求的部分之外,還必須增加知識處理部分。知識處理包括知識的自動收集、知識庫的形成、知識的推理與檢驗等。當然,還希望能自動地進行知識修正。因此,語音理解可以看作信號處理與知識處理的產物。語音知識包括音位知識、音變知識、韻律知識、詞法知識、句法知識、語義知識以及語用知識。這些知識涉及語音學、漢語語法、自然語言理解以及知識搜索等許多交叉學科。

實現完善的語音理解系統是非常困難的,然而面向特定任務的語音理解系統是可以實現的,例如飛機票預售系統,銀行業務、旅館業務的登記及詢問系統等。

2. 語音轉換

語音轉換[4]的目標是把一個人的聲音轉換為另一個人的聲音。

一般來說,人們把改變語音中說話人個性特征的語音處理技術統稱為語音轉換,廣義的語音轉換可分為非特定人語音轉換和特定人語音轉換兩大類。非特定人語音轉換是指通過技術處理,使得轉換后的語音不再像原說話人的聲音;而在實際研究和應用中,語音轉換通常是指改變一個說話人(源說話人)的語音個性特征(如頻譜、韻律等),使之具有另外一個特定說話人(目標說話人)的個性特征,同時保持語義信息不變。一般來說,特定人語音轉換的技術難度要高于非特定人語音轉換。

研究表明,語音中的聲道譜信息、共振峰頻率和基音頻率等參數是表征語音個性特征的主要因素。通常一個完整的語音轉換方案由反映聲源特性的韻律轉換和反映聲道特性的頻譜(或聲道譜)轉換兩部分組成。韻律的轉換主要包括基音周期的轉換、時長的轉換和能量的轉換,而聲道譜轉換包括共振峰頻率、共振峰帶寬、頻譜傾斜等轉換。聲道譜包含更多的聲音個性特征,且轉換建模相對復雜,是影響語音轉換效果的主要原因。因此,目前的語音轉換研究主要集中在對聲道譜的轉換上。

實現語音轉換系統通常包含訓練和轉換兩個階段。在訓練階段,首先對源說話人和目標說話人的語音進行分析和特征提取,然后對提取特征進行映射處理,并對這些映射特征進行模型訓練,進而得到轉換模型;在轉換階段,對待轉換源語音進行分析、特征提取和映射,然后用訓練階段得到的轉換模型對映射特征進行特征轉換,最后將轉換后的特征用于語音合成,得到轉換語音。

語音轉換研究的相關工作最早可追溯到20世紀70年代,至今已經有約五十年的時間,但真正受到學術界和產業界廣泛關注則是近十多年的事情。近年來,語音信號處理和機器學習等技術的進步以及大數據獲取能力和大規模計算性能的提高有力地推動了語音轉換技術的研究及發展。特別是基于人工神經網絡的語音轉換方法的興起,使得轉換語音的質量得到進一步提升。

3. 骨導語音增強

骨導語音增強[5]是一種改善骨導麥克風所拾取的語音質量的技術。

骨導麥克風是一種非聲傳感器設備,人說話時聲帶振動會傳遞到喉頭和頭骨等部位,骨導麥克風通過采集這種振動信號并轉換為電信號來獲得語音(骨導語音)。與傳統的空氣傳導麥克風語音(氣導語音)不同,背景噪聲很難對這類非聲傳感器產生影響,所以骨導語音從聲源處就屏蔽了噪聲,因此非常適用于強噪聲環境下的語音通信,可廣泛應用于軍事、消防、特勤、礦山開采、公共交通、緊急救援等領域。

雖然骨導麥克風具有很強的抗噪性能,但由于人體傳導的低通性能以及傳感器設備工藝水平的限制等,骨導語音聽起來比較沉悶、不夠清晰,骨導語音增強的目的就是對骨導語音進行處理以提高其語音質量。

與氣導語音相比,骨導語音存在高頻衰減嚴重、輔音音節損失、中低頻諧波能量改變等特征差異,其中以高頻成分衰減嚴重最為突出。針對這個問題,傳統的骨導語音增強方法主要有無監督頻譜擴展法和均衡法等。目前,大多數的骨導語音盲增強采用基于譜包絡轉換的方法。

基于譜包絡轉換法的骨導語音增強通常包括訓練階段和增強階段。在訓練階段,骨導語音與氣導語音數據經過分析合成模型,提取出語音的譜包絡特征,通過訓練構建骨導語音到氣導語音的譜包絡特征之間的轉換模型;在增強階段,首先提取待增強語音的激勵特征和譜包絡特征,然后可利用已經訓練好的模型從骨導語音譜包絡特征中估計出類氣導語音譜包絡特征,由于骨導與氣導語音的激勵信號近似相同,可直接將骨導語音激勵信號作為估計的類氣導語音激勵信號,最后根據估計出的譜包絡和骨導語音原始的激勵特征合成出增強的語音。

4. 語音情感分析

語音情感分析就是根據語音中蘊含的情感特征來判斷說話人說話時的情緒。

人在說話時,除了表達語義信息外,通常還會融入一定的情感信息。例如,說同樣一句話,如果說話人表現的情感不同,在聽者的感知上就可能有較大的差別,甚至會得到完全相反的感受。因此,語音情感分析成為語音處理中一個十分重要的研究分支。

情感分類是實現語音情感分析的前提,不同學者提出不同的分類方法,而最基本的情感分類是基于喜、怒、驚、悲的四情感模型。

語音情感分析通常基于語音情感特征提取和情感分類模型來實現。

語音之所以能夠表達不同的情感,是因為語音中包含了能反映情感特征的參數。情感的變化通過特征參數的差異來體現。因此,從語音中提取反映情感的特征參數是實現語音情感分析的重要步驟。一般來說,語音信號中的情感特征往往通過語音韻律的變化表現出來。研究表明,可以從時間構造、振幅構造、基頻構造、共振峰構造等方面來研究語音情感特征的變化,進而提取反映語音情感的特征參數。例如,當說話人處于不同情感狀態時,說話的語速、音量、音調等都會發生變化。憤怒狀態時,語速通常要快一些,音量會變大,音調也可能會變高[6]

提取出反映情感信息的特征后,語音情感分析就依賴情感分類模型來實現。學者們經過研究已經找到很多情感分類方法,其中主成分分析法、混合高斯模型法、人工神經網絡法可以在語音情感分析方面取得較好的識別效果。

主站蜘蛛池模板: 嘉善县| 开鲁县| 葫芦岛市| 西峡县| 普陀区| 乌鲁木齐县| 三河市| 报价| 加查县| 绵阳市| 高淳县| 错那县| 岢岚县| 靖西县| 米泉市| 育儿| 余姚市| 大姚县| 永和县| 大埔县| 沙田区| 尚志市| 仙居县| 玉山县| 英德市| 贵州省| 平乐县| 罗山县| 建水县| 韩城市| 襄垣县| 津南区| 新民市| 双江| 竹北市| 祁阳县| 漯河市| 阿鲁科尔沁旗| 普陀区| 剑川县| 湖州市|