官术网_书友最值得收藏!

  • 智能語音處理
  • 張雄偉 孫蒙 楊吉斌
  • 1210字
  • 2020-11-05 10:07:05

1.3.3 智能語音處理的基本模型

智能語音處理是智能信息處理的一個重要研究領域,智能信息處理涉及的模型、方法、技術均可應用于智能語音處理。智能語音處理的基本模型和技術主要來源于人工智能,機器學習作為人工智能的重要領域,是目前智能語音處理中最常用的手段,而機器學習中的表示學習和深度學習則是智能語音處理中目前最為成功的智能處理技術。

圖1-6展示了人工智能(Artificial Intelligence,AI)、機器學習(Machine Learning,ML)、表示學習(Representation Learning,RL)及深度學習(Deep Learning,DL)的相互關系。

圖1-6 AI/ML/RL/DL的關系圖[3]

下面列出了近年來在智能語音處理中常見的模型和技術。

1. 稀疏與壓縮感知

一個事物的表示形式決定了認知該事物的難度。在信息處理中,具有稀疏特性的信號表示更易于被感知和辨別,反之則難以辨別。因此,尋找信號的稀疏表示是高效解決信息處理問題的一個重要手段。利用冗余字典,可以學習信號自身的特點,構造信號的稀疏表示,并進一步降低采樣和處理的難度。這種字典學習方法為信息處理提供了新的視角。對語音信號采用字典學習,構造語音的稀疏表示,為語音編碼、語音分離等應用提供了新的研究思路。

2. 隱變量模型

語音的所有信息都包含在語音波形中,隱變量模型假設這些信息是隱含在觀測信號之后的隱變量。通過利用高斯建模、隱馬爾可夫建模等方法,隱變量模型建立了隱變量和觀測變量之間的數學描述,并給出了從觀測變量學習各模型參數的方法。通過參數學習,可以將隱變量的變化規律挖掘出來,從而得到各種需要的隱含信息。隱變量模型大大提高了語音識別、說話人識別等應用的性能,在很長一段時間內都是智能語音處理的主流手段。

3. 組合模型

組合模型認為語音是多種信息的組合,這些信息可以采用線性疊加、相乘、卷積等不同方式組合在一起。具體的組合方式中需要采用一系列模型參數,這些模型參數可以通過學習方式從大量語音數據中學得。這類模型的提出,有效改善了語音分離、語音增強等應用的性能。

4. 人工神經網絡與深度學習

人類面臨大量感知數據時,總能以一種靈巧的方式獲取值得注意的重要信息。模仿人腦高效、準確地表示信息一直是人工智能領域的核心挑戰。人工神經網絡(Artificial Neural Network,ANN)通過神經元連接成網的方式,模擬了哺乳類動物大腦皮層的神經通路。和生物的神經系統一樣,ANN通過對環境輸入的感知和學習,可以不斷優化性能。隨著ANN的結構越來越復雜、層數越來越多,網絡的表示能力也越來越強,基于ANN進行深度學習成為ANN研究的主流,其性能相對于很多傳統的機器學習方法有較大幅度的提高。但同時,深度學習對輸入數據的要求也越來越高,通常需要有海量數據的支撐。ANN很早就應用到了語音處理領域,但由于早期受到計算資源的限制,神經網絡層數較少,語音處理應用性能難以提升,直到近年來深層神經網絡的計算資源、學習方法有了突破之后,基于神經網絡的語音處理性能才有了顯著的提升。深度神經網絡可以學到語音信號中各種信息間的非線性關系,解決了傳統語音處理方法難以解決的問題,已經成為當前智能語音處理的重要技術手段。

主站蜘蛛池模板: 桦甸市| 宁南县| 资源县| 宣威市| 肇源县| 宿迁市| 女性| 厦门市| 阳西县| 西和县| 云林县| 安塞县| 泾川县| 张掖市| 阿合奇县| 九江县| 团风县| 新建县| 浦北县| 丰原市| 洪雅县| 潜江市| 军事| 社旗县| 宜章县| 九江市| 博白县| 深圳市| 互助| 万山特区| 松阳县| 全州县| 聂拉木县| 蒙自县| 沙雅县| 古浪县| 县级市| 太谷县| 军事| 乡城县| 泰和县|