- 智能語音處理
- 張雄偉 孫蒙 楊吉斌
- 767字
- 2020-11-05 10:07:03
1.2.1 語音處理的發展
對語音信號處理的研究起源于對發聲器官的模擬。1939年,美國人H·杜德利(H. Dudley)展出了一個簡單的發聲過程模擬系統,該模擬系統隨后逐漸發展成為聲道的數字模型。利用該模型可以對語音信號進行各種頻譜及參數的分析,同時也可根據分析得到的頻譜特征或參數變化規律合成語音信號,實現機器的語音合成。20世紀80年代以前,線性預測編碼技術是語音信號處理研究領域最重要的研究成果;80年代以后,分析合成技術、矢量量化技術、隱馬爾可夫模型等極大地推動了語音編碼、語音識別技術發展;90年代以后,神經網絡、小波分析、分形及混沌等新技術在語音處理領域的應用將語音信號處理的研究提高到了一個新的水平。
由于語音的特殊作用,人們歷來十分重視對語音信號和語音通信的研究。人類社會的進步對語音通信提出了更高的要求,需要更高的語音質量和更低的數碼率,從而推動了語音編碼技術的發展。自動控制和計算機科學的發展又要求用語音實現人與機器的信息交互,要求機器能聽懂人說話,能辨別說話人是誰,甚至還要模仿人說話,這又推動了對語音識別和語音合成技術的研究,使語音處理技術得到迅速發展。語音編碼、語音識別、說話人識別、語音合成等技術的基礎都是對語音信號特征的認識,都要利用數字信號處理的基本技術來分析和處理語音信號,而更深層次的發展涉及人的發音和聽覺機理,與生理學、語言學甚至心理學有關。
盡管語音處理的研究已經經歷了幾十年的發展,并已取得許多成果,但語音處理的研究仍然蘊涵著巨大的潛力,還面臨著許多理論和方法上的實際問題。例如,在語音編碼技術方面,能否在極低速率或甚低速率下取得滿意的語音質量?在語音增強技術方面,能否在極其惡劣的背景下獲取干凈的語音信號?在語音識別技術方面,能否進一步提高自然交流條件下的識別性能?在人機語音交互方面,能否進一步提高機器通過語音交流理解語義的能力?