- 智能語音處理
- 張雄偉 孫蒙 楊吉斌
- 549字
- 2020-11-05 10:07:05
1.3.2 智能語音處理的基本框架
“聲源-濾波器”模型雖然能夠有效地區分聲源激勵和聲道濾波器,對它們進行高效的估計,但語音產生時發聲器官存在著協同動作,存在緊耦合關系,采用簡單的線性模型無法準確描述語音的細節特征。同時,語音是一種富含信息的信號載體,它承載了語義、說話人、情緒、語種、方言等諸多信息,分離、感知這些信息需要對語音進行十分精細的分析,對這些信息的判別也不再是簡單的規則描述,單純對發聲機理、信號的簡單特征采用人工手段去分析并不現實。
類似于人類語言學習的思路,采用機器學習手段,讓機器通過“聆聽”大量的語音數據,并從語音數據中學習蘊含其中的規律,是有效提升語音信息處理性能的主要手段。與經典語音處理方法僅限于通過提取人為設定特征參數進行處理不同,智能語音處理最重要的特點就是在語音處理過程或算法中體現從數據中學習規律的思想。圖1-5給出了智能語音處理的三種基本框架,圖中虛線框部分有別于經典語音處理方法,包含了從數據中學習的思想,是智能語音處理的核心模塊。其中,圖1-5a是在經典語音處理特征提取的基礎上,在特征映射部分融入了智能處理,是機器學習的經典形式,圖1-5b和圖1-5c是表示學習的基本框架,其中圖1-5c是深度學習的典型框架,“深度層次化的抽象特征”是通過分層的深度神經網絡結構來實現的。