書名： Kaldi語音識別實戰
作者名：陳果果等
本章字數： 6字
更新時間： 2020-06-05 16:56:37

2 Kaldi概要介紹

2.1 發展歷史

本節將介紹Kaldi語音識別工具包的發展歷史。了解一個工具包的發展歷史，能夠更好地幫助我們理解一個工具包將來的發展。

2.1.1 名字的由來

關于Kaldi名字的由來，Kaldi的官方文檔是這么解釋的：根據傳說，Kaldi是埃塞俄比亞的牧羊人，他發現了咖啡樹這種植物。

其實，Kaldi名字的由來有著更有趣的故事。在2009年約翰霍普金斯大學的夏季研討會期間，Kaldi還只是一個輕量級的語音識別解碼器，由布爾諾理工大學的Ond?ej Glembek寫成。當時參加夏季研討會的研究人員里面，有很多是來自布爾諾理工大學的研究人員，他們大多數都是咖啡的重度愛好者，喜歡時不時地組織咖啡品嘗活動。于是Ond?ej Glembek就用發現咖啡樹的牧羊人的名字Kaldi命名了這個解碼器。這個解碼器也就是后來Kaldi語音識別工具包的前身。有趣的是，Kaldi后期的主要維護者Daniel Povey是茶的重度愛好者，幾乎不怎么喝咖啡。

2.1.2 約翰霍普金斯大學夏季研討會

Kaldi起源于2009年的約翰霍普金斯大學的夏季研討會（The Johns Hopkins University Summer Workshop），因此有必要給讀者介紹一下在語音領域赫赫有名的約翰霍普金斯大學夏季研討會。

約翰霍普金斯大學夏季研討會由約翰霍普金斯大學語言和語音處理中心（The Johns Hopkins University Center for Language and Speech Processing，CLSP）發起和組織。吳軍在《數學之美》第7章中介紹基于概率模型的語音識別領域開山鼻祖Frederick Jelinek的時候，曾經提到過Jelinek在離開IBM以后，去了約翰霍普金斯大學，建立了專注于語言和語音處理的實驗室，這個實驗室便是CLSP。從1992年建立實驗室開始，Jelinek逐漸將CLSP發展成世界上最有名的語言和語音處理中心之一。

Jelinek自從建立了CLSP之后，每年夏天都會邀請20～30名世界頂級的科學家和學生到CLSP一起工作，解決一些特定的問題，這個邀請活動后來就演變成了赫赫有名的約翰霍普金斯大學夏季研討會。從1995年開始，約翰霍普金斯大學夏季研討會每年夏天舉辦一次，從未間斷。夏季研討會一般會由3～4個研究小組組成，其中一個專注于語音識別方向，一個專注于自然語言處理方向，剩余的研究小組專注于計算機視覺等其他方向。早期的夏季研討會都在約翰霍普金斯大學Homewood小區舉辦，從2014年開始，為了緬懷2010年去世的Jelinek，約翰霍普金斯大學夏季研討會更名為賈里尼克紀念研討會（Jelinek Memorial Workshop on Speech and Language Technology，JSALT），從此開始交替在約翰霍普金斯大學和其他世界知名的語音和語言處理中心舉辦。后期的夏季研討會主要由CLSP的Sanjeev Khudanpur博士組織舉辦。

約翰霍普金斯大學夏季研討會可謂是開源工具的搖籃，除完成在語音和語言處理領域舉足輕重的研究工作外，在研討會期間還開發了一批對語音和語言處理領域影響非凡的開源工具。比如，在語言模型建模領域具有統治地位的開源工具包SRILM，在機器翻譯領域舉足輕重的開源工具包Moses，當然也包括本書的主角，在語音識別領域最受歡迎的開源工具包Kaldi。

2.1.3 Kaldi發展簡史

Kaldi起源于2009年約翰霍普金斯大學夏季研討會。2009年的約翰霍普金斯夏季研討會的其中一個主題是Low Development Cost，High Quality Speech Recognition for New Languages and Domains，而研究的重心則是Subspace Gaussian Mixture Model（SGMM）。為了方便實驗驗證效果，研究人員開發了一個簡陋的基于有限狀態轉錄機的語音識別解碼器，以及一些基于語音識別工具包HTK的訓練腳本，這些就是Kaldi的前身。

2010年，一部分參加了2009年約翰霍普金斯大學夏季研討會的研究人員重新聚集在一起，在布爾諾理工大學舉辦了一場后續的研討會，來完善Kaldi作為一個語音識別工具包的功能，同時開發一系列基于Kaldi自有工具的訓練腳本。但是在這一年，依舊沒有形成一個完整的系統。

Kaldi初版代碼庫的正式發布是在2011年5月14日。隨后在5月27日，Kaldi的開發者們在布拉格舉辦的ICASSP期間為Kaldi正式舉行了一場發布會。發布會當天會議廳座無虛席，很多參會者甚至都坐在了地上。

Kaldi初版代碼發布之后，代碼庫的開發和維護主要由知名的語音識別領域研究人員Daniel Povey來主導。Povey從2013年開始成為約翰霍普金斯大學語言和語音處理中心的研究人員，自此，Kaldi的研發中心又回到了約翰霍普金斯大學。

在Kaldi的發展過程中，夏季研討會起到了不可磨滅的作用，因此筆者也根據研討會的時間節點整理了Kaldi的發展歷程。

· 2009年的約翰霍普金斯大學夏季研討會，語音識別工具包Kaldi正式開始開發，完成了早期的系統，包括輕量級的解碼器和基于HTK的訓練腳本。

· 2010年的布爾諾理工大學Kaldi研討會，Kaldi作為語音識別工具包的功能被完善，同時研究人員開發了獨立于HTK的訓練腳本。大量的代碼在2010年被開發。

· 2011年5月14日，Kaldi初版代碼庫正式發布。

· 2011年的布爾諾理工大學Kaldi研討會，基于GMM和SGMM的區分性訓練被開發。

· 2012年的布爾諾理工大學Kaldi研討會，基于nnet1的區分性訓練和Stacked-bottleneck網絡被開發。

· 2013年的布爾諾理工大學Kaldi研討會，補充并完善Kaldi。

· 2014年的布拉格首屆JSALT研討會，研究了神經網絡的內部結構和語音識別置信度分析等。

· 2015年的華盛頓大學第二屆JSALT研討會，Daniel Povey開始了Kaldi中nnet3的開發。

官术网_书友最值得收藏!

Kaldi語音識別實戰

2 Kaldi概要介紹

2.1 發展歷史

2.1.1 名字的由來

2.1.2 約翰霍普金斯大學夏季研討會

2.1.3 Kaldi發展簡史