官术网_书友最值得收藏!

  • Kaldi語音識別實戰
  • 陳果果等
  • 290字
  • 2020-06-05 16:56:39

3 數據整理

本章介紹如何為Kaldi的訓練環境準備數據和其他資源文件。在使用語音識別工具訓練聲學模型時,一個新手的常見問題就是如何準備訓練數據。這里面包含兩個問題,第一個是如何選擇訓練數據,第二個是如何將數據整理成工具可以支持的格式。如果數據格式不正確或不規范,則可能導致訓練過程無法進行,或者訓練出來的模型性能極差。Kaldi的通用腳本將工具整合在一起,避免了工具誤用帶來的問題,但同時,也要求使用者保證數據格式的正確。不同數據來源的格式千差萬別,本章還將講解如何構建符合Kaldi腳本規范的數據資源文件,包括數據文件夾data和語言文件夾data/lang,并以Librispeech為例,詳解如何劃分訓練數據,以及各種資源文件的內容及其用途。

主站蜘蛛池模板: 满洲里市| 铁岭县| 巫溪县| 庄浪县| 万年县| 宜兴市| 新平| 开江县| 长泰县| 平塘县| 绿春县| 屏南县| 平凉市| 松阳县| 定西市| 泰宁县| 灵山县| 昌图县| 杨浦区| 邛崃市| 舒城县| 攀枝花市| 桓仁| 绥芬河市| 沾化县| 广宗县| 兴化市| 鹤峰县| 泉州市| 西乌珠穆沁旗| 天门市| 鄂州市| 南昌县| 永安市| 卢龙县| 武城县| 浦城县| 迁安市| 吐鲁番市| 和田市| 安西县|