- 智能語音處理
- 張雄偉 孫蒙 楊吉斌
- 764字
- 2020-11-05 10:07:14
4.1 引言
在大數(shù)據(jù)背景下,往往需要用多個變量對事物進(jìn)行描述,并通過收集大量數(shù)據(jù)來分析和尋找蘊(yùn)含在數(shù)據(jù)中的規(guī)律。多變量、大樣本為研究和應(yīng)用提供了豐富的信息,但同時也在一定程度上增加了問題的復(fù)雜度。
在實(shí)際情況中,諸多變量之間可能存在相關(guān)性,即某些變量與其他變量之間可能存在線性或其他類型的函數(shù)關(guān)系,從而帶來了變量的冗余,不利于在數(shù)據(jù)中尋找規(guī)律。因此,如何在合理減少描述事物的變量個數(shù)的同時,盡可能地降低信息損失,是尋找數(shù)據(jù)內(nèi)部規(guī)律性表示所追求的目標(biāo)。數(shù)據(jù)表示的維度越少,內(nèi)部規(guī)律性的呈現(xiàn)就越直觀,而實(shí)現(xiàn)維度減少的過程就是數(shù)據(jù)降維。數(shù)據(jù)降維不僅可以降低模型復(fù)雜度、減少存儲空間,還可以提高算法魯棒性、減少冗余信息以及有助于數(shù)據(jù)的可視化。
目前在語音信號處理中,一般采用時頻分析方法來提取語音信號的時頻表示特征,在此基礎(chǔ)上進(jìn)一步進(jìn)行相應(yīng)的處理。語音信號的時頻表示特征一般具有較高的維數(shù)(例如256點(diǎn)STFT之后的幅度譜系數(shù)維度為129,常用的梅爾倒譜系數(shù)維度為39等),這種高維度表示雖然能很好地包含語音信息,但會導(dǎo)致后續(xù)處理模型更為復(fù)雜,語音內(nèi)部蘊(yùn)含的規(guī)律也無法直觀地呈現(xiàn)。通過數(shù)據(jù)降維可以去除冗余信息,發(fā)現(xiàn)語音特征中潛在低維結(jié)構(gòu)的規(guī)律性,從而為后續(xù)的智能處理任務(wù)提供有力支持。
數(shù)據(jù)降維可以通過線性映射和非線性映射來實(shí)現(xiàn)。這兩類方法的本質(zhì)是將原數(shù)據(jù)表示進(jìn)行線性或非線性組合以獲取簡約的表示,從而實(shí)現(xiàn)數(shù)據(jù)降維。線性映射方法的代表方法有主成分分析、線性判別分析、非負(fù)矩陣分解等,非線性映射方法的代表方法有核方法、流形學(xué)習(xí)等。
本章首先介紹兩種典型的組合模型,即正交表示下的組合模型(主成分分析)和非正交表示下的組合模型(非負(fù)矩陣分解)的基本模型、求解方法和優(yōu)缺點(diǎn);然后,針對兩類組合模型對噪聲較為敏感的問題,介紹兩類魯棒的組合模型,以提高組合模型抵抗噪聲的能力。
- 21世紀(jì)機(jī)器人
- 類腦智能:大腦情感學(xué)習(xí)模型的應(yīng)用研究
- 深度思考:人工智能的終點(diǎn)與人類創(chuàng)造力的起點(diǎn)
- 生成式AI實(shí)戰(zhàn)
- 生活難題一鍵解:豆包實(shí)用全攻略
- 塊數(shù)據(jù)4.0:人工智能時代的激活數(shù)據(jù)學(xué)
- 圖解大模型:生成式AI原理與實(shí)戰(zhàn)
- 強(qiáng)化學(xué)習(xí):原理與Python實(shí)現(xiàn)
- 信息流推薦算法
- AI:人工智能的本質(zhì)與未來
- 人工智能
- RPA智能機(jī)器人:實(shí)施方法和行業(yè)解決方案
- 因果推斷導(dǎo)論
- Python深度學(xué)習(xí):基于TensorFlow(第2版)
- DeepSeek應(yīng)用大全:從入門到精通的全方位案例解析