官术网_书友最值得收藏!

4.1 引言

在大數(shù)據(jù)背景下,往往需要用多個變量對事物進(jìn)行描述,并通過收集大量數(shù)據(jù)來分析和尋找蘊(yùn)含在數(shù)據(jù)中的規(guī)律。多變量、大樣本為研究和應(yīng)用提供了豐富的信息,但同時也在一定程度上增加了問題的復(fù)雜度。

在實(shí)際情況中,諸多變量之間可能存在相關(guān)性,即某些變量與其他變量之間可能存在線性或其他類型的函數(shù)關(guān)系,從而帶來了變量的冗余,不利于在數(shù)據(jù)中尋找規(guī)律。因此,如何在合理減少描述事物的變量個數(shù)的同時,盡可能地降低信息損失,是尋找數(shù)據(jù)內(nèi)部規(guī)律性表示所追求的目標(biāo)。數(shù)據(jù)表示的維度越少,內(nèi)部規(guī)律性的呈現(xiàn)就越直觀,而實(shí)現(xiàn)維度減少的過程就是數(shù)據(jù)降維。數(shù)據(jù)降維不僅可以降低模型復(fù)雜度、減少存儲空間,還可以提高算法魯棒性、減少冗余信息以及有助于數(shù)據(jù)的可視化。

目前在語音信號處理中,一般采用時頻分析方法來提取語音信號的時頻表示特征,在此基礎(chǔ)上進(jìn)一步進(jìn)行相應(yīng)的處理。語音信號的時頻表示特征一般具有較高的維數(shù)(例如256點(diǎn)STFT之后的幅度譜系數(shù)維度為129,常用的梅爾倒譜系數(shù)維度為39等),這種高維度表示雖然能很好地包含語音信息,但會導(dǎo)致后續(xù)處理模型更為復(fù)雜,語音內(nèi)部蘊(yùn)含的規(guī)律也無法直觀地呈現(xiàn)。通過數(shù)據(jù)降維可以去除冗余信息,發(fā)現(xiàn)語音特征中潛在低維結(jié)構(gòu)的規(guī)律性,從而為后續(xù)的智能處理任務(wù)提供有力支持。

數(shù)據(jù)降維可以通過線性映射和非線性映射來實(shí)現(xiàn)。這兩類方法的本質(zhì)是將原數(shù)據(jù)表示進(jìn)行線性或非線性組合以獲取簡約的表示,從而實(shí)現(xiàn)數(shù)據(jù)降維。線性映射方法的代表方法有主成分分析、線性判別分析、非負(fù)矩陣分解等,非線性映射方法的代表方法有核方法、流形學(xué)習(xí)等。

本章首先介紹兩種典型的組合模型,即正交表示下的組合模型(主成分分析)和非正交表示下的組合模型(非負(fù)矩陣分解)的基本模型、求解方法和優(yōu)缺點(diǎn);然后,針對兩類組合模型對噪聲較為敏感的問題,介紹兩類魯棒的組合模型,以提高組合模型抵抗噪聲的能力。

主站蜘蛛池模板: 安宁市| 宽甸| 景东| 绥江县| 承德县| 湖州市| 原平市| 尖扎县| 渝北区| 晋中市| 徐水县| 房山区| 大英县| 凤城市| 永州市| 盐城市| 茶陵县| 纳雍县| 通道| 花莲县| 宁化县| 得荣县| 通山县| 海南省| 高安市| 静安区| 彰武县| 高碑店市| 朝阳区| 江门市| 萝北县| 麦盖提县| 荔波县| 安远县| 宜川县| 板桥市| 宜都市| 如东县| 大连市| 茶陵县| 上饶市|