- 智能語音處理
- 張雄偉 孫蒙 楊吉斌
- 612字
- 2020-11-05 10:07:13
3.4.2 GPLVM的理論來源
GPLVM的初衷和GMM、HMM并不相同,它起源于概率PCA(Probabilistic Principal Component Analysis),更主要的是為了解決高維數據的降維問題,特別是在無法確定高低維空間映射關系的情況下的降維問題。
PCA是一個實現數據降維的高效方法(詳見第4章),它本質上是將方差最大的方向作為主要特征,并在各個正交方向上將數據“去相關”,通過保留能量最大的特征向量上的分量實現數據降維。
PCA方法的有效性可以從不同的角度解釋。Tipping和Bishop從概率的角度分析PCA的處理過程,并提出了概率PCA。給定N個D維觀測數據Y=[y1,y2,…,yn,…,yN],希望找到它們在低維空間?q中的表示X=[x1,x2,…,xn,…,xN]。同樣地,假設高維和低維空間對應的兩個點的關系滿足:
yn=Wxn+ηn
(3-27)
其中,W是從低維向高維的映射。ηn∈?D,服從均值為零的高斯分布,,β-1為噪聲方差。概率PCA的目標就是解出這個映射W。
該問題可以通過最大似然估計來求解。在已知X、W和β-1的條件下,yn的條件分布為。進一步,假設xn也服從正態分布
(xn|0,I),則可以計算yn的邊緣分布為
可以證明,基于式(3-28)計算令觀測數據Y似然最大化的映射,所得的就是PCA的解。
從上述過程可以看出,GPLVM和概率PCA在模型上極為相似,兩者存在緊密的聯系。所不同的是,GPLVM將高低維空間的映射視為服從高斯分布的概率形式,采用的函數從線性函數形式推廣至概率核函數形式,這樣可以減少對模型先驗的要求,只要設置待求空間的協方差函數,就能學習到更為豐富的函數形式。具體分析可以進一步閱讀相關論文[8]。