- 智能語音處理
- 張雄偉 孫蒙 楊吉斌
- 492字
- 2020-11-05 10:07:11
3.2.1 基本概念
GMM是一種常見的概率參數模型,它利用多個高斯分布線性加權求和的方式對數據進行建模。對于觀測變量x,它的概率密度函數表示為
其中,表示均值為μi、協方差矩陣為Σi的高斯分布,Q是GMM包含的高斯成分個數,αi是高斯成分的權值,且
,αi≥0。
從式(3-1)可以知道,變量x的概率表達非常復雜。那么為什么要使用這樣的表示呢?基本的高斯分布是一個單峰結構,均值表示峰值的位置,方差(協方差陣)刻畫峰值的寬度。這在刻畫服從簡單分布的常見變量時非常有效,如圖3-1a所示。但是,當需要描述復雜分布時,由于可能在不同的位置存在多個峰值的情況,因此已無法使用基本的高斯分布進行描述,如圖3-1b所示。

圖3-1 隨機變量的概率密度分布圖,為簡化示意,此處均采用一維隨機變量。圖a中兩個變量服從高斯分布,均值分別為-2和2,方差分別為1和4;圖b中兩個變量的分布呈現多峰形式,可以用多個高斯分布的混合形式表示
理論已證明,采用任意多的高斯分布,可以擬合任意的概率分布函數。雖然也可以使用其他形式的概率分布來進行擬合,但由于高斯分布具有非常好的數學性質,其相關推導也十分成熟,因此采用高斯混合模型來描述復雜的高維概率分布非常方便。