




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第10章
高斯混合模型1學習目標理解高斯混合模型的基本原理。掌握高斯混合模型在數據聚類和圖像生成中的具體應用。122目錄頁310.1基本原理10.2應用實例高斯混合模型高斯混合模型(Gaussianmixturemodel,GMM)是一種無監督學習算法,其通過采用若干具有不同參數的高斯模型以無限小的誤差共同描述數據的分布形態或事物的變化規律,不但在理論上具有較高可解釋性,而且在實際中往往也表現出較高的性能。此外,GMM作為一種生成式模型,不但可根據已知數據確定其多維高斯模型混合表達的形式以生成新的數據,而且在對已知數據進行聚類中可有效解決K均值聚類算法存在的“數據點硬分配”方式可靠性較低、對非球形分布數據性能較差等缺點。4高斯混合模型10.1基本原理針對無類別標記的已知數據,對其進行可靠聚類在實際中具有較高的應用價值(可靠類別標記的生成通常需要較多的人力資源或較長的時間)。K均值聚類算法雖然原理簡單且在理想情況下可獲得較好的結果,但在實際中往往也存在以下問題導致其應用較為受限:要求數據分布形態必須為球形。在特征相近原則的基礎上采用將數據點“硬分配”相應類別的方式。510.1基本原理針對以上問題,GMM通過融合多個具有不同參數的單高斯模型擬合數據的分布形態,不但可突破數據分布形態為球形的假設,而且可計算出每個數據點屬于不同類別的概率,因而在具體問題的求解中表現出更高的可靠性與精度。610.1.1基本概念
710.1.1基本概念
810.1.1基本概念單高斯混合模型相關曲線形如草帽,而均值與標準差則決定其主要形態。(如左圖所示)均值決定了其相應曲線的高度與位置,而標準差則決定了其相應曲線沿X軸的跨度或數據的分散程度。均值的絕對值越大,則曲線越高,而標準差越大,則沿X軸的跨度越大(或數據越分散)。9不同均值與標準差相應的高斯模型10.1.2數學模型每個單高斯模型通常稱為高斯混合模型的構成成分,高斯混合模型的構成成分越多,則其表達能力越強,但同時需要估計的參數也越多,因而其效率與可靠性則可能較低。從理論上而言,高斯混合模型可描述任何事物狀態或擬合任何形態分布的數據。1010.1.2數學模型
1110.1.2數學模型
1210.1.2數學模型在求解GMM中不同單高斯模型的參數時,通常采用E-M(Expecation-Maximization)算法。EM算法是一種針對包含隱含變量的概率模型參數極大似然估計算法,其由以下兩個步驟通過輪回迭代的方式完成。1310.1.2數學模型
1410.1.2數學模型
15
10.1.2數學模型16
10.2應用實例GMM模塊導入方法fromsklearn.mixtureimportGaussianMixtureasGMM函數原型classsklearn.mixture.GaussianMixture(n_components=1,covariance_type=’full’,tol=0.001,reg_covar=1e-06,max_iter=100,n_init=1,init_params=’kmeans’,weights_init=None,means_init=None,precisions_init=None,random_state=None,warm_start=False,verbose=0,verbose_interval=10)17
10.2應用實例GMM常用參數如下表所示。18名稱說明n_components混合高斯模型構成分量的數量,默認為1。covariance_type協方差類型,包括'full'、'tied'、'diag'與'spherical'四種;其中,'full'表示每個分量有各自不同的標準協方差矩陣(元素都不為零),'tied'表示所有分量有相同的標準協方差矩陣,'diag'表示每個分量有各自不同的對角協方差矩陣(非對角元素為零,對角元素不為零),'spherical'表示每個分量有各自不同的球面協方差矩陣(非對角元素為零,對角完全相同),默認為'full'。n_init初始化次數,用于產生最佳初始參數,默認為1。init_params初始化參數方式,包括'kmeans'與'random'兩種,默認為'kmeans'。
10.2應用實例GMM常用方法如下表所示。19名稱說明aic(self,
X)根據輸入X求模型的Akaike信息準則值。bic(self,
X)根據輸入X求模型的貝葉斯信息準則值。fit(self,
X[,
y])采用EM算法估計模型參數。fit_predict(self,
X[,
y])訓練模型并預測輸入X的類別標記。get_params(self[,
deep])獲取模型參數。predict(self,
X)預測輸入X的類別標記。predict_proba(self,
X)預測輸入X的所屬類別的概率。sample(self[,
n_samples])根據模型生成隨機樣本。score(self,
X[,
y])求取模型的精度。set_params(self,
\*\*params)設置模型參數。10.2.1數據聚類根據GMM算法原理,其可有效克服K均值聚類算法存在的數據球形分布假設、數據點“硬分配”等缺點,在實際的數據聚類中往往可獲得更可靠的結果。本例通過構造不同分布形態的數據對比兩種算法之間的差異。2010.2.1數據聚類案例問題描述構造團狀分布數據并采用K均值聚類算法對其進行聚類。構造非團裝分布數據并分別采用K均值聚類算法與GMM算法對其進行聚類。利用GMM算法生成新數據。求取GMM算法最優分量數。案例實現10.2.1數據聚類(編程實現).py2110.2.1數據聚類結果分析22對球形分布的數據聚類效果較好;但對非球形分布的數據聚類時產生誤差較大。K均值聚類(球形分布數據)K均值聚類(非球形數據)10.2.1數據聚類結果分析23GMM算法對非球形分布的數據聚類效果較好。GMM模型分量越多,其聚類生成的類別越多。在具有復雜分布形態數據的聚類中表現出更好的性能。GMM聚類(非球形分布數據)10.2.1數據聚類結果分析24與K均值聚類算法不同,GMM算法實際上通過求取每個類別數據分布模型而確定每個數據所屬類別的概率,此數據點“軟分配”方式不但具有更高的可靠性,而且可根據數據分布模型生成新的數據點。GMM生成新數據10.2.1數據聚類結果分析25在確定GMM最優分量時,如左圖所示,隨著分量數的增加,AIC與BIC值先降低后增加,在分量數為9或10時兩者綜合值基本達到最小,因而可以此確定最優分量數。AIC與BIC變化曲線
知識拓展在構建機器學習模型時,許多模型參數估計問題采用似然函數作為目標函數,當訓練數據足夠多時通常可獲得較好的結果,但同時也可能模型的復雜度過高可出現過擬合問題。因而,通過特定的標準綜合權衡模型表達能力與模型復雜度,有助于確定最優的模型。當前,較為常用的兩種便準分別為:赤池信息準則(AIC)貝葉斯信息準則(BIC)2610.2.2圖像生成圖像生成旨在根據圖像特征或圖像像素值分布規律生成新的圖像,在藝術創作、風險防控等領域有著廣泛的應用。GMM作為一種生成式模型,可以對不同類型的數據分布形態進行描述并依此生成新的數據。以圖像數據為例介紹GMM在圖像生成中的使用方法。2710.2.2圖像生成
問題描述:利用手寫數字圖像數據構建GMM模型并生成新的手寫數字圖像,具體要求如下:加載MNIST數據并生成GMM構建樣本。利用主成分分析方法對GMM構建樣本進行降維處理。構建不包含不同分量的GMM模型并對比其生成圖像之間的差異。編程實現10.2.2圖像生成(編程實現).py2810.2.2圖像生成
結果分析29原始圖像手寫體數字圖像數據集包含60000幅分辨率為28×28的訓練圖像。本例采用GMM算法對16幅圖像的特征或像素分布形態進行提取或擬合,進而利用相應的GMM模型生成新的圖像。將每幅圖像展平為向量時,維度相對較高(28×28=784維),因而采用主成分分析算法將維度降至10維。10.2.2圖像生成
結果分析30生成的新圖像(分量為5)生成的新圖像(分量為10)左圖采用較少的單高斯模型提取圖像特征,不易損失主要信息,生成的圖像較模糊。右圖采用相對較多的單高斯模型提取圖像特征,可保留更多的細節,生成的圖像較清晰。本章小結GMM假設數據由多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年巴音郭楞職業技術學院高職單招(數學)歷年真題考點含答案解析
- 2025年山西職業技術學院高職單招職業技能測試近5年常考版參考題庫含答案解析
- 2025年山東水利職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- ICU基礎知識課件
- HR六大基礎知識課件
- 2025年威海海洋職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- Flash多媒體課件基礎知識
- 美國藥學管理及啟示
- 8S培訓課件教學課件
- 環狀混合痔手術護理常規
- 2024年鄭州黃河護理職業學院單招職業適應性測試題庫及答案解析
- 生產直通率記錄表
- 2024年部編版五年級下冊語文第七單元綜合檢測試卷及答案
- 醫療依法執業培訓課件
- 施工現場安全圍擋
- 拐杖及助行器的使用方法課件
- 中央環保督察迎戰培訓課件
- 風濕免疫科學教學設計案例
- 妊娠合并梅毒護理查房課件
- 2023小米年度報告
- 修大壩施工方案
評論
0/150
提交評論