統計學習聚類方法的應用研究_第1頁
統計學習聚類方法的應用研究_第2頁
統計學習聚類方法的應用研究_第3頁
統計學習聚類方法的應用研究_第4頁
統計學習聚類方法的應用研究_第5頁
已閱讀5頁,還剩19頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學習聚類方法的應用研究摘要聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程.聚類分析作為一種有效的數據分析手段,能夠幫助人們認識和揭示事物之間的內在聯系,它已被廣泛應用到數據壓縮、圖像處理、計算機視覺、文本聚類和異常點檢測等領域.本文首先展示了統計學習的理論基礎,然后詳細介紹了k-均值法、基于圖的譜聚類、自組織神經網絡、層次聚類等聚類方法,最后使用k-均值算法來判斷中國乒乓球水平以及利用譜聚類來實現圖像分割等應用.關鍵詞:k-均值法;譜聚類;自組織學習;層次聚類ResearchonApplicationofStatisticalLearningClusteringMethodABSTRACTClusteranalysisreferstotheanalysisprocessofgroupingasetofphysicalorabstractobjectsintomultipleclassescomposedofsimilarobjects.Asaneffectivemeansofdataanalysis,clusteringanalysiscanrevealtheinternalrelationshipbetweenthings.Ithasbeenwidelyusedindatacompression,imageprocessing,computervision,textclustering,outlierdetectionandotherfields.Thispaperfirstshowsthetheoreticalbasisofstatisticallearning,thenintroducesthek-meansmethod,spectrumclusteringbasedongraph,self-organizingneuralnetwork,hierarchicalclusteringandotherclusteringmethodsindetail,andfinallyusesk-meansalgorithmtojudgethelevelofChinesetabletennisandusesspectrumclusteringtoachieveimagesegmentation.Keywords:K-means;SpectralClustering;Self-OrganizedLearning;HierarchicalClustering目錄TOC\o"1-2"\h\z\u摘要 IABSTRACT II1研究意義和目的 11.1研究意義…11.2研究目的11.3研究現狀11.4本文主要工作12統計學習的理論基礎22.1假設空間 22.2決策函數 22.3優化算法 22.4模型評估及選擇 23聚類方法 33.1k-均值法 33.2基于圖像的譜聚類 33.3自組織競爭學習神經網絡模型…………33.4層次聚類算法34統計學習聚類方法的應用 44.1基于k-均值法來判斷各國乒乓球水平 44.2層次聚類應用 65結論與進一步的工作 115.1結論和認識115.2進一步的工作11參考文獻 12致謝 131研究意義和目的1.1研究意義隨著時代的飛速發展,各行業為了記錄或保留重要內容便產生了龐雜的數據,大數據時代隨之而來,人們利用聚類方法對大數據進行處理[2].聚類技術已經在諸如:社會學領域、體育領域、計算機視覺領域等得到了廣泛應用.作為一種有效的數據分析手段,它已被廣泛應用到數據壓縮、圖像處理、計算機視覺、文本聚類和異常點檢測等領域[1,4].許多聚類方法簡單、容易實現、能得到全局最優解和對任意形狀的數據空間進行聚類分析等.本文在詳細闡述聚類分析的理論的同時還采納各方學者的先進觀點就身邊的一些實例進行分析并應用在具體實例上.比如農業無人機的應用[5],這使得我國農業發展有了可靠的科學依據,讓農業不在停留在原始時代.最近影響我國及世界的新型冠狀病毒讓人們感到非常棘手,我國能迅速遏制疫情也離不開中醫的預防治療,沈潔[8]等探討中醫藥的組方特點及用藥規律成為新冠肺炎復方中藥開發的數據支持,以數據推動方法對中藥方劑進行對比研究,能有效體現出各配方的效果,讓枯燥的數學應用于活靈活現的現實生活中,為人們解決實際問題.1.2研究目的聚類分析在研究目的上與判別分析有所不同,前者主要是研究事物的分類.而判別分析則是在建立判別函數之前,先對各種判別的類型和數目進行熟悉,并以判別函數對來自各判別類型的樣本進行歸類.聚類分析則是在不清楚樣品中的類型和分類情況下,對數據進行分類的一種解決辦法.聚類分析將分類對象按一定規則分成組或類,并且所分成的組或類是根據數據特征而定的不是事先確定的.在某種意義上,在不同類中對象之間大多不相似,而同一個給定的類中所有對象彼此之間都有一定的相似性.1.3研究現狀目前對聚類分析的研究已經有了長足的進展,由于其研究方向的交叉特性而被人們所認同.聚類分析在識別數據的內在結構方面意義重大,并且在數據挖掘方向是較為重要研究內容之一[6].組合聚類是處理數據挖掘的手段之一,童緒軍[3]等提出一種改進譜組合聚類算法,采用增強拉格朗日乘數算法求解,提高了聚類性.隨著聚類方法的不斷擴展,許多聚類方法都被改進,新的改進算法被提出,打破了舊的理論束縛,讓聚類研究得到發展;其中傳統的K-均值法聚類的結果不穩定,因為它的初始聚類中心是在數據集中隨機產生的;傅德勝等[7]提出一種改進的K-均值算法,該算法基于密度算法優化初始聚類中心,消除對初始聚類中心的依賴,使得聚類結果大有改進.不僅如此,K-均值法也依賴初始聚類中心經驗參數,對此陳靖颯[9]等提出新型高效無參數聚類方法,它是基于最小生成樹的無參數化聚類MNC算法,相對于傳統算法,該算法能識別不同型狀的數據簇,而且還能減少聚類時間提高效率.聚類算法作為近年來的研究熱點問題已經在該領域內引發了巨大的研究熱潮.我國對于這類算法的挖掘已有幾十年的歷史,相對研究得比較深入,聚類方法在人們不斷探索下正在飛速發展.1.4本文主要工作本文主要論述了什么是聚類方法,以及聚類方法常用的方法,主要包括:k-均值法、基于圖的譜聚類、自組織競爭學習神經網絡模型、層次聚類算法等等.通過對聚類算法基本知識的了解,逐漸認識了聚類方法的應用方向,并就其中的某些方法進行實例分析;最終學會如何利用數學知識解決實際問題,達到學以致用的目的.2統計學習的理論基礎2.1假設空間通常我們稱機器學習中一些可能的函數所構成的空間叫做假設空間,假設空間表達了輸入到輸出的一種映射集合;表示成是樣本輸入,是樣本輸出,是關系函數,于是所有可能結果組成了假設空間.函數的類型大多是明確的,需要計算它的參數,比如知道是一個線性函數,那么就可以表示成,接下來就要計算參數和的值,這種前提下假設空間表示成,為的參數取值空間.2.2決策函數決策函數是一個樣本空間到一個行動空間的可測映射集合.例如在一個模式中抽取個特征,表示成,是維空間中的一個向量,根據模式個特征找出判別模式屬于類中的哪類.如下圖中提到的分類問題,決策函數就是這三類的分界線.圖1分類圖2.3優化算法我們每個人都會在生活或者工作中遇到各種各樣的優化問題,學習和工作中遇到的大多數問題都可以建立模型進行求解.比如在機器學習算法,大部分機器學習算法本質都是建立優化模型,常見的優化方法有梯度下降法等.梯度下降法是最簡單、最常用的優化方法,當目標函數是凸函數時,它的解是全局解.梯度下降法是2范數下的最速下降法.最速下降法簡單形式是:其中代表每一次搜素,且是的梯度.通過變量輪換法、共軛方向法等的討論,我們知道對多維無約束問題優化總是將其轉化為在一系列選定方向進行一維搜索,一步步將目標函數值降低,直到與目標函數的極小點相逼近;而方向的選擇與迭代速度、計算效率關系很大.維無約束極小化問題可根據函數在其正梯度的相反方向上其函數值下降最快的原理而轉變為目標函數在正梯度相反方向的一維搜索,這就成為梯度法的基本構想.對此,將無約束優化迭代中的搜索方向確定為單位負梯度向量,其通式為,梯度法迭代公式可由以下兩種形式表示:,,其中函數在迭代點處的梯度和梯度的模分別為梯度法迭代公式的兩種表示中都是最優步長因子,兩式分別以一維極小化和

對上述兩公式進行若干次一維搜索,將上次迭代的終點作為下次迭代的起始點,就能達到迭代點向目標函數極小點不斷逼近的效果.目標函數的極小點,以點距準則或梯度準則作為迭代停止運行的條件,若或時,表示迭代結束.2.4模型評估及選擇有了模型的假設空間,則要考慮選擇什么準則學習或者說是選擇最優的模型.則引入了損失函數,損失函數度量模型一次預測的好壞.統計學習常用的幾種損失函數:(1)0-1損失函數:平方損失函數:絕對損失函數:對數損失函數或對數似然損失函數:統計學習的目的是要使學習后的模型在訓練數據和測試數據中都有很好的預測能力,因此,利用損失函數為基礎的訓練誤差和測試誤差就成為了該模型的學習方法的評估標準.假設學習到的模型是,訓練誤差是模型關于訓練數據集的平均損失:測試誤差是模型關于測試數據集上的平均損失:訓練誤差的大小,在判斷給定的問題是否是一個容易學習的問題上,具有一定的意義,但其實際價值并不大,在學習的時候就需要選擇一個最優復雜度的模型,使模型的測試誤差最低,通常采用的方式就是正則化.正則化是實現結構風險最小化策略最為常用的方法,主要指在經驗風險的基礎上加上一個正則化項或懲罰項.正則化一般具有以下形式:前一項為經驗風險,后一項為正則化項,為調整兩者關系的系數.正則化項可以根據不同的需求采用不同的形.如在回歸問題中,損失函數是平方損失時,正則化項可以選擇參數向量范數:其中,表示參數向量的范數.同時,正則化項也可以選擇參數向量的范數:其中,表示參數向量的范數.3聚類算法3.1K-均值法K-均值法作為十大經典數據挖掘算法之一,屬于是聚類算法中最簡單無監督學習的一種算法.K-均值法是將個對象分成個簇,每個簇的中心點由簇中對象的均值來表示,簇內對象的變化通過不斷迭代而停止,這時簇間相似度低,簇內對象的相似度高.因此,這是平方誤差準則函數達到最優時的狀態.該算法步驟如下:算法樣本為,將樣本聚類成個簇,具體算法如下:(1)隨機選取k個聚類重心點為(2)重復下面過程到收斂:{第一步,對于每一個樣例,計算其屬于的類:第二步,對于每個類,重新計算該類的重心:}.該算法終止條件為沒有聚類中心再發生變化或是誤差平方和最小.而K-均值操作解釋圖見下圖.迭代1迭代2迭代3圖2操作解釋圖3.2基于圖的譜聚類譜聚類是基于圖論的一種聚類方法,對樣本數據的拉普拉斯矩陣的特征向量進行聚類,其結果是對樣本數據聚類.3.2.1聚類原理1、用表示無向圖,其中和分別為其頂點集和邊集;2、某條邊屬于某個子圖是指該邊的兩個頂點都包含在子圖中;3、假設某邊的兩個端點為,則該邊的權重為,可知對于譜聚類,且;4、對于圖的某種劃分方法,所有兩端點不在同一子圖中的邊的權重之和,3.2.2分割方法1、最小化切

關于無向圖,我們是要將圖切成相互之間沒有連接的子圖,子圖的點集合為:,其中且.任意給出兩個子圖點集合,定義和之間權重切圖為:,對于個子圖集合,將其定義切圖為;,其中是的補集.2、標準化切實際當中,劃分圖時除了要考慮最小化切外,還要考慮劃分的平衡性,為緩解出現類似一個子圖包含非常多端點而另一個只包含很少端點的情況,還要考慮到子圖內部的相似性,公式如下:公式可變為如下形式:所以在減少了子圖之間的切值的同時也增加了子圖內部的相似度。保證了分割的平衡.定義:,所以其中:,用泛化表示為:,那問題就變成求解特征系統的特征值和特征向量:3.3自組織競爭學習神經網絡模型自組織映射神經網絡(SOM)是經常應用于聚類的神經網絡,它是由Kohonen[10]提出的一種無監督學習的神經網絡模型.SOM具有自組織功能,可以在沒有專業老師監督下自我學習,還能通過訓練自身讓網絡能對輸入模式自動進行分類.3.3.1SOM模型圖圖3競爭網絡模型圖上圖有一個前饋結構,以行列方陣構成的單一計算層,每一個神經元完全連接到輸入層中的所有源節點.3.3.2SOM網絡算法初始化、歸一化權權向量:初始化、歸一化權權向量:建立初始優勝鄰域,學習率賦初始值輸入歸一化樣本輸入歸一化樣本計算點積計算點積選出點積最大獲勝節點定義優勝鄰域定義優勝鄰域對優勝鄰域對優勝鄰域內節點調整權值:結束結束3.4層次聚類算法層次聚類屬于聚類算法的一種,它主要是計算不同類別間數據的相似度從而生成一顆有層次的嵌套聚類樹.這顆聚類樹中,最底層屬于不同類別的原始數據,然而頂層是一個聚類的根節點.大多數層次聚類屬于凝聚型層次聚類,兩者在簇間相似度的定義有所差別,下面采用凝聚層次聚類的最小距離算法流程:把所有對象看成一類,計算他們兩兩間的最小距離.找出兩個距離最小的類將其合并成一個新類.從新計算所有類與新類間的距離.重復(2)、(3),最后直到所有類合并成一類.根據產生方式的不同,分為兩種不同的算法:合并層次聚類(自底向上),分裂層次聚類(自頂向下).3.4.1合并層次聚類把每一個簇都作為一個研究對象,再將原子簇合并起來,形成一個更大的簇并不斷合并直到滿足某個終止條件.通用的合并層次聚類算法:先始化;然后重復;求最鄰近的聚類,合并它們,直到.3.4.2分裂層次聚類在一個簇中歸置了所有的對象,再將其逐漸細分出來,分為越來越小的簇直至滿足終結條件后停止.通用的分裂層次聚類算法:先初始化;重復下面步驟;,在所有聚類簇中挑出具有最大直徑的聚類;找出中與其它點平均相異度最大的一個點p,并把p放入新簇,剩余的放在原簇中.重復執行在原簇里找出到最近的新簇中的點的距離不大于到原簇中最近點的距離的點,并將該點加入新簇.直到沒有新的原簇的點被分配到新簇.新簇和原簇為被選中的聚類簇分裂成的兩個簇,與其它簇一起組成新的簇集合,直到k=t.4統計學習聚類方法的應用人們對數據采集和獲得的能力已經隨著計算機技術的發展而大幅度提高,互聯網的快速應用更是提供了海量的信息和數據.但海量的數據由于沒有有力的工具也無法科學的處理,以目前人類的理解和概括力還達不到處理那些儲存在數據媒體中各種數據的能力,正因如此,聚類算法作為一種對數據進行分析挖掘的有效工具成功被人們所重視,開始了這一領域的研究.事實上,人們很早以前為了認識世界就開始對世界上的不同事物物進行了歸類區分,這就是在進行聚類分析,找出事物間的相似性和差異性.“物以類聚,人以群分”,初步表示了分類的概念.在自然和社會科學中,分類問題是最普遍的問題.聚類分析以事物間的相似性作為分類的基礎,在一個模式下事物的相似性高于不同模式下的事物.此外,群分析與聚類分析是統一概念,都表示數據挖掘的一個重要算法同時也是一種統計分析方法.4.1基于K-均值法判斷各國乒乓球水平4.1.1樣本近些年來體育賽事頗為人們關注,比如乒乓球的比賽既精彩又讓人入迷.對于目前各國隊伍的表現情況人們眾說紛紜,究竟哪支隊伍能走進總決賽并奪得冠軍,大家都有各自的看法,下面我就用一些比賽戰績進行客觀分析并進行預測.下面是收集的15支隊伍在2004-2010的各種大型比賽戰績.表1數據收集表ABCD2004奧運會2008奧運會世錦賽印尼40405朝鮮324016巴林50508阿曼40408越南40405泰國40408巴基斯坦50505阿聯酋50408卡塔爾50408伊拉克40401老撾28402伊朗25405韓國16153日本2884中國404084.1.2實驗過程首先,對數據進行初步的處理:在奧運會的比賽中,根據最終排名選出進入決賽圈的選手,未進決賽圈但進入預賽圈前十名的賦予50,若未進入預賽圈則賦予40.而世錦賽比賽,四強依據排名而定,前八名賦予5,十六強賦予8,未進入預選賽的賦予16.為了方便后續聚類故而將所有數據變為標量.對數據進行標量規格化,規格化就是將每個屬性值以比例的方式映射到同樣的取值區間,從而達到平衡各屬性對于距離的影響.于是將上表數據映射到區間,映射公式為:式中表示所有的元素項里面第個屬性的最小及最大值.所得具體數據如下:表2數據規格化表ABCD2004奧運會2008奧運會世錦賽印尼110.5朝鮮0.70.681巴林0.70.750.5阿曼110.5越南110.24泰國110巴基斯坦0.70.750.24阿聯酋10.750.5卡塔爾10.750.5伊拉克110老撾0.30.750.06伊朗0.230.750.24韓國00.15013日本0.300.19中國110.5當k=3時,可將15支球隊分成三隊。當前三個簇的種子選取的是泰國、日本、巴林,將三個簇的中心進行初始化,得出:C:{1,1,0.5};A:{0.3,0,0.19},B:{0.7,0.75,0.5}.其次,將15支球隊以歐氏距離度量的方式對三個中心點的相異度分別進行分析.歐氏距離公式為:以下的結果是以用程序計算得出的:表3歐式距離計算后結果1.21240.5196000.69281.21230.51961.21241.73200.10390.79671.316300.69281.21231.21240.519601.21240.519601.21240.519600.692800.51961.21240.519601.21240.519601.21240.519600.692800.51960.692800.51961.21240.51960根據各支球隊到中心點的歐氏距離進行聚類,從左到右依次表示距離的遠近情況,中國C,日本A,韓國A,伊朗A,老撾A,伊拉克C,卡塔爾C,阿聯酋C,巴基斯坦B,泰國C,越南C,阿曼C,巴林B,朝鮮B,印尼C.

第一次聚類結果:

A:韓國,老撾,伊朗,日本;B:巴基斯坦,巴林,朝鮮;C:中國,伊拉克,卡塔爾,阿聯酋,泰國,越南,阿曼,印尼.以第一次聚類結果為基礎,將各個簇的中心點進行調整,調整結果如下:A簇的新中心點為:(0+0.15+0.75+0.76)/4=0.4175,(0.19+0.13+0.23+0.06)/4=0.1575={0.21,0.4175,0.1575},{(0.3+0+0.23+0.3)/4=0.21,B和C簇的新中心點也是以同樣的計算方式計算可得{0.7,0.7333,0.4167},{1,0.94,0.40625}.第二次的聚類結果是使用調整后的中心點再次聚類得出的:中國C,日本A,韓國A,伊朗A,老撾A,伊拉克C,卡塔爾C,阿聯酋C,巴基斯坦B,泰國C,越南C,阿曼C,巴林B,朝鮮B,印尼C.結果與聚類前的順序一致,表示結果已收斂,因此最終的聚類結果表示為:日本,老撾,伊朗、韓國屬于亞洲一流的行列,巴林,朝鮮,巴基斯坦屬于亞洲二流,剩余的國家中國,泰國,卡塔爾阿聯酋,阿曼,越南,伊拉克,印尼位列亞洲三流的行列.4.1.3結果分析上述的聚類結果顯示,在亞洲一流的隊伍中,伊朗的水平較日本而言偏低,日本與老撾的水平最接近,這也是伊朗近年來實力逐漸沒落的證據.此外,雖然巴基斯坦和巴林最終止步于奧運會,不過憑借世錦賽上的出色表現仍展示了一定的實力,在二流隊伍中占有一席之地,同樣因為奇跡而翻身的伊拉克和朝鮮卻有不同的命運,朝鮮被分到B組,而伊拉克卻被分在三流,由此可知世錦賽的分量還不如打進奧運會重.4.2層次聚類應用層次聚類屬于聚類算法的一種,并且根據產生方式的不同,分為兩種不同的算法:合并層次聚類(自底向上),分裂層次聚類(自頂向下).下面我們介紹使用合并算法求解兩類數據間的相似性.該算法是通過組合所有數據點中最相似的那兩個數據點,并重復迭代這個過程.通俗點說就是計算出每一類別數據點和所有數據點間的距離,從而確定它們間相似性,距離小的相似度高,最后把其中距離最近的兩個類別進行組合,生成聚類樹.4.2.1樣本數據采集下面一組數據進行合并算法聚類分析.表a數據表ABCDEFG16.938.539.580.88234.6計算過程及結果采用歐氏距離計算A到G歐式距離矩陣,利用合并法把其中相似度最高的數據點進行組合.歐式距離計算公式為:經計算我們能得到下表,從表中我們看到B和C距離最小即相似度最高,將兩者進行組合.表b距離矩陣表ABCDEFGA021.6022.6063.9065.1017.7099.20B21.601.0042.3043.503.9077.60C22.61.00041.3042.504.9076.60D63.9042.3041.3001.2046.2035.30E65.1043.5042.501.20047.4034.10F17.703.904.9046.2047.40081.50G99.2077.6076.6035.3034.1081.500將兩數據點組合后,繼續計算數據點與組合數據點間的距離,以A點為例,公式如下:經過計算得到D和E兩點間距離最小為1.20,說明這兩點相似度高,于是它倆進行組合,然后不斷重復計算最終得到下表:表c數據與組合數據距離表A(B,C)(D,E)FGA022.1064.5017.7099.20(B,C)22.10042.404.4077.10(D,E)64.5042.40046.8034.70F17.704.4046.80081.50G99.2077.1034.7081.500計算到這我們發現F和A距離為17.70,是最小的距離,把它倆進行組合,于是除了G以外,所有數據點按照距離值進行了組合,說明聚類樹底層完成了.接下來我們通過計算兩組合中每個點與其他所有點的距離,把所有距離均值看作兩組合間的距離.例如(A,F)到(B,C)的距離計算公式:通過一系列結算得到下表:表d不同組間距離表(A,F)(B,C)(D,E)G(A,F)013.2556.6590.35(B,C)13.25042.4077.10(D,E)55.6542.40034.70G90.3577.1034.700由表可得(A,F)和(B,C)間距離為13.25最小,于是進行組合為(A,F,B,C),同樣接著計算得出G點和組合數據點(D,E)間距離最小進而將它們組合為(D,E,G),繼續計算得到最終下表:表e最終組間距離表(A,F,B,C)(D,E,G)(A,F,B,C)060.59(D,E,G)60.590這就是聚類樹頂層兩個數據點,最終構建出下面的聚類樹.AFBCDEG圖f層次聚類樹5結論與進一步工作5.1結論和認識聚類分析是指整合了物理或抽象對象于一個集合中,再根據相似性分為多個類別,以新分類的集合為研究內容的一個分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論