




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DataMiningandDataAnalysiswithR數(shù)據(jù)挖掘與數(shù)據(jù)分析:基于R語(yǔ)言合作QQ:243001978
K均值聚類合作QQ:243001978算法原理01算法示例02模型理解03R語(yǔ)言編程04章節(jié)內(nèi)容9.1
算法原理K均值聚類是經(jīng)典的劃分聚類算法,是一種迭代的聚類分析算法,在迭代過(guò)程中不斷移動(dòng)聚類中心,直到聚類準(zhǔn)則函數(shù)收斂為止,迭代步驟如下:①隨機(jī)選擇K個(gè)點(diǎn)作為質(zhì)心;②將每個(gè)數(shù)據(jù)對(duì)象劃分到距離最近的質(zhì)心所在的類中;③計(jì)算每個(gè)類中數(shù)據(jù)對(duì)象的均值作為新的質(zhì)心;④重復(fù)步驟②和③,直到質(zhì)心不再發(fā)生變化或達(dá)到最大迭代次數(shù)。最優(yōu)K值選取
最優(yōu)K值選取手肘法SSE和K值關(guān)系示例圖:
從上圖目測(cè),肘部對(duì)應(yīng)的K值為4,即為最佳聚類數(shù)。當(dāng)目測(cè)法難以識(shí)別肘部位置時(shí),可以通過(guò)觀測(cè)斜率、斜率變化量等指標(biāo)進(jìn)行定量判斷。最優(yōu)K值選取
最優(yōu)K值選取
距離度量
K均值算法延伸K-Means++:對(duì)K均值算法隨機(jī)初始化質(zhì)心的過(guò)程進(jìn)行優(yōu)化,使初始質(zhì)心的選擇更合理,從而提升算法收斂速度。elkanK-Means:利用兩邊之和大于第三邊,以及兩邊之差小于第三邊的三角形性質(zhì),來(lái)減少距離的計(jì)算,相較于傳統(tǒng)的K-Means迭代速度有很大的提高。MiniBatchK-Means:使用樣本集中的部分樣本來(lái)做傳統(tǒng)的K-Means,這樣可以避免樣本量太大時(shí)的計(jì)算難題,算法收斂速度大大加快,但聚類的精確度也會(huì)有所降低。為了增加算法的準(zhǔn)確性,一般會(huì)運(yùn)行多次MiniBatchK-Mean算法,并選擇其中最優(yōu)的聚類簇。9.2
算法示例例9-1:對(duì)如下年齡數(shù)據(jù)進(jìn)行聚類:[14,15,16,18,18,20,21,21,23,28,34,40,43,49,60,61]。K值設(shè)定為2,隨機(jī)選擇16和23作為兩個(gè)質(zhì)心,使用歐式距離。步驟如下:(1)計(jì)算距離,并進(jìn)行第一次迭代將各樣本點(diǎn)劃分到距離最近的質(zhì)心所在的類(Group)中,并更新各個(gè)聚類的質(zhì)心(Mean),得到以下分類結(jié)果:141516181820212123283440434960611621022455712182427334445239875532205111720263738表9-1各樣本點(diǎn)與質(zhì)心的距離矩陣Group1(16)Group2(23)Mean1(16)Mean2(23)[14,15,16,18,18][20,21,21,23,28,34,40,43,49,60,61]16.236.36表9-2第一次迭代結(jié)果9.2
算法示例(2)將兩個(gè)分組中樣本數(shù)據(jù)的均值作為新的質(zhì)心,并重復(fù)之前步驟Group1(16.2)Group2(36.36)Mean1(16.2)Mean2(36.36)[14,15,16,18,18,20,21,21,23][28,34,40,43,49,60,61]18.445表9-3第二次迭代結(jié)果Group1(18.4)Group2(45)Mean1(18.4)Mean2(45)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-4第三次迭代結(jié)果Group1(19.4)Group2(47.83)Mean1(19.4)Mean2(47.83)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-5第四次迭代結(jié)果9.2
算法示例(3)算法終止條件:新求得的質(zhì)心和原質(zhì)心相同,如表9-5所示。最終,得到以下兩類:Group1(19.4)=[14,15,16,18,18,20,21,21,23,28]Group2(47.83)=[34,40,43,49,60,61]Group1(19.4)Group2(47.83)Mean1(19.4)Mean2(47.83)[14,15,16,18,18,20,21,21,23,28][34,40,43,49,60,61]19.447.83表9-5第四次迭代結(jié)果9.3
模型理解K均值聚類優(yōu)點(diǎn):聚類效果較優(yōu)。原理比較簡(jiǎn)單,比較容易實(shí)現(xiàn),收斂速度快。算法可解釋性比較強(qiáng)。K均值聚類缺點(diǎn):K值選取不當(dāng)可能會(huì)導(dǎo)致較差的聚類結(jié)構(gòu)。采用迭代方法,得到的結(jié)果只是局部最優(yōu),在大規(guī)模數(shù)據(jù)上收斂較慢。如果各隱含類別的數(shù)據(jù)不均衡,會(huì)導(dǎo)致聚類效果不佳。不適合發(fā)現(xiàn)非凸面形狀的簇,或者大小差別很大的簇。對(duì)噪聲點(diǎn)和異常點(diǎn)比較敏感。初始聚類中心的選擇很大程度上會(huì)影響聚類效果。9.4R語(yǔ)言編程案例使用R語(yǔ)言內(nèi)置的iris數(shù)據(jù)集,忽略種類變量Species,對(duì)150種鳶尾花植物樣本進(jìn)行K均值聚類分析,數(shù)據(jù)集情況如下:#R編程示例-iris數(shù)據(jù)集head(iris)輸出:
屬性名稱屬性解釋屬性示例Sepal.Length花瓣長(zhǎng)度5.1Sepal.Width花瓣寬度3.5Petal.Length花萼長(zhǎng)度1.4Petal.Width花萼寬度0.2Species所屬物種setosa表9-6iris數(shù)據(jù)屬性解釋數(shù)據(jù)預(yù)處理對(duì)花瓣長(zhǎng)度、花瓣寬度、花萼長(zhǎng)度和花萼寬度四種屬性進(jìn)行z-score標(biāo)準(zhǔn)化處理df<-scale(iris[1:4])head(df)輸出:
確定最佳K值R語(yǔ)言factoextra包中的fviz_nbclust()函數(shù)可對(duì)最佳K值進(jìn)行選擇
fviz_nbclust(x,FUNcluster=NULL,method=c(“silhouette”,“wss”,),diss=NULL,k.max=10,...),參數(shù)含義如下:
FUNcluster:用于聚類的函數(shù),可用的參數(shù)值為:kmeans,cluster::pam,cluster::clara,cluster::fanny,hcut等;method:用于評(píng)估最佳簇?cái)?shù)的指標(biāo);diss:相異性矩陣,由dist()函數(shù)產(chǎn)生的對(duì)象,如果設(shè)置為NULL,那么表示使用dist(data,method="euclidean")計(jì)算data參數(shù),得到相異性矩陣;k.max:最大的簇?cái)?shù)量,至少是2。確定最佳K值使用手肘法確定最佳K值,代碼及結(jié)果如下
從圖9-4可見,最佳K值應(yīng)為2library(factoextra)library(ggplot2)#method設(shè)置為手肘法”wss”fviz_nbclust(df,kmeans,method="wss")輸出:
圖9-5手肘法結(jié)果圖確定最佳K值使用輪廓系數(shù)法確定最佳K值,代碼及結(jié)果如下
從圖9-5可見,K=2時(shí)輪廓系數(shù)最大,因此最佳K值為2library(factoextra)library(ggplot2)#method設(shè)置為輪廓系數(shù)法”silhouette”fviz_nbclust(df,kmeans,method="silhouette")輸出:
圖9-6輪廓系數(shù)法結(jié)果圖聚類及可視化R語(yǔ)言中的kmeans(x,centers,iter.max,nstart)方法用于聚類x:數(shù)據(jù)集(矩陣或數(shù)據(jù)框);centers:要提取的聚類數(shù)目;iter.max:最大迭代次數(shù);nstart:初始聚類中心的選擇次數(shù)。K均值聚類對(duì)初始中心值的選擇較為敏感,通過(guò)設(shè)置nstart值嘗試多種初始值配置,以得到最好結(jié)果。除較大數(shù)據(jù)集外,通常將nstart設(shè)置為20或25。由于初始中心是隨機(jī)選擇的,聚類前使用set.seed()函數(shù)指定隨機(jī)種子保證結(jié)果可復(fù)現(xiàn)聚類及可視化聚類并可視化的代碼和結(jié)果如下set.seed(1234)km.res<-kmeans(df,2,nstart=25)#可視化結(jié)果fviz_nbclust(km.res,d
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025收銀員個(gè)人工作總結(jié)怎么寫(11篇)
- 銀行員工辭職報(bào)告集合(35篇)
- “環(huán)保”的演講稿(16篇)
- 小學(xué)美術(shù)15 剪雪花教案及反思
- 感恩勵(lì)志誠(chéng)信筑夢(mèng)演講稿(14篇)
- 日常工作計(jì)劃(16篇)
- 人教版 (新課標(biāo))選修35 多普勒效應(yīng)教案
- 大型綜合超市肉類商品購(gòu)銷協(xié)議(3篇)
- 骨干教師幫扶青年教師計(jì)劃(5篇)
- 市區(qū)二手房購(gòu)房定金合同(11篇)
- 2025商業(yè)綜合體委托經(jīng)營(yíng)管理合同書
- 人工智能導(dǎo)論課件 第十三章 類腦智能
- 河北單招時(shí)政試題及答案
- 2024-2025班主任的培訓(xùn)心得體會(huì)(29篇)
- 實(shí)驗(yàn)14 探究液體內(nèi)部壓強(qiáng)的特點(diǎn)-中考物理必考實(shí)驗(yàn)專項(xiàng)復(fù)習(xí)
- 7 請(qǐng)到我的家鄉(xiāng)來(lái)(第一課時(shí))(教學(xué)設(shè)計(jì))統(tǒng)編版道德與法治三年級(jí)下冊(cè)
- 護(hù)理不良事件案例分析及警示
- B超健康知識(shí)講座課件
- 煤炭倉(cāng)儲(chǔ)協(xié)議合同
- 政 治薪火相傳的傳統(tǒng)美德 教案-2024-2025學(xué)年統(tǒng)編版道德與法治七年級(jí)下冊(cè)
- 2025-2030中國(guó)腦芯片模型行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略研究報(bào)告
評(píng)論
0/150
提交評(píng)論