




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、對數據進行聚類分析實驗報告一、基本要求用FAMALE.TXT、MALE.TXT和/或test2.txt的數據作為本次實驗使用的樣本集,利用C均值和分級聚類方法對樣本集進行聚類分析,對結果進行分析, 從而加深對所學內容的理解和感性認識。二、實驗要求1、把FAMALE.TXT和MALE.TXT兩個文件合并成一個,同時采用身高 和體重數據作為特征,設類別數為 2,利用C均值聚類方法對數據進 行聚類,并將聚類結果表示在二維平面上。嘗試不同初始值對此數據 集是否會造成不同的結果。2、對1中的數據利用C均值聚類方法分別進行兩類、 三類、四類、五類 聚類,畫出聚類指標與類別數之間的關系曲線,探討是否可以確定
2、出 合理的類別數目。3、對1中的數據利用分級聚類方法進行聚類,分析聚類結果,體會分級聚類方法。4、利用test2.txt數據或者把test2.txt的數據與上述1中的數據合并在一 起,重復上述實驗,考察結果是否有變化,對觀察到的現象進行分析, 寫出體會三、實驗步驟及流程圖根據以上實驗要求,本次試驗我們將分為兩組:一、首先對FEMALE MALE中數據組成的樣本按照上面要求用 C均值法進行聚類分析,然后對FEMALE MALE test2中數據組成的樣本集用C均值法進行聚類分析,比較二者結果。二、將上 述兩個樣本用分即聚類方法進行聚類, 觀察聚類結果。并將兩種聚類結果進行比 較。一、(1)、C均
3、值算法思想C均值算法首先取定C個類別和選取C個初始聚類中心,按最小距離原則將各模式 分配到C類中的某一類,之后不斷地計算類心和調整各模式的類別,最終使各模 式到其判屆類別中心的距離平方之和最小(2)、實驗步驟第一步:確定類別數C,并選擇C個初始聚類中心。本次試驗,我們分別將 C的 值取為2和3。用的是憑經驗選擇代表點的方法。比如:在樣本數為 N時,分為兩類時,取第1個點和第INT (N/2)+1個點作為代表點;分為三類時,取第 1、INT (N /3 )+1、INT (2N /3 )+1 個點作為代表點;第二步:將待聚類的樣本集中的樣本逐個按最小距離規則分劃給C個類中的某一類。第三步:計算重新
4、聚類后的個各類心,即各類的均值向量。第四步:如果重新得到的類別的類心與上一次迭代的類心相等,則結束迭代,否則轉至第二步。第五步:迭代結束時,換不同的初始值進行試驗,將實驗結果進行比較(3)、實驗流程圖(4)、本次試驗我們用的聚類指標是誤差平方和聚類準則 Je設Ni是第i聚類Ci的樣本數目,Zi是這些樣本的均值,則把Ci中得各樣本y與均值Zi問的誤差平方和對所有類相加后為:cJ e一 | y - mi 2當C取不同的值時各自算出它們的J e ,進行比較。二、利用分級聚類方法進行聚類1、分級聚類法思想:首先 把全部樣本作為一類看做一類,然后根據一定的目標 函數進行分解。2、步驟第一步:開始時,將全
5、部樣本當做一類,第二類即為空集。第二步:將第一類中的所有樣本依次放入第二類,計算兩類樣本均值X1, X2,樣本數目N1 ,疆以及目標函數E =生!。1 _X2)'(Xi X2),比較E值大小,選 N擇E值最大所對應的樣本,將其歸入第二類。并記錄此時的E為E (1)第三步:將第一類中剩下樣本依次放入第二類中, 按照上面運算得出E值,并比 較E值大小,選擇E值最大所對應的樣本,將其歸入第二類。并記錄此時的 E 為 E (2)第三步:將新的兩類按照上面的方法繼續劃分, 直到第i次迭代的E(i) <E(i-1 ) 或者到達規定的迭代次數。3、實驗流程圖四、實驗結果I、1、用FAMALE.
6、TXT和MALE.TXT中的數據組合起來作為樣本集:C=2時(1)、取第一個和第五十一個樣本作為初始聚類中心,得出的實驗結果圖如下:140145150155160165170175180135190得到結果是:點號表示的類別中樣本總數為61,星表示的類別中樣本總數為39兩個聚類中心分另U為:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )2)、取第二十五個和七十五個樣本作為初始聚類中心時得到的實驗結果如下:9065807570656。5550454014014515015516。165170175180185190得到結果是:點號表示的類別中樣本
7、總數為 61,星表示的類別中樣本總數為39兩個聚類中心分另U為:A (163.5738 , 53.1541 ), B (175.8974 , 68.2692 )進行多次試驗發現取不同的初始聚類中心時實驗結果相同它們的 J e=5.9707e+003但是,經過后面的實驗我們發現,初始聚類中心選擇影響最后的聚類中心,其能保證優化,而不能保證全局優化,ISODATA在這一點比C-均化更好。卜面是將男女樣本所代表的點分別畫到圖上可得下圖:9085S07570656065504540140145150155160165170175130135190其中點表示的是女生樣本,圓圈表示的是男生樣本。其中,男生
8、的樣本均值為 (173.9200 , 65.5020 )女生的樣本均值為(162.8400 , 52.5960 )通過比較兩幅圖,可以發現,當去 C=2時,對數據進行聚類分析得到的聚類結 果基本類似丁男女生分類,他們的樣本均值相差不大,不過還是有一定差別。差 別出現在一些身高低丁 1.70米的男生處。C=3時得到的聚類結果圖如下:9085807570656055504540 1401451501561601651701761801185190最終的三個聚類中心:A (159.2333 , 49.9333 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.01
9、56 )J e =3.9251e+003從圖中可以看出,當劃分為三類時,其結果可以看做按照身高與體重的比將樣本 進行聚類,身高體重比大,較大,小的分別為一類。C=4時:得到的分來結果如下:90858075706560555045401401451501551&O165170175180135190得到的四個聚類中心為:A (157.4286 , 49.2381 ), B (164.7727 , 53.3545 )C (170.4400 , 58.2640 ), D (176.4375 , 70.0156 )J e =3.4318e+003C=5時得到的聚類結果如下:9085807570
10、656055504540140145150156160165170175180135190最終的五個聚類中心分別為:A (158.1579 , 47.3684 ), B (163.3913 , 54.4652 )C (170.3462 , 58.1423 ), D (176.0741 , 67.7593 )E (178.4000 , 82.2000 )J e=2.6352e+003C=7時得到的聚類結果圖如下:90111111185807570656055504540¥140145150155160+ 165170175160185190最終的6個聚類中心分別為:A (158.346
11、2,49.8462 )B(166.9259 ,54.5889 )C (171.4737,60.8158 )D(175.6842 ,68.1842 )E (178.0000,80.6667 )F(183.3333 ,66.6667 )J e= 2.5607e+0031、畫出C值與J e之間的關系曲線如下:由圖可以看出,拐點離2較近,所以講此樣本集聚為二類最佳2、把test2.txt的數據與上述1中的數據合并在一起,重復上述實驗,實驗結果如下:(1)、取第二十五個和第二白零一個個樣本作為初始聚類中心,得出的實驗 結果圖其中,A (165.0479 , 53.6491 ), B (176.4506
12、, 69.9378 )J e =3.2952e+004取第一白個和第三白個樣本作為初始聚類中心時得出結果與前面相同(3)、C=4 時:oo401oJI7 JIA (163.3438 , 51.8742 ) , B (174.5561 , 64.5024 )C (178.8657 , 80.4776 )Je =2.0594e+004Je=1.6346e+004A (159.8548 , 48.3145 ), B (167.5567 , 56.6485)C (175.4783 , 65.7908 ), D (179.3684 , 81.7368 )(4) C=5 時:130 rtr1O120 -1
13、10 -100 -a o c140150160170180190200Je=1.3575e+004A (160.5732 , 50.0512 ), B (170.0510 , 57.5020 )C (175.3836 ,65.9452 ), D (178.6429,75.7589)E (179.6667 , 91.3889 )(5)、C=6 時40401o06o7o8o620JIo o601.1JI其中,Je = 1.3018e+004A (160.8427 , 50.6596 ) C (172.6381 , 62.9143 ) E (177.2955 , 68.0057 ) B (170.6
14、296 , 55.1241 ) D (176.8488 , 76.8837 ) F (181.5952 , 89.1905 )畫出C值與J e之間的關系曲線如下與圖可知,拐點離2較近,所以認為此時仍是將樣本集分為二類最佳(4)、將兩種樣本即進行聚類后的樣本中心進行比較,如下表:以FEMALE和MALE中得數據作為樣本以FEMALE和MALE以及test2中的數據作為樣木2A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )3A (159.2333 , 49.933
15、3 ) B (168.8158 , 57.0105 ) C (176.4375 , 70.0156)A (163.3438 , 51.8742 ) B (174.5561 , 64.5024 ) C (178.8657, 80.4776 )4A (157.4286 , 49.2381 ) B (164.7727 , 53.3545 ) C (170.4400 , 58.2640) D (176.4375 , 70.0156)A (159.8548 , 48.3145 ) B (167.5567, 56.6485 ) C (175.4783 , 65.7908 ) D (179.3684 , 8
16、1.7368 )5A (158.1579 , 47.3684 ) B (163.3913 , 54.4652 ) C (170.3462 , 58.1423) D (176.0741 , 67.7593) E (178.4000 , 82.2000 )A (160.5732 , 50.0512 ) B (170.0510 , 57.5020 ) C (175.3836 , 65.9452 )D (178.6429,75.7589) E (179.6667, 91.3889 )6A (158.3462 , 49.8462 ) B (166.9259 , 54.5889 ) C (171.4737
17、 , 60.8158) D (175.6842 , 68.1842) E (178.0000 , 80.6667 ) F (183.3333 , 66.6667 )A (160.8427 , 50.6596 ) B (170.6296 , 55.1241 ) C (172.6381 , 62.9143 ) D (176.8488 , 76.8837 ) E (177.2955 , 68.0057 ) F (181.5952 , 89.1905 )從上表可以縱向比較可以看出,C越大,即聚類數目越多,聚類之間差別越小, 他們的聚類中心也越接近。橫向比較用FEMALE,MALE中數據作為樣本和用FE
18、MALE,MALE , test2中數據作為樣本時,由丁引入了新的樣本,可以發現后 者的聚類中心比前者都稍大。但是它們的分布類似,變化不大。II、將兩個樣本分別用分級聚類方法進行聚類,得出結果,并與C均值聚類法進行比較:1、 對FEMALE與MALE中數據組成的樣本集進行分級聚類:9085807570656055504540 14014515015516016517017E180185190由圖可見,分級聚類法將樣本分為兩類,它們的聚類中心分別為A (163.4667 , 53.0400 ) B (175.7500 , 68.0625 )將它與C=2時的C均值聚類結果進行比較,分別比較它們的結
19、果圖以及聚類中 心,下面是它們的聚類中心比較:聚類方法C均值聚類分級聚類聚類中心A (163.5738 , 53.1541 )B (175.8974 , 68.2692 )A (163.4667 , 53.0400 )B (175.7500 , 68.0625 )比較發現它們的聚類結果很相似2、對由MALE MALE test2中數據組成的樣本集進行分級聚類:* *.140O6501o o3 2o o o1 o 9ODO 8 7 6o O16 4>+*"+ST*4+f *+*1 * $ 4 t itO 8 Ji由圖可見,分級聚類法將樣本分為兩類,它們的聚類中心分別為A (164
20、.9819 , 53.6229 ), B (176.4487 , 69.8868 )將它與C=2時的C均值聚類結果進行比較,分別比較它們的結果圖以及聚類中 心,下面是它們的聚類中心比較:聚類方法C均值聚類分級聚類聚類中心A (165.0479 , 53.6491 )B (176.4506 , 69.9378 )A (164.9819 , 53.6229 )B (176.4487 , 69.8868 )比較發現它們的聚類結果也很類似分析:比較發現利用分級聚類方法與利用 C均值聚類法時 C取2時的聚類結果極其相似.五、心得體會通過本次試驗,我們隊 C均值聚類法以及分級聚類法都有了較好的理解,并且
21、在用MATLAB編程方面都有了很大進步。部分代碼:C勻值%C=2clc;clear all;FH FW=textread('C:UsersxuydDesktophomeworkFEMALE.txt','%f %f');MH MW=textread('C:UsersxuydDesktophomeworkMALE.txt','%f %f);FA=FH FW;FA=FA'MA=MH MW;MA=MA'for k=1:50NT(:,k)=FA(:,k);endfor k=51:100NT(:,k)=MA(:,k-50);endz1
22、=NT(:,1);z2=NT(:,51);for k=1:100a=z1,b=z2G1=zeros(2,100);G2=zeros(2,100);for i=1:100d1=sqrt(NT(1,i)-z1(1,1)A2+(NT(2,i)-z1(2,1)A2);d2=sqrt(NT(1,i)-z2(1,1)A2+(NT(2,i)-z2(2,1)A2);if d1<d2G1(:,i)=NT(:,i);elseG2(:,i)=NT(:,i);endendG1(:,find(sum(abs(G1),1)=0)=;G2(:,find(sum(abs(G2),1)=0)=;z1=mean(G1,2)
23、;z2=mean(G2,2);if isequal(a,z1)=1&&isequal(z2,b)=1breakendendz1,z2,G1,G2,size(G1,2),size(G2,2)for i=1:size(G1,2)x=G1(1,i);y=G1(2,i);plot(x,y,'G.');hold onendfoz.£sN'e(G2-2)xnG2?mynG2(2uP_of(xy-R*who-d onendpofN(二)N(2iB+-)ho-d onp_ofN2(二)N2(2iB+-)ho-d oncpcCDar a=【FH Fwln(Dxfread(-ocsersxuyd-Deskfop-homework-FEMALE.><f-%f %f-)_【MH Mwln(Dxfread(-9cser
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 江西省贛州市六校2024-2025學年高三質量監測(二)物理試題含解析
- 四川三河職業學院《材料應用設計實訓(1)》2023-2024學年第二學期期末試卷
- 遼寧省大連市第七十六中學2025年初三模擬考試(一)化學試題文試卷含解析
- 江蘇省蘇州市工業園區重點達標名校2024-2025學年中考第二次模擬考試化學試題理試題含解析
- 山東省威海市文登市2024-2025學年數學三下期末檢測試題含解析
- 內蒙古赤峰市2024-2025學年下學期高三化學試題第二次適應性測試試卷含解析
- 昆山登云科技職業學院《工筆人物創作與表現》2023-2024學年第一學期期末試卷
- 武漢生物工程學院《林業專業外語》2023-2024學年第二學期期末試卷
- 四川省南充市西充縣2025年四下數學期末綜合測試試題含解析
- 二零二五土地轉讓合同書范例
- 家庭教育指導師模擬題07附有答案
- GB/T 20878-2024不銹鋼牌號及化學成分
- 反應釜50L驗證方案
- 礦山協議合同范本
- 《運籌學》全套課件(完整版)
- DZ∕T 0382-2021 固體礦產勘查地質填圖規范(正式版)
- 2024春期國開電大《應用寫作(漢語)》形考任務1-6參考答案
- 《研學旅行課程設計》課件-研學課程方案設計
- 川教版《生命生態安全》九年級下冊第十課樹立生態文明意識 課件
- GB/T 9442-2024鑄造用硅砂
- 中國椎管內分娩鎮痛專家共識(2020版)
評論
0/150
提交評論