基于系統聚類的k-means聚類分析在人體體型分類中的應用_第1頁
基于系統聚類的k-means聚類分析在人體體型分類中的應用_第2頁
基于系統聚類的k-means聚類分析在人體體型分類中的應用_第3頁
基于系統聚類的k-means聚類分析在人體體型分類中的應用_第4頁
基于系統聚類的k-means聚類分析在人體體型分類中的應用_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于系統聚類的k-means聚類分析在人體體型分類中的應用

隨著人們生活水平的提高,人們的體重發生了顯著變化。由于年齡、個體、地區和種族的不同,以及服裝個性化的需要,服裝生產和加工對人體體型的分類有了越來越詳細的要求。許多專家和科學家在分類方法、分類變量和分類數字方面進行了探討。在文獻中,中國北方的年輕女性的人體數據通過聚類分析將人體分為三種類型:薄、正常和胖,并使用距離法分析了體重的比例。在文獻中,我們發現了四個具有代表人體的體表角度,即斜角、胸凸角、體側角和脊柱凸角。采用k-mean聚類分析將人體分為四種類型。文獻使用heat-torr脂肪體法對865名土家族兒童的體重進行了評價。結果表明,除了標準水平的胸腰椎差異外,還有人體特征點、生態單元、綜合變量和特征指數。通過對1995年至2014年文獻中的數據庫電子資源進行調查,發現k-mean聚類分析是人類規模分析中最常見的分類方法。應用現狀如下。(1)分類變量為人體特征部位數據或這些部位的派生變量;(2)分類數的確定主要有2種:一是根據經驗或參照國內外服裝號型標準中的分類數,二是根據多次聚類結果進行對比后選定最佳分類數目.同時,文獻檢索發現K-means聚類分析在人體體型分析的應用中存在以下問題:(1)K-means聚類只能對連續變量進行分類,大量使用該方法的文獻幾乎沒有提及K-means聚類分析對數據的分布要求;(2)人體體型分類相關研究極少提到確定K-means聚類分析分類數的科學合理依據;(3)K-means聚類受到聚類中心和分類數的影響,達到聚類收斂所需的迭代次數各不相同,查閱到的文獻中只有少數幾篇提到,因此迭代次數的選擇與聚類收斂的關系有待探索.針對以上總結,本文將從以下幾個方面對K-means在人體體型分析中的應用進行探索:(1)K-means聚類只能應用于連續型變量,先對已有的變量進行分布檢驗,確定可行性;(2)尋找確定分類數的方法;(3)探索K-means聚類中迭代次數和迭代收斂的關系,確定使用SPSS做聚類分析時的最大迭代次數,確保聚類收斂.1k-mean聚集類分析數據的準備1.1人體差異檢驗樣本容量是指樣本中所包含的單位個數.樣本容量過大,會造成人力、物力和財力的浪費;樣本容量過小,會增大抽樣誤差,影響樣本可靠程度,因此,樣本容量的確定是抽樣方案中的基礎問題.服裝號型標準GB/T1335—2008規定了成年人體各部位尺寸的標準差和最大容許誤差,如表1所示.根據樣本容量計算式其中,n為樣本容量,t為置信度5%和自由度為∞下的概率度,為1.96,Δ為樣本的容許誤差,δ為總體標準差,代表離散程度.以成年人體各部位為考核對象的樣本容量計算結果如表1所示.由表1可知,以腰圍為基礎的樣本容量最大,故本實驗中測量的人數不得少于173人.本文以219名18~25歲青年女性的人體數據作為檢驗樣本,采用統計軟件SPSS(StatisticalPackagefortheSocialSciences)作為數據分析工具,參考我國服裝號型標準GB/T1335—2008,以胸腰差作為體型分類判別變量,對數據進行K-means聚類分析.1.2性檢驗—正態分布檢驗一般情況下人體的胸腰差符合正態分布.K-means聚類分析只能對連續型變量進行分類,在數理統計中許多統計量不論原分布是何種形式,只要樣本容量n充分大,它都近似于正態分布,正態分布是連續型分布的一種.因此,聚類分析之前需要檢驗胸腰差變量是否符合正態分布.本文選用分布檢驗中的χ2檢驗法.首先給出假設:H0:ξue01bN(μ,σ2),將總體劃分為k個不相交的區間,樣本落在第i個區間的頻數即觀察頻數為νi,當k足夠大時統計量由表3數據求得χ2=11.476.α=0.05,k=8,r=2時查表得到漸進顯著性為0.119,大于顯著性水平0.05,接受原假設,則可以認為該群體青年女子的胸腰差服從N(15.66,2.94072)的正態分布,符合K-means聚類分析和系統聚類分析的前提要求.1.3按胸腰差分類根據國家服裝號型標準對成年女子體型劃分依據(如表4所示)可知,國家標準的體型劃分趨于均勻,便于實際應用.檢驗樣本按胸腰差分類的結果如表5所示.由表5可知,與國家服裝號型標準相比,檢驗樣本的胸圍、腰圍、臀圍、腰圍高、身高均值略小,但兩者非常接近,說明該地區青年女子體型具有代表性.2確定最佳分類數的方法K-means聚類分析必須先給定分類數,分類數K決定最終的聚類結果,K的選定需要經過多次試驗確定最佳值.現有的人體體型分類文獻中分類數的選擇多為根據經驗或參照國內外相關標準確定,或對多次聚類結果進行對比后選定最佳值.選擇合適的方法確定最佳分類數是非常重要的.通過查閱2001—2014年數據挖掘的相關文獻,發現確定最佳分類數常用的方法:(1)根據數據點的分布情況,憑經驗直觀判斷;(2)根據適當的閾值,即按照系統聚類步驟分類后,使用臨界相似性尺度分割譜系圖得到分類;(3)根據統計量如偽F統計量、偽T2統計量、混合F統計量等;(4)提出有效性指標如Silhouette指標和各種距離評價函數.上述方法各有優劣,其中,距離評價函數是基于同類之間的相似度最大而差異度最小,類與類之間的相似度最小而差異度最大的準則.距離評價函數與人體體型分類要求吻合,因此,將其引入人體體型分類中具有可行性.距離評價函數需要確定分類數范圍[Kmin,Kmax],通過編程語言計算得到相關參數,最終判斷最優分類數.為了簡化計算,降低計算難度,本文在距離評價函數F(S,K)的基礎上提出了一種新的確定分類數的方法,即基于系統聚類分析的距離評價函數優化法.該方法采用系統聚類分析的樹狀圖判斷可能較優的分類數,再通過距離評價函數優化法確定分類數.2.1不同樹狀的分類結果圖1所示系統聚類分析樹狀圖顯示聚類過程和不同類時個案所屬的分類結果,觀察樹狀圖發現,以胸腰差為分類依據,樣本可以劃分為2,3,4,5,6,7類,僅僅需要驗證6種分類數時的分類結果,工作量大大減少.2.2距離評價函數樣本數據集合為S={x1,x2,...,xn},K為分類數,令I={S,K}為聚類空間.(1)類間距離Dout為所有聚類中心(類內樣本均值)到全域中心(全體樣本均值)的距離之和,計算式如式(2)所示.其中:珚x為全體樣本均值,xi為類Ci中的所有樣本均值.(2)類內距離Din為每個類內對象到該類中心距離的總和,計算式如式(3)所示.其中:p為任一類內的空間對象.(3)由文獻可知,當Dout+Din最小時,K值接近最優,定義距離評價函數為運用距離評價函數檢驗聚類的有效性時,確定了距離代價最小的原則,即距離評價函數達到最小值時,空間聚類結果最優,K=min{F(S,K)},由系統聚類分析樹狀圖確定K=2,3,4,5,6,7,不同的K值對應的評價參數如表6所示.由表6可知,分類數為7時距離評價函數達到最小值,可判斷7為最優分類數;分類數為4的距離評價函數值小于分類數為3和5的情況,說明分類數為4要優于3和5,所以當分類數限定為3~5時,應優先將其分為4類.基于系統聚類的距離函數評價法減少了運算量和運算的復雜程度,提高了效率,并且通過219名青年女性的人體數據驗證了該方法的可行性和有效性.需要注意的是,此處的分類數僅代表本次219個樣本的計算結果,受樣本量和分布區域的影響,不同樣本的最佳分類數需要根據實際情況確定.3k-mens聚類分析的迭代收斂K-means聚類分析通過計算每個觀測量到各個聚類中心的歐氏距離,按就近原則將觀測量歸入一類,再計算歸類后各類的中心位置,并將該中心位置作為新的聚類中心.如此反復,直到迭代停止.只有迭代收斂才能確定樣本最終屬于哪一類,因此,迭代必須收斂是K-means聚類分析中十分重要卻容易被忽視的問題.已知K-means聚類分析的迭代收斂條件為maxΔ{zN}<minz{i-zj}×θ,其中,maxΔz{N}為迭代到第N次時,聚類中心的最大改變量;為初始中心間的最小距離;θ為聚類比例系數.SPSS17.0系統默認的K-means聚類分析的最大迭代次數為10次,因不能確定10次是否滿足聚類分析的迭代收斂,這里通過對兩組不同的數據進行聚類分析,探索K-means聚類分析收斂的迭代次數,分類數為4.選取總體樣本219名青年女性人體數據為數據1,已經證明符合正態分布;從219個樣本量中隨機抽取100名青年女性人體數據為數據2,數理統計中重復抽樣的每一個樣本都具有總體特征,即與總體有相同分布.數據1和數據2用于K-means聚類收斂迭代次數的探索.3.1k-me現行聚類分析數據1的不同體型聚類中心隨迭代次數增加的變化趨勢如表7所示.由表7可知,經過K-means聚類分析之后,第1類體型的最終聚類中心位于Y體型中,第2類體型的最終聚類中心位于A體型中,第3類體型的最終聚類中心位于B體型,第4類體型的最終聚類中心位于C體型中.由此可見,K-means聚類分析與國標體型劃分是相當接近的.表7顯示,初始中心間的最小距離為3.7cm(14.3-10.6=3.7),取聚類比例系數θ=0.02,初始聚類中心之間最小距離的θ倍為0.074cm(0.02×3.7=0.074).數據1的K-means聚類分析的迭代歷史記錄如表8所示.由表8可知,迭代次數為7,聚類中心之間的最大改變量為0,小于0.074,聚類中心之間的最大改變量小于初始聚類中心之間最小距離的θ倍時,聚類分析收斂,從而停止迭代,由此可知,本文對數據1的K-means聚類分析的最小迭代次數為7次.3.2k-me黨組織聚類分析數據2的不同體型聚類中心隨迭代次數增加的變化趨勢如表9所示.由表9可知,4種體型的最終聚類中心分別位于Y,A,B,C4類體型中.表9顯示數據2初始中心間的最小距離為2.3cm(10.6-8.3=2.3),取聚類比例系數θ=0.02,初始聚類中心之間最小距離的θ倍為0.046cm(0.02×2.3=0.046).數據2的K-means聚類分析的迭代歷史記錄如表10所示.由表10可知,迭代次數為17時,聚類中心的最大改變量小于初始聚類中心之間最小距離的θ倍,迭代收斂.由此可知,本文對數據2的K-means聚類分析的最小迭代次數為17次,所以迭代次數不能小于17.由以上兩組數據的K-means聚類分析可以看出,因數據的離散程度和范圍不同,不同數據聚類分析所需要迭代的次數也有所不同.SPSS軟件默認的迭代次數比較小,所以K-means聚類分析時要注意迭代次數的選定,確定迭代是否已經收斂,如不收斂,則需要設定更大的迭代次數直到聚類收斂.4k-me現行聚類分析方法k-me-pb本文以現行的國家服裝號型標準規定的體型分類依據———胸腰差為分類變量,對K-Means聚類分析在人體體型分類中的應用進行了研究,分析了樣本量的確定,應用統計學的χ2檢驗法驗證了本次樣本的人體胸腰差數據符合正態分布,確定該樣本符合K-means聚類分析的前提要求.然后,采用基于系統聚類的距離評價函數法,確定本次樣本的最優分類數為7,當分類數的范圍限定為3~5類時,則最優分類數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論