聚類分析綜述_第1頁
聚類分析綜述_第2頁
聚類分析綜述_第3頁
聚類分析綜述_第4頁
聚類分析綜述_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

聚類分析在實際中的應用綜述摘要:近幾年來,模式識別技術在許多領域已得到或正得到卓有成效的應用。它所研究的理論和方法在許多科學和技術領域中得到了廣泛的重視,推動了人工智能系統的發展,擴大了計算機應用的可能性。聚類分析是非監督模式識別的重要分支,在模式識別、數據挖掘、計算機視覺以及模糊控制等領域具有廣泛的應用,也是近年來得到迅速發展的一個研究熱點,本文通過具體實例說明了聚類在模式識別中的一些應用。關鍵字:聚類分析,模式識別引言聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用 k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如 SPSS、SAS等。從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。聚類分析與模式識別的概念聚類分析聚類分析定義對一批沒有標出類別的模式樣本集,按照樣本之間的相似程度分類,相似的歸為一類,不相似的歸為另一類,這種分類稱為聚類分析,也稱為無監督分類。從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用 k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS等。從機器學習的角度講,簇相當于隱藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練

實例,需要由聚類學習算法自動確定標記,而分類學習的實例或 數據對象有類別標記。聚類是觀察式學習,而不是示例式的學習。從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。2.1.2聚類分析的流程及數據來源聚類分析法的主要流程包括[2]:數據預處理、為衡量數據點間的相似度定義一個距離函數、聚類或分組和評估輸出,用流程圖描述如圖1所示。圖1聚類分析流程圖聚類分析的源數據通常是待聚類或分組的數據。對機械故障模式識別而言,首先要獲取關于本機組的大量運行參數,既要有機器平穩運行、正常工作時的數據,更要有機器出現故障時的數據,并且獲知故障的類別。這樣,由已知故障類別、故障發生時的各運行參數、歷史記錄組成的數據庫便構成了數據挖掘的訓練學習樣本庫。這里用到的數據就是設備的點檢數據。聚類分析的方法及其應用范圍直接聚類法先把各個分類對象單獨視為一類,然后根據距離最小的原則,依次選出一對分類對象,并成新類。如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類。每一次歸并,都劃去該對象所在的列與列序相同的行。經過m-1次就可以把全部分類對象歸為一類,這樣就可以根據歸并的先后順序作出聚類譜系圖。最短距離聚類法:最短距離聚類法,是在原來的mXm距離矩陣的非對角元素中找出,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。最遠距離聚類法最遠距離聚類法與最短距離聚類法的區別在于計算原來的類與新類距離時采用的公式不同。最遠距離聚類法所用的是最遠距離來衡量樣本之間的距離。具體例子說明聚類分析的應用聚類分析是數據挖掘領域最常用的技術之一。所謂聚類就是將物理或抽象對象的集合組成為由類似的對象組成的多個類或簇的過程。由聚類生成的簇是一組數據對象的集合,同一簇中的對象盡可能相似,而不同簇中的對象盡可能相異。通過聚類人們可以發現數據分布的一些特征。目前,聚類分析已被廣泛應用于數據挖掘、圖像分割、模式識別等研究領域。如在商務上,聚類能幫助市場分析人員從客戶基本信息中發現不同的客戶群,并且用購買模式來刻畫不同的客戶群特征。聚類分析還可以應用在其他挖掘算法的預處理步驟,如先對數據進行聚類,然后在得到的聚類結果上進行其他的研究和處理。目前,圖書館系統大多使用操作性數據庫,在數據庫中存儲書目館藏信息、文獻流通信息、讀者基本信息等數據。通過該系統可以查詢讀者、圖書、借閱記錄等信息。圖書聚類分析在進行圖書聚類分析的過程中,根據圖書總計流通次數和當年流通次數對圖書進行聚類分析。通過圖書聚類分析可以得到哪些圖書借閱頻率較高,哪些圖書借閱頻率較低,可以反映出館藏圖書的利用情況和讀者對圖書的興趣,從而制定出相應的決策,有針對性地豐富館藏資源和優化圖書館的館藏布局。根據系統實際數據應用本文提供的K-均值改進算法進行圖書聚類分析實驗,步驟如下:4.1.1數據預處理據統計,數據預處理所花費的時間和成本占數據挖掘全過程的60%~80%,其余的工作占20%~40%,由此可見,提高數據預處理的效率成為數據挖掘工作中的重中之重。數據預處理主要包括數據清洗、數據集成、數據轉換和數據消減。根據數據預處理的方法,結合論文所需要解決的問題可知,主要屬性均不可以為空值。若這些相關屬性出現空值,將根據表的屬性以及挖掘的內容將空值進行填充。4.1.2對圖書數據進行聚類分析在圖書聚類分析過程中,設置聚類個數為3,采用K-均值改進算法對上面的圖書被借閱次數進行聚類挖掘,可以得出圖書聚類統計結果(表4)和圖書聚類詳細情況(表5)的數據。此挖掘結果中CLU_ID字段中的1、2、3分別表示利用率較高圖書、利用率一般圖書和利用率較低圖書。圖書聚類詳表說明如下:以第一條記錄為例,它是指索書號為TP312/370的圖書總計被借閱85次,該圖書屬于利用率較高圖書。圖書聚類統計結果表解釋如下:同樣以第一條記錄為例,它是指在抽取的1000種圖書中共有678種圖書屬于利用率較低圖書,該類圖書平均借閱次數為3.94次。4.1.3結果分析根據挖掘結果分析可以得出借閱頻率高與低的圖書的清單,從而可以反映出讀者利用圖書的況,也可以反映出采訪人員對全校師生讀書喜好的把握程度,以及圖書經費是否得到合理的使用。以此圖書聚類分析結果為依據,可以從3個不同的類別中尋找各類圖書群體的共性,來分析每類圖書利用率高或底的具體原因,同時圖書聚類分析為關聯規則挖掘做好前期準備工作。3.2讀者聚類分析在進行讀者聚類分析的過程中,我們根據讀者借閱圖書次數來對讀者進行聚類分析。4.2.1數據預處理數據預處理步驟與圖書聚類數據預處理過程相同。本例以信電學院2005~2006級學生為例,選取其中500名讀者進行聚類分析。實現語句為SQL2:SQL2:SELECTTOP500CERT_ID,TOTAL_LEND_QTY,YEAR_LEND_QTYFROMREADERWHEREDEPT='電信學院'ANDLEFT(CERT_ID,4)='2005'ORLEFT(CERT_ID,4)='2006'4.2.2對讀者數據進行聚類分析在本例的讀者聚類分析研究過程中,設置聚類個數為3,同樣采用K-均值改進算法,對讀者借閱圖書冊數進行聚類挖掘可以得出讀者聚類統計結果和讀者聚類詳細情況的數據。此挖掘結果中CLU_ID字段中的1、2、3分別表示活躍讀者、普通讀者、不活躍讀者。讀者聚類詳表說明如下:以第一條記錄為例,它是指證件號為20053372的讀者總計借閱圖書360冊,該讀者屬于活躍讀者。讀者聚類統計結果表解釋如下:同樣以第一條記錄為例,它是指在抽取的500名讀者中共有299名屬于不活躍讀者,該類讀者的平均借閱總量為29.49冊。4.2.3結果分析分析結果可以使我們得出不同類中讀者對圖書的利用狀況,為此我們可以打破以往按照學生類型(碩士、本科、??疲﹣碇贫ㄏ嚓P借閱標準的慣例,而根據讀者聚類分析得出的聚類結果為依據來制定相應借閱規則,活躍讀者的借閱冊數可以增加,不活躍讀者借閱冊數相應減少,以此來滿足不同讀者群的需求,同時也可以提高圖書資源的利用率。我們也可以據此結果制定針對不同讀者群開展不同服務的計劃,分析活躍讀者的借閱習慣,有針對性地為活躍讀者推薦他們所關注的圖書;可以針對不活躍讀者開展問卷調查,了解其借閱圖書較少的根源以及他們關注哪方面的圖書,并聽取他們的建議,以此來進一步豐富、優化圖書館館藏資源??偨Y聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。比如說現在要把n個產品按產品的m個指標繼續聚類,因為產品可能之前的特色是不一樣的。而這個時候影響產品的因素有m個,不可能一個一個的考慮,那樣是分不出類來的。所以只能對產品的m個指標綜合考慮,采用SPSS中的樣本聚類方法,就可以直接將產品分好類。并且從分析結果還可以看出各類產品的特色分別是什么。。就是最主要的分類標準是什么。聚類分析不僅可以用于樣本聚類,還可以用于變量聚類,就是對m個指標進行聚類。因為有時指標太多,不能全部考慮,需要提取出主要因素,而往往指標之間又有很多相關聯的地方,所以可以先對變量聚類,然后從每一類中選取出一個代表型的指標。這樣就大大減少了指標,并且沒有造成巨大的信息丟失。聚類分析是研究“物以類聚”的一種科學有效的方法。做聚類分析時,出于不同的目的和要求,可以選擇不同的統計量和聚類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論