




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
5-1聚類分析模塊?物以類聚:發現新簇群目錄CONTENTS何為聚類分析01常見聚類方法02聚類性能度量03一.何為聚類分析1.定義聚類分析:他是一種典型的無監督學習,也就是在事先不知道每個樣本的類別、沒有對應標簽值的情況下,將未知類別的樣本按照一定的規則劃分成若干個相對獨立的簇。簇的特點:同一個簇中的樣本盡可能相似不同的簇中的樣本盡可能不相似一.何為聚類分析2.典型應用領域領域銷售領域醫學領域生物領域安全領域一.何為聚類分析3.幾個概念如何去描述簇?簇質心簇大小簇密度簇號…二.常見聚類方法1.基于劃分的聚類二.常見聚類方法2.基于層次的聚類二.常見聚類方法3.基于密度的聚類三.聚類性能度量2.三個概念無論使用什么聚類方法對樣本進行分簇,都會涉及如何對聚類后的結果進行評估,以度量聚類模型的性能的問題。聚類性能度量指標用于對聚類后的結果進行評估,分為內部指標和外部指標兩大類。外部指標要事先指定聚類模型作為參考來評估聚類結果的好壞,稱為有標簽的評估;而內部指標是指不借助任何外部參考,只用參與聚類的樣本本身評估聚類結果的好壞。內部指標慣性值輪廓系數CH分數該值越小越好,越小證明樣本在類間的分布越集中值越大,說明同類樣本相距越近,不同樣本相距越遠。當簇密集且分離較好時,CH分數更高,因此CH值越大越好。人工智能基礎與應用Thankyouverymuch!5-2k均值聚類模塊?物以類聚:發現新簇群目錄CONTENTSk均值算法01k均值算法應用提示02一.k均值算法1.概念k均值(k-means)算法是一種基于距離劃分的聚類算法,由于其具有算法簡單、靈活性高、運行效果足夠好等特點,因此較常用。該算法計算樣本與簇質心的距離,與簇質心相近的樣本被劃分為同一簇。重用歐式距離計算樣本之間的相似度一.k均值算法2.算法流程一.k均值算法2.算法流程“×”為質心,第一輪迭代后用分別標記為星形和圓形來表示兩個類別,此時新的質心的位置已經發生了改變。圖5-5(e)和圖5-5(f)重復了圖5-5(c)和圖5-5(d)所示的過程。××二.k均值算法應用提示1.k的初值k的初值。k是一個提前定義好的數,其目標是最小化每個簇內部的差異,最大化簇之間的差異。那k取什么值合適呢?它取決于具體的業務需求或分析動機。例如,營銷部門只有3種不同的客戶資源來支撐拓展市場,那么設定k=3以聚類3種不同的客戶可能是一個不錯的決定。k=沒有先驗知識,建議令然后在附近值搜索。二.k均值算法應用提示2.初始質心的選擇k均值算法對初始質心是比較敏感的,這意味著隨機的初始質心可能會對最終的聚類結果產生較大的影響。選擇初始質心的方法有3種:一是如果事先知道某幾個樣本彼此之間完全不同,就選擇它們作為初始質心;二是跳出樣本范圍,在特征空間的任意地方取隨機值為初始質心;三是分段選擇初始質心,第一個初始質心隨機選擇,其他初始質心按距離已定初始質心最遠的樣本點來選擇。建議:通過多次運行,以聚類性能最優的聚類結果為最優解。二.k均值算法應用提示3.聚類完畢后有簇號聚類后所有樣本都是有簇號的。原來沒有標簽號(簇號)的樣本經過聚類會擁有一個簇號。相同簇號的樣本的特征平均值就是該簇質心的坐標,這也是k均值算法名稱的由來。提示:簇號默認從0開始,相同簇號的樣本屬于一類。二.k均值算法應用提示4.聚類結束條件盡管聚類能產生新的信息,但人們不應該在新信息的準確性上花費太多時間,因為聚類是無監督學習,所以更應該關注對新信息的洞察和理解。當樣本數量很大,或者定義的聚類誤差很嚴苛時,為避免聚類陷入遲遲不出結果的尷尬局面,必須設定最大迭代次數和誤差閾值,滿足其一即可停止聚類。提示:迭代達到最大值,停止;或相鄰兩次聚類后質心移動的距離小于誤差閾值,停止。人工智能基礎與應用Thankyouverymuch!5-3項目1—探究企鵝物種的分類模塊?物以類聚:發現新簇群目錄CONTENTS提出問題01預備知識03解決方案02任務1—樣本數據的預處理04任務3—繪制企鵝聚類后的散點圖06任務2—確定企鵝物種數量k的最佳值05一.提出問題問題描述由于全球氣候變暖和人類活動的影響,企鵝的生存狀況并不樂觀。因此,我們應該采取行動來保護這些迷人的生物,以確保它們能夠正常繁衍、繼續生存。為此,一項必要的工作就是研究如何區分企鵝的種類、哪些特征決定了它們的差異。一眼看企鵝都很相似,如何區分不用物種的企鵝呢?弄清這些問題就能更好地保護不同的企鵝,使它們成為人類永遠的朋友。二.解決方案1.選擇聚類法k均值算法解決問題基本思想:基于企鵝的一些形態特征(如嘴的大小、體重等)反映了企鵝的獨特之處和一些重要信息,然后用聚類算法K-Means對樣本進行聚類,最后得到各樣本的類別。聚類0類1類0類二.解決方案2.具體方案三.預備知識1.企鵝常識已知地球上現存的企鵝共有20余種,它們的頭部顏色、個體大小、體型等不盡相同。其中喙的長度、深度,鰭肢的長度和重量等特征對企鵝的生存影響較大。這些特征之間是否存在強相關關系,這樣的關系是否會對企鵝的分類造成影響?可以通過后期的數據分析找到該問題的答案。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根什么是降維?為什么要降維?前文已經談到,在衡量采用什么方法來分析數據之前最好能對數據的全貌有一個可視化的了解,能從中發現一些內在規律或啟示,以便更好地指導人們選擇相對合理的方法來解決問題。通常只在二維或三維的空間可視化數據,但原始數據的實際維度可能是四維甚至更高維度。采用數據降維的方法將原始數據的維度降為二維或三維,以便進行可視化處理,從而直觀了解數據的分布。除此之外,數據降維還有提高計算速度、提高模型擬合度等好處。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數據集中可能存在的強相關特征,選取合適的特征集,采用PCA對企鵝數據集penguins進行降維,并繪制降維后的數據散點圖。(1)繪制出熱力圖,了解各特征之間的相關度。三.預備知識2.數據降維點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根【引例5-1】分析企鵝數據集中可能存在的強相關特征,選取合適的特征集,采用PCA對企鵝數據集penguins進行降維,并繪制降維后的數據散點圖。(1)繪制出熱力圖,了解各特征之間的相關度。運行結果三.預備知識2.數據降維(2)繪制散點圖,觀察數據樣本在三維空間中的分布情況。運行結果三.預備知識2.數據降維(2)繪制散點圖,觀察數據樣本在三維空間中的分布情況。運行結果企鵝是否劃分為4個物種比較合適三.預備知識3.認識k均值聚類點X與點Y之間的歐氏距離等于各特征值之差的平方和的平方根四.任務1——樣本數據的預處理1.查看數據的異常情況(1)觀察數據空值情況數據集空值分布統計:四.任務1——樣本數據的預處理1.查看數據的異常情況(2)異常值的統計四.任務1——樣本數據的預處理2.對數據進行預處理對數據進行空值刪除、異常值剔除和數據的標準化處理四.任務2——確定企鵝物種數量k的最佳值1.導入相關的第三方庫及模塊要對企鵝樣本數據進行聚類,在讀取樣本數據的基礎上,除進行聚類操作外,還要計算輪廓系數和慣性值,所以要通過以下代碼導入相關的第三方庫及模塊。四.任務2——構建及訓練KNN模型2.繪制k值與輪廓系數、慣性值的變化關系圖四.任務2——構建及訓練KNN模型2.繪制k值與輪廓系數、慣性值的變化關系圖代碼的運行結果四.任務3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數據進行聚類(1)算法訓練(2)觀察標簽值及質心四.任務3——繪制企鵝聚類后的散點圖1.按k=4對企鵝樣本數據進行聚類(1)算法訓練(2)觀察標簽值及質心四組質心四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖(1)實現代碼:四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖運行結果四.任務3——繪制企鵝聚類后的散點圖2.繪制聚類后樣本的散點圖(2)分析結論:企鵝分為4類比較合適,同時不難看出:企鵝的喙深度、重量和性別3個指標可能是區分企鵝物種的主要因素。人工智能基礎與應用Thankyouverymuch!5-4項目2—電商客戶分類模塊?物以類聚:發現新簇群目錄CONTENTS提出問題01預備知識03解決方案02任務1—選擇最佳的客戶群分數目k04任務3—為3類客戶提出營銷建議06任務2—計算3類客戶的RFM平均值05一.提出問題問題描述隨著電商市場的快速發展,眾多的企業將營銷重點從產品轉向客戶,維持良好的客戶關系逐漸成為企業發展的核心。充分了解客戶群體,知道哪些客戶是重要保持客戶、哪些客戶是重要發展客戶、哪些客戶是一般挽留客戶等,事實現企業利潤最大化的重要保證。哪如何精準區分電商系統中客戶的群體類別,并根據客戶群分結果采取不同的營銷措施呢二.解決方案2.解決方案(1)先驗知識消費間隔消費頻率消費總額客戶群分營銷策略二.解決方案2.解決方案(2)具體方案三.預備知識1.RFM模型介紹利用消費間隔R、消費頻率F和消費總額M這3個指標,采用k均值算法對客戶進行聚類。三.預備知識2.k均值模型主要屬性【引例5-2】對比聚類后4種企鵝的質心數據。(1)導入相關三方庫三.預備知識2.k均值模型主要屬性(2)數據處理及獲取聚類后的質心三.預備知識2.k均值模型主要屬性(3)繪制4類企鵝在6個維度上的雷達圖四.任務1——選擇最佳的客戶群分數目k1.清洗掉無關的數據kfm_datas數據四.任務1——選擇最佳的客戶群分數目k2.對數據進行標準化處理X部分值:四.任務1——選擇最佳的客戶群分數目k3.求不同k值下客戶群分的聚類性能指標CH分數輪廓系數慣性值四.任務1——選擇最佳的客戶群分數目k4.繪制3個內部聚類性能指標的變化圖四.任務1——選擇最佳的客戶群分數目k4.繪制3個內部聚類性能指標的變化圖運行結果五.任務2——計算3類客戶的RFM平均值1.重新聚類最后得到聚類后的各樣本標簽五.任務2——計算3類客戶的RFM平均值2.求質心數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 社區活躍度的預算與投資合同
- 全職員工離職說明
- 數據庫技術COMPUTER87課件
- 鐵路市場營銷集中性市場營銷策略課件
- 雙總線冗余供電方式盧凱霞時間年月課件
- 中醫特色護理課件
- 中醫關于水腫的課件
- 高空電力作業安全合同
- 養生保健品經銷合同范本
- 北京市東城區2024屆高三下學期一模歷史試題 含解析
- 林海雪原考試題和答案
- 2025年中國華電集團有限公司招聘筆試參考題庫含答案解析
- 中醫適宜技術-中藥熱奄包
- 語文版一年級下冊語文閱讀理解練習(15篇)
- GB∕T 37281-2019 廢鉛酸蓄電池回收技術規范
- 動火作業檢查清單
- 鋼管樁沉樁兩種工藝方法
- 滲透試驗報告
- 吊車包月租賃合同完美參考
- 亞馬遜品牌授權書(英文模板)
- 螺桿壓縮機知識(課堂PPT)
評論
0/150
提交評論