




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘中簡單高效的變量約簡技術(shù)數(shù)據(jù)挖掘主要內(nèi)容:一. 關(guān)聯(lián)規(guī)則和鏈接分析;二. 基于聚類分析的各種應(yīng)用;三. 預(yù)測模型-決策樹,回歸,神經(jīng)網(wǎng)絡(luò);四. 統(tǒng)計各個分支的其他應(yīng)用.一般數(shù)據(jù)聚類步驟:一般預(yù)測模型的建模步驟:報告內(nèi)容:一. 變量太多會導(dǎo)致的問題;二. 基于主成分的變量聚類技術(shù);三. 經(jīng)典統(tǒng)計學(xué)的變量選擇技術(shù);四. 基于決策樹技術(shù)的變量選擇.一. 變量太多會導(dǎo)致的問題大數(shù)據(jù)的最重要的特點之一就是數(shù)據(jù)維度高(變量數(shù)多)。在有的行業(yè)(銀行業(yè))用于建模的變量數(shù)可能達(dá)到2000個甚至更多。變量太多即是福音又是災(zāi)難:1. 大量的變量通常意味著大量可用的描述性信息,大量的可用來構(gòu)建更好的模型的信息
2、。2. 由于各種原因變量太多也會帶來一系列的問題。變量太多導(dǎo)致的問題:1. 存在過多變量的數(shù)據(jù)集,往往會有稀疏性問題. 稀疏性意味著,眾多的客戶簽名中,大多數(shù)取值為0或其他一些特定的值.2.輸入變量之間彼此相關(guān)性,會導(dǎo)致聚類算法中某些特征的權(quán)重過大; 眾多變量彼此相關(guān)會造成決策樹的結(jié)果難以理解;也會導(dǎo)致回歸模型難以發(fā)現(xiàn)真正有顯著性影響的變量;3.變量太多也會帶來相關(guān)數(shù)據(jù)挖掘模型過擬合,以及算法收斂時間較長等問題.二. 基于主成分的變量聚類技術(shù)變量聚類技術(shù)跟我們通常所說的聚類分析不是同一個概念.變量聚類技術(shù)是對輸入變量的聚類, 而一般意義上的聚類分析是對觀測值(客戶簽名)的聚類.變量聚類技術(shù)是無
3、指導(dǎo)的數(shù)據(jù)挖掘技術(shù), 在計算過程中不涉及到目標(biāo)變量. 它首先根據(jù)變量之間的相關(guān)性對變量集進(jìn)行分群, 然后對每個小分群尋找一個代表. 這個代表可以是小分群中的某一個變量, 也可以是小分群中變量的線性組合(主成分).跟第一主成分相關(guān)性強的變量跟第一主成分相關(guān)性強的變量跟第二主成分相關(guān)性 強的變量節(jié)點4節(jié)點2跟第二主成分相關(guān)性強的變量節(jié)點3所有變量節(jié)點1對新分裂成的兩個變量組合,分別計算各自的第一主成分,只選擇第一主成分貢獻(xiàn)率低的節(jié)點做下一步的劃分.變量聚類技術(shù)算法:1. 把數(shù)據(jù)集中所有的輸入變量作為一個初始的大群.2. 由上一群中的所有輸入變量產(chǎn)生出第一主成分 1 和第二主成分 2. 主成分是一群
4、中所有變量的線性組合.3. 在滿足相關(guān)群分裂標(biāo)準(zhǔn)條件下,根據(jù)兩主成分 1 和 2 把大變量群分成 2 個小群:If 2 ,1 2 ,2 , then 1 else 2 ,where is correlation coefficient.4. 根據(jù)相關(guān)條件,只選出其中1個小群做進(jìn)一步劃分。劃分的過程重復(fù)2-3步.5. 當(dāng)滿足相關(guān)終止條件,停止群得劃分。以一個銀行客戶數(shù)據(jù)為例,里面有15000個客戶觀測值,85個列變量(1個是目標(biāo)變量,65區(qū)間型輸入變量,19個分類變量). 如果只對其中65個區(qū)間型輸入變量使用變量聚類技術(shù),聚出20個子群,如前圖所示. 變量縮減的效果非常明顯。Tips:在對觀測值
5、進(jìn)行聚類前,如果輸入變量太多,可以用變量聚類技術(shù)先對輸入變量進(jìn)行縮減.往往會取得比較好得結(jié)果,尤其是當(dāng)很多輸入變量都彼此相關(guān)時.實例應(yīng)用:在對每一子群選擇變量代表時,這個代表可以是子群的主成分,也可以是子群中的與子群主成分相關(guān)性最高的變量。在模型評估階段,如果兩種選法相差不大,優(yōu)先考慮選擇子群中的某一變量作為代表。選擇已有變量代表用主成分代表1.在構(gòu)建關(guān)聯(lián)規(guī)則時,為了提高規(guī)則的支持度和置信度,常會使用大類產(chǎn)品, i.e. 把各種口味和品牌的冰淇淋聚為冰淇淋.關(guān)聯(lián)規(guī)則里的變量合并是基于變量屬性的, 跟我們這里的變量聚類不是一回事.2.在用聚類方法進(jìn)行客戶特征分析時,如變量太多也可以僅僅只在幾個重
6、要的變量上進(jìn)行聚類.聚完類后再分析各類中其他未參加聚類的變量的特征.思想:有共性的客戶在重要變量上常常也會相似.Tips3. K-均值聚類與層次化聚類互補效果會很好:K-均值聚類擴展性好,其本質(zhì)是圍繞質(zhì)心的大圓, 會使得聚得類較大. 層次化聚類擴展性差,但結(jié)果比較有意義. 兩者結(jié)合, 可以首先使用K-均值建立很多小類(譬如100個), 然后對這些群集(小類)再使用層次性聚類以建立群集的層次化結(jié)構(gòu). 最后構(gòu)成的較大群集可以是任意形狀的.三. 經(jīng)典統(tǒng)計學(xué)的變量選擇技術(shù);當(dāng)目標(biāo)變量是連續(xù)型變量:Step 1:分別單獨計算每個輸入變量與目標(biāo)變量的簡單相關(guān)系數(shù) , 首先剔除 2 0.005的那些輸入變量
7、;Step 2:對Step 1中選出的變量,用向前回歸法選擇變量。實例:在一個研究存款利率提高對銀行顧客存款額度變化的例子中, 有277個輸入變量. Step 1, 篩選出92個輸入變量進(jìn)入Step 2; 而 Step 2 只選出5個輸入變量。目標(biāo)變量是二元目標(biāo)變量(0或1):仍按照上面的兩步法來選擇變量,由于此時目標(biāo)變量是二元的, Step 1里一般換為卡方檢驗, 且在Step 2里需要改為logistic 回歸.實例:在研究影響愛爾蘭牛群結(jié)核病感染的案例中, 二元目標(biāo)變量是牛群中有沒有發(fā)現(xiàn)有感染結(jié)核病的牛,有51個輸入變量. Step 1通過Spearmans相關(guān)系數(shù), 篩選出15個輸入變
8、量進(jìn)入Step 2; 而 Step 2 只選出4個輸入變量.四. 基于決策樹技術(shù)的變量選擇在有目標(biāo)變量的時候,決策樹技術(shù)可以根據(jù)目標(biāo)變量的取值把觀測值集合分成很多小組(葉結(jié)點). 對決策樹節(jié)點劃分起作用的變量可以作為變量選擇的結(jié)果,進(jìn)入到下一步的模型建立中.分類目標(biāo)變量和連續(xù)目標(biāo)變量情形都可以用決策樹模型來進(jìn)來變量選擇。Tips:用來估計連續(xù)型目標(biāo)變量的決策樹一般稱為回歸樹。一般不適用回歸樹這樣的離散模型來估計連續(xù)值,因為回歸樹的取值就是有限的葉節(jié)點值。但是回歸樹模型是可以用來選擇變量的.較好的結(jié)果。Tips:1. 當(dāng)變量太多時,可以先通過經(jīng)典統(tǒng)計的技術(shù)先刪除一些不相關(guān)變量,然后再利用決策樹技術(shù)做進(jìn)一步的變量篩選。2. 在建立決策樹的時, 對每個觀測值附帶會產(chǎn)生一個新的分類變量 (葉節(jié)點變量,該變量值表示觀測值被分配到哪個葉節(jié)點)。把葉節(jié)點變量帶入到下一步的模型建立,往往會取得比With node inWithout node in總結(jié)1.方法是死的,人是活得,恰當(dāng)使用方法常會帶來很好的效果;2. 在聚類分析的時候,為了避免輸入變量之間相關(guān)性, 會給聚類結(jié)果帶來不好的影響, 可以采用基于主成分技術(shù)的變量聚類技術(shù)和只在關(guān)鍵變量上聚類來解決. 當(dāng)然也可以只對部分變量采用變量聚類技
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 紡織品及針織品安全標(biāo)準(zhǔn)與質(zhì)量控制體系考核試卷
- 建筑裝飾的室內(nèi)裝修工期管理指南考核試卷
- 煉油廠能源管理與節(jié)能技術(shù)應(yīng)用考核試卷
- 花畫藝術(shù)在音樂節(jié)視覺設(shè)計中的應(yīng)用考核試卷
- 海洋牧場規(guī)劃與運營管理考核試卷
- 橡膠合成過程中副產(chǎn)物的處理與利用考核試卷
- 租賃設(shè)備的維修技術(shù)培訓(xùn)與提升考核試卷
- 體育經(jīng)紀(jì)公司體育產(chǎn)業(yè)人才培養(yǎng)與引進(jìn)策略考核試卷
- 影視后期制作燈光系統(tǒng)租賃與后期支持協(xié)議
- 鐵路建設(shè)工程監(jiān)理公司股權(quán)合作投資合同
- 2025衡水市武強縣輔警考試試卷真題
- 《行政法與行政訴訟法》課件各章節(jié)內(nèi)容-第一章 行政法概述
- 山西省太原市2025年高三年級模擬考試(二)語文試題及答案
- 2025年廣東廣州中物儲國際貨運代理有限公司招聘筆試參考題庫含答案解析
- 湖北省武漢市2025屆高中畢業(yè)生二月調(diào)研考試數(shù)學(xué)試題及答案
- 2025年高三語作文模擬題分析+材料+范文:關(guān)心人本身應(yīng)成為一切技術(shù)上奮斗的主要目標(biāo)
- 2025中考二輪專題復(fù)習(xí):古詩文主題默寫匯編(2)(含答案)
- GB/T 4744-2013紡織品防水性能的檢測和評價靜水壓法
- GB/T 24267-2009建筑用阻燃密封膠
- 2022年陜西省高中學(xué)業(yè)水平考試政治題(原題)
- 一帶一路論文參考文獻(xiàn)(70個范例參考),參考文獻(xiàn)
評論
0/150
提交評論