2015數據挖掘技術試卷A卷-參考答案_第1頁
2015數據挖掘技術試卷A卷-參考答案_第2頁
2015數據挖掘技術試卷A卷-參考答案_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2014 2015學年 第二學期期末考試數據挖掘技術 試卷(a卷)參考答案 使用班級 1250411/12/13/14 答題時間_120分鐘_一、填空題 (共10空, 每空1分,共10分)1.數據挖掘的任務:分類、聚類、回歸、關聯分析、離群點監測、演化分析、序列模式。2.數據集的三個重要特性:_維度、稀疏性、分辨率。二、判斷題 (共10小題, 每小題1分,共10分)判斷下列37小題的描述是否正確?3.id3算法不僅可以處理離散屬性,還可以處理連續屬性。( f ) 4.決策樹方法通常用于關聯規則挖掘。( f ) 5.先驗原理可以表述為,一個頻繁項集的任一子集也應該是頻繁的。( t ) 6.cle

2、mentine是ibm公司的專業級數據挖掘軟件。( t ) 7.具有較高的支持度的項集具有較高的置信度。( f ) 判斷下列812小題的描述是否屬于數據挖掘任務?8.利用歷史數據預測公司將來的股價。 ( t )9.監測病人心率的異常變化 。 ( f )10.監測地震活動的地震波 。 ( f )11.提取聲波的頻率 。 ( f )12.根據顧客喜好擺放商品位置。 ( t )三、簡答題(6個小題,每小題5分,共30分)13. 什么是信息熵? 答:信息熵(entropy)是用來度量一個屬性的信息量(1分)。假定s為訓練集,s的目標屬性c具有m個可能的類標號值,c=c1,c2,cm,假定訓練集s中,c

3、i在所有樣本中出現的頻率為 (i=1,2,3,m),則該訓練集s所包含的信息熵定義為: (3分)熵越小表示樣本對目標屬性的分布越純,反之熵越大表示樣本對目標屬性分布越混亂。(1分)14什么是文本挖掘? 答:文本挖掘是一個對具有豐富語義的文本進行分析,從而理解其所包含的內容和意義的過程。(2分)對其進行深入的研究可以極大地提高人們從海量文本數據中提取信息的能力,具有很高的商業價值。(1分)包括分詞、文本表示、文本特征選擇、文本分類、文本聚類、文檔自動摘要等內容。(2分)15. 什么是主成份分析?答:主成份分析(pca)是一種用于連續屬性的線性變換技術,找出新的屬性(主成份),(1分)這些新屬性是

4、原屬性的線性組合,(1分)是相互正交的,(1分)使得原來數據投影到較小的集合中,并且捕獲數據的最大變差。(1分)pca通常揭示先前未曾覺察的聯系,解釋不尋常的結果。(1分)16. 簡述k-最近鄰算法過程。 答:knn分類算法的基本描述如下:算法名:knn輸入:最近鄰數目k ,訓練集d,測試集z (1分)輸出:對測試集z中所有測試樣本預測其類標號值 (1分)(1)for 每個測試樣本 (1分) do(2) 計算z和每個訓練樣本 之間的距離 (1分)(3) 選擇離z最近的k最近鄰集合 (1分)(4) 返回 中樣本的多數類的類標號 (1分)(5)end for17. 簡述apriori算法原理。答:

5、apriori性質:一個項集是頻繁的,那么它的所有子集都是頻繁的。(1分)一個項集的支持度不會超過其任何子集的支持度。(1分)該算法采用逐層的方法找出頻繁項集,(1分)首先找出1頻繁-項集,通過迭代方法利用頻繁k-1-項集生成k候選項集,(1分)掃描數據庫后從候選k-項集中指出頻繁k-項集,直到生成的候選項集為空。(1分)18. 什么是離群點?答:離群點是在數據集中偏離大部分數據的數據,(2分)使人懷疑這些數據的偏離并非由隨機因素產生,(1分)而是產生于完全不同的機制。(2分) 四、計算題 (共2題, 每小題20分,共40分)19.數據集如下表:a1a2a3b1b2b3b4c1c2c3x197

6、5962728y2598294713以a1、b1、c1為初始簇中心,利用曼哈頓距離的k-means算法計算:(1) 第一次循環后的三個簇中心;(2) 最后的三個簇中心,以及各簇包含的對象。(要有計算步驟)解:(1)計算其他7個數據點到三個中心的曼哈頓距離:m(a2,a1)=11 m(a2,b1)=7 m(a2,c1)=4 m(a3,a1)=13 m(a3,b1)=3 m(a3,c1)=2m(b2,a1)=8 m(b2,b1)=10 m(b2,c1)=7m(b3,a1)=12 m(b3,b1)=2 m(b3,c1)=3m(b4,a1)=3 m(b4,b1)=7 m(b4,c1)=8m(c2,a1

7、)=2 m(c2,b1)=10 m(c2,c1)=11 m(c3,a1)=8 m(c3,b1)=8 m(c3,c1)=5經過本次循環,屬于a1簇的數據點為(a1,b4,c2),(1分)中心為x1(1.67,2.33);(1分)屬于b1簇的數據點為(b1,b3),(1分)中心為x2(5.5, 8.5);(1分)屬于c1簇的數據點為(c1,a2,a3,b2,c3),(1分)中心為x3(8, 5.2);(1分)(2)計算10個點到三個新中心的距離:m(a1,x1)=1 m(a1,x2)=11 m(a1,x3)=10.2 m(a2,x1)=10 m(a2,x2)=7 m(a2,x3)=1.2 m(a3

8、,x1)=12 m(a3,x2)=2 m(a3,x3)=4.8m(b1,x1)=9 m(b1,x2)=1 m(b1,x3)=5.8m(b2,x1)=7.66 m(b2,x2)=10 m(b2,x3)=4.2m(b3,x1)=11 m(b3,x2)=1 m(b3,x3)=5.8m(b4,x1)=2 m(b4,x2)=8 m(b4,x3)=7.2m(c1,x1)=10 m(c1,x2)=3 m(c1,x3)=2.8 m(c2,x1)=1.66 m(c2,x2)=11 m(c2,x3)=10.2 m(c3,x1)=7 m(c3,x2)=8 m(c3,x3)=2.2 經過本次循環,屬于x1簇的數據點為

9、(a1,b4,c2),(1分)中心為y1(1.67, 2.33);(1分)屬于x2簇的數據點為(a3,b1,b3),(1分)中心為y2(6, 8.67);(1分)屬于x3簇的數據點為(a2,b2,c1,c3),(1分)中心為y3(8.25, 4.25);(1分)再次計算10個數據點到三個新中心的距離:m(a1,y1)=1 m(a1,y2)=11.67 m(a1,y3)=9.5 m(a2,y1)=10 m(a2,y2)=6.67 m(a2,y3)=1.5 m(a3,y1)=12 m(a3,y2)=1.33 m(a3,y3)=6m(b1,y1)=9 m(b1,y2)=1.67 m(b1,y3)=7

10、m(b2,y1)=7.66 m(b2,y2)=9.67 m(b2,y3)=3m(b3,y1)=11 m(b3,y2)=0.33 m(b3,y3)=7m(b4,y1)=2 m(b4,y2)=8.67 m(b4,y3)=6.5m(c1,y1)=9 m(c1,y2)=2.67 m(c1,y3)=4 m(c2,y1)=1.66 m(c2,y2)=11.67 m(c2,y3)=9.5 m(c3,y1)=7 m(c3,y2)=7.67 m(c3,y3)=1.5 經過本次循環,屬于y1簇的數據點為(a1,b4,c2),(1分)中心為y1(1.67, 2.33); (1分)屬于y2簇的數據點為(a3,b1,b

11、3,c1),(1分)中心為y2(6.25, 8.25); (1分)屬于y3簇的數據點為(a2,b2,c3),(1分)中心為y3(8.67, 3.33);(1分)可以看到,已經不變了。(2分)天氣情況x1溫度情況x2濕度情況x3風力情況x4戶外運動y晴朗高大微風不適合n晴朗高大強風不適合n陰天高大微風適合y下雨中大微風適合y下雨低中等微風適合y下雨低中等強風不適合n陰天低中等強風適合y晴朗中大微風不適合n晴朗低中等微風適合y下雨中中等微風適合y20.已知數據集如下表:使用樸素bayes算法預測氣候狀況為雨天,高溫,濕度中等,微風時,是否適合戶外運動?解:即求x=下雨,高,中等,微風的戶外運動為可

12、以的后驗概率p(y=y|x)和x在戶外運動為不可以的后驗概率p(y=n|x),其中概率最大者為x的預測值。(3分)根據bayes定理,p(y=y|x)=p(x|y=y) * p(y=y)=p(x1|y=y)* p(x2|y=y)* p(x3|y=y)* p(x4|y=y)* p(y=y) (2分)這里,p(x1|y=y)=p(x1=下雨|y=y)=3/6 (1分)p(x2|y=y)=p(x2=高|y=y)=1/6 (1分)p(x3|y=y)=p(x3=中等|y=y)=4/6 (1分)p(x4|y=y)=p(x4=微風|y=y)=5/6 (1分)p(y=y)=6/10 (1分)因此,p(y=y|

13、x)=3/6*1/6*4/6*5/6*6/10=1/36 (1分)同理,計算p(y=n|x)= p(x|y=n) * p(y=n)=p(x1|y=n)* p(x2|y=n)* p(x3|y=n)* p(x4|y=n)* p(y=n) (1分) 其中,p(x1|y=n)= p(x1=下雨|y=n)=1/4 (1分)p(x2|y=n)= p(x2=高|y=n)=2/4 (1分)p(x3|y=n)= p(x3=中等|y=n)=1/4 (1分)p(x4|y=n)= p(x4=微風|y=n)=2/4 (1分)p(y=n)=4/10 (1分)因此,p(y=n|x)=1/4*2/4*1/4*2/4*4/10=1/160 (1分)因為p(y=y|x) > p(y=n|x),故氣候狀況為雨天,高溫,濕度中等,微風時,戶外運動應為適合。 (2分)五、應用題 (共1題,共10分)21.你作為銀行信息中心工作人員,請闡述數據挖掘技術在銀行業務中的應用,并寫出相關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論