數據挖掘與數據倉庫考試題_第1頁
數據挖掘與數據倉庫考試題_第2頁
數據挖掘與數據倉庫考試題_第3頁
數據挖掘與數據倉庫考試題_第4頁
數據挖掘與數據倉庫考試題_第5頁
已閱讀5頁,還剩3頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、2011年數據挖掘與數據倉庫考試題1 (10分)討論::下列每項活動是否是數據挖掘任務?簡單陳述你的理由。(a) 根據性別劃分公司的顧客。不是。數據挖掘是在大型數據存儲庫中,自動地發現有用信息的過程。數據挖掘技術服務用來探查大型數據庫,發現先前未知的有用模式。還可以預測未來觀測結果,例如,預測一位新的顧客是否會在一家百貨公司消費100美元以上。但并非所有的信息發現任務都被視為數據挖掘,數據挖掘與信息檢索不同,使用數據庫管理系統查找個別的記錄,或通過因特網的搜索引擎查找特定的Web頁面,則是信息檢索領域的任務,它們主要依賴傳統的計算機科學技術和數據的明顯特征來創建索引結構,從而有效地組織和檢索信

2、息。數據挖掘的任務可分為兩大類:預測任務和描述任務。主要任務有四種:聚類分析,關聯分析,異常檢測,和預測建模。其目的是根據其它屬性的值,預測特定屬性的值,或導出概括數據中潛在聯系的模式,主要是預測某些信息。而根據性別劃分公司的顧客,只是一種簡單的數據庫查詢操作,并沒有涉及預測分析。(b) 根據可贏利性劃分公司的顧客。不是。根據可贏利性劃分公司的顧客是使用閾值進行的一種統計計算。它僅僅是根據消費結果統計將原有顧客進行劃分,只是一種統計的結果,而沒有根據這些結果的特點預測一個新的顧客的贏利性,這種預測才是數據挖掘。(c) 預測投一對骰子的結果。不是。因為骰子的六個數值出現的可能性是相同的,這是一種

3、概率計算,如果結果出現的可能性是不確定的,不相同的,則更像是數據挖掘的任務,但在很早以前利用數學已經能夠很好的解決這個問題了。所以預測投一對骰子的結果不屬于數據挖掘的任務,不帶有發現新信息的預測特點。(d) 使用歷史記錄預測某公司未來的股票價格。這是數據挖掘的任務。可以通過對歷史記錄特點的分析來創建一種模型預測未來的公司的股票價格,這是數據挖掘任務中預測建模的一個例子,預測建模涉及以說明變量函數的方式為目標變量建立模型,有兩類預測建模任務:分類,用于預測離散的目標變量;回歸,用于預測連續的目標變量dmj預測某公司未來的股票價格則是回歸任務,因為價格具有連續值屬性。2 (10分)列舉3種數據挖掘

4、功能,對每種舉2個實際應用的例子。 (1)支持商務智能應用。借助POS(銷售點)數據收集技術,零售商可以在其商店的收銀臺收集顧客購物的最新數據。零售商可以利用這些信息,加上電子商務網站的日志、電購中心的顧客服務記錄等其他的重要商務數據,更好地理解顧客的需求,做出明智的商務決策。數據挖掘技術可以用來支持廣泛的商務智能應用,如顧客分析、定向營銷、工作流管理、商店分布和欺詐檢測等。商店可以根據顧客的購物習慣來安排端口的擺放位置,這是日常生活中數據挖掘最常見的一種應用。數據挖掘還能幫助零售商回答一些重要的商務問題,如“誰是最有價值的顧客?”“什么產品可以交叉銷售或提升銷售?”“公司明年的收入前景如何?

5、”這些是數據挖掘任務中的關聯分析。通過商品銷售情況,來分析購買商品的顧客特點,根據這些特點重要發掘最可能的消費者,這是關聯分析在日常生活中的一種應用。 (2)在醫學、科學與工程中的應用。醫學、科學與工程技術界的研究者正在快速積累大量數據,這些數據對獲得有價值的新發現至關重要。例如,為了更深入地理解地球的氣候系統,NASA已經部署了一系列的地球軌道衛星,不停地收集地表、海洋和大氣的全球觀測數據。然而,由于這些數據的規模和時空特性,傳統的方法常常不適合分析這些數據集。數據挖掘開發的技術可以幫助地球科學家回答如下問題:“干旱和颶風等生態系統擾動的頻度和強度與全球變暖之間有何聯系?”“海洋表面溫度對地

6、表降水量和溫度有何影響?”“如何準確地預測一個地區的生長季節的開始和結束?”。我國神舟七號載人航天飛船的發射也是數據挖掘的一個應用,傳統的技術通常不能處理太大量數據,而利用數據挖掘技術可以將衛星收集到的太空中的大量數據信息進行分析,這樣才能保證飛船在太空中的順利航行。3 (10分)比較急切分類(如,判定樹、貝葉斯、神經網絡)相對于懶散分類(如,k -最臨近、基于案例的推理)的優缺點。 決策樹歸納的特點:(1)決策樹歸納是一種構建分類模型的非參數方法,它不要求任何先驗假設,不假定類和其他屬性服從一定的概念分布。(2)找到最佳的決策樹是NP完全問題,可以采用一種貪心的、自頂向下的遞歸劃分策略建立決

7、策樹。(3)已構臺構建決策樹技術不需要昂貴的計算代價,決策邊界是直線(平面)。(4)決策樹算法對于噪聲的干擾具有相當好的魯棒性,采用避免過分擬合的方法之后尤其如此。(5)冗余屬性不會對決策樹的準確率造成不利的影響。(6)決策樹方法會存在數據碎片問題。(7)子樹可能在決策樹中重復多次。(8)當決策樹很小時,訓練和檢驗誤差都很大,稱為模型擬合不足;當規模變得太大時,即使訓練誤差還在繼續降低,但是檢驗誤差開始增大,稱為模型過分擬合。貝葉斯網絡(BBN)的特點:(1)BNN提供了一種用圖形模型來捕獲特定領域的先驗知識的方法,網絡還可以用來對變量間的因果依賴關系進行編碼。(2)構造網格可能既費時又費力,

8、但一旦網格結構確定下來,添加新變量就十分容易。(3)貝葉斯網絡很適合處理不完整的數據。(4)因為數據和先驗知識以概率方式結合起來了,所以該方法對模型的過分擬合問題是非常魯棒的。人工神經網絡(ANN)的特點:(1)至少含有一個隱藏層的多層神經網絡是一種普適近似。(2)ANN可以處理冗余特征,對訓練數據中的噪聲非常敏感。(3)ANN權值學習使用的梯度下降方法經常會收斂到局部極小值。訓練ANN是一個很耗時的過程,而測試樣例分類時非常快。基于密度的聚類(DBSCAN)優缺點:(1)它是相對抗噪聲的,并且能夠處理任意形狀和大小的簇。當近鄰計算需要計算所有的點對鄰近度時,DBSCAN的開銷可能很大。K均值

9、的優缺點:K均值并不適合所有的數據類型。它不能處理非球形簇、不同尺寸和不同密度的簇,盡管指定足夠大的簇個數時它通常可以發現純子簇。通過以上急切分類和懶散分類各種方法的特點對比可知,急切分類僅僅對于某些類型的數據進入分類,而懶散分類則對于不同大小和不同類型的數據都可以進行處理。急切分類對噪聲較敏感而懶散分類而不是,急切分類方法較為簡單,花費的時間和空間代價都較懶散分類少。4 (10分)假定你作為一個數據分析人員,受雇于一家移動通訊公司。通過一個例子說明打算如何使用數據挖掘技術為公司提供幫助。你的例子應包含問題描述,使用何種數據挖掘方法解決該問題,理由和預期效果(不需要定量分析)。例子如下:首先,

10、移動通信公司數據分析人員的主要工作是收集移動通信用戶使用通信的方式,業務流量,并且收集用戶的類型來分析各種用戶使用信息的主要方式及銷售情況,以此可以出臺更加適合不同用戶需求的業務套餐類型。使用數據挖掘中的聚類分析方法可以以一種較相似的主題來對結果進行分類,并且以一種更為簡潔的方式呈現給用戶,例如:報告聚類中最頻繁出現的10個詞語,來收集最多使用各種類型業務的用戶特點。可以按照預先定義的分類,例如漫游類,本地外地類等等用戶使用通信的方法來進行分類。利用數據挖掘中順序關聯分析可以檢測出某些按照一定的高概率來查詢到其他分類,并且允許更為高效的緩存,通過這種方法,可以得出具有相互關聯的用戶使用通信方式

11、和業務套餐的關系,進而通過查詢一種類型推導出其他相關類型的分類用戶特點。通過異常檢測技術可以發現不尋常的用戶通信方式,例如一個新方式的更加流行。總的來說,通過數據挖掘的聚類分析可以將通信用戶進行分類,然后發掘出各種類型用戶使用通信的需求和最普通具用的特點,通過對以往歷史信息業務的分析,聚類,可能會發現新的需求,最后所用的廣告策略就可以根據這些發掘出來的新特性采取相應的調整策略以滿足大多數用戶的需求,吸引更多的潛在客戶,出臺符合這些用戶需求的業務產品類型,進而使公司擁有更多的客戶,有更大的發展前景。5 (10分)假設數據挖掘的任務是將如下的八個點(用(x,y)代表位置)聚類為三個類。A1(2,1

12、0),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)距離函數是Euclidean(歐幾里得)函數。假設初始我們選擇A1,B1,和C1為每個簇的中心,用k-means算法來給出(a) 在第一次循環執行后的三個簇中心(b) 最后的三個簇K均值算法的過程為:1: 選擇K個點作為初始質點。2: repeat3: 每個點指派到最近的質心,形成K個簇。4. 重新計算每個簇的質心、5. until質心不發生變化。 A1,B1,C作為初始質點,距離函數是Euclidean函數,指派點到最近的質心,方法為計算其他點到質點的歐幾里得距離。計算距離如下

13、:A1-A2 :dist=(2-2)2 +(5-10)2=25;A1-A3:dist=(8-2)2+(4-10)2=72; A1-B2:dist=(7-2)2+(5-10)2 =50; A1-B3:dist=(6-2)2+(4-10) 2=52;A1-C2:dist=(4-2)2+(9-10)2=5; B1-A2:dist=(2-5)2+(5-8)2=18; B1-A3:dist=(8-5)2+(4-8)2=25;B1-B2:dist=(7-5)2+(5-8)2=13 B1-B3:dist=(6-5)2+(4-8)2=17B1-C2:dist=(4-5)2+(9-8)2=2 C1-A2:dis

14、t=(2-1)2+(5-2)2=10 C1-A3:dist=(8-1)2+(4-2)2=53 C1-B2:dist=(7-1)2+(5-2)2=45 C1-B3:dist=(6-1)2+(4-2)2=29 C1-C2:dist=(4-1)2+(9-2)2=58其他五個結點選擇與其最近的質心,三個簇分別為:B1,C2,B3,B2,A3C1,A2A1計算這三個簇的質心:B1,C2,B3,B2,A3的質心為:((8+5+7+6+4)/5,(4+8+5+4+9)/5)即(6,6);C1,A2的質心為:(2+1)/2,(5+2)/2)即為(1.5,3.5);A1的質心為(2,10)。(a) 在第一次循環

15、執行后的三個簇中心分別為(6,6),(1.5,3.5),(2,10)重新指派各個對象到離其最近的質心,與上面方面相同,形成的三個簇為A3,B1,B2,B3,C1,A2,A1,C2三個簇的質心分別為(6.5,5.25),(1.5,3.5),(3,9.5);重新指派各個對象到離其最近的質心, 形成的三個簇為:A3,B2,B3C1,A2 A1,B1,C2三個簇的質心分別為:(7,4.3),(1.5,3.5),(3.67,9);重新指派各個對象到離其最近的質心, 形成的三個簇為: A3,B2,B3C1,A2 A1,B1,C2三個簇的質心分別為:(7,4.3),(1.5,3.5),(3.67,9);至此

16、質心不發生變化;(b) 最后三個簇即為A3,B2,B3C1,A2 A1,B1,C2;6 (10分)考慮下面的由Big-University的學生數據庫挖掘的關聯規則major(X,”science”) Þ status(X,”undergrad”) (1) 假定學校的學生人數(即,任務相關的元組數)為5000,其中56%的在校本科生的專業是科學,64%的學生注冊本科學位課程,70%的學生主修科學(science)。(a) 計算規則(1)的支持度和置信度。(b) 考慮下面的規則major(X,”biology”) Þ status(X,”undergrad”) 17%,80%

17、 (2)假定主攻科學的學生30%專業為biology。與規則(1)對比,你認為規則(2)新穎嗎?解釋你的結論。(1)對于形如“A B”的關聯規則,支持度定義為support(A B) = 包含A和B的元組數/元組總數;規則(1)的支持度計算如下:主修科學(science) 且未注冊本科學位課程的學生人數為:5000*70%-5000*64%*56%=1708;元組總數為5000;支持度為:1708/5000=34.16%對于形如“A B”的關聯規則,置信度定義為:confidence(A B)= 包含A和B的元組數/包含的A元組數 規則(1)的置信度計算如下: 主修科學(science) 且未

18、注冊本科學位課程的學生人數為:5000*70%-5000*64%*56%=1708;主修科學的人數為:5000*70%=3500 置信度為:1708/3500=48.8%(2)假定主攻科學的學生30%專業為biology:我們可以猜測下面的規則major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度應為34.16%*30%=10.238%,48.8%,而題目中給出的major(X,”biology”) Þ status(X,”undergrad”)的支持度和置信度應為17%,80%,與我們由規則(1)推測出來的相差較大,所以規則(

19、2)并不是冗余的,是新穎的。7 (15分)考慮為產品銷售問題建立數據倉庫。關注的主題是銷售,用銷售量、銷售價和成本度量(由此可以計算銷售金額和利潤)。銷售涉及銷售的產品、時間、客戶和銷售代理。其中,產品用產品名稱、產品類別、產品品牌等描述,時間用日、月、季、年描述,客戶信息包括客戶ID、客戶名、送貨地址(省、市、街道、門牌號)、帳號等信息,銷售代理包括銷售代理姓名、地區、省、市等信息(a) 給出每個維的概念分層。(b) 畫出該數據倉庫的星型模式圖。(c) 由基本方體開始,為列出河南省客戶購買的、由國美家電2004年銷售的、小天鵝洗衣機,應當執行哪些OLAP操作?下鉆,上卷,切片8 (15分)下表由雇員數據庫的訓練數據組成。數據已泛化。例如,年齡“3135”表示31到35的之間。對于給定的行,count表示department, status, age和salary在該行上具有給定值的元組數。departmentstatusagesalarycountsalessalessalessystem

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論