數(shù)據(jù)挖掘概念與技術_第1頁
數(shù)據(jù)挖掘概念與技術_第2頁
數(shù)據(jù)挖掘概念與技術_第3頁
數(shù)據(jù)挖掘概念與技術_第4頁
數(shù)據(jù)挖掘概念與技術_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘概念概念與技術Data MiningConcepts and Techniques習題解答Jiawei Han Micheline Kamber 著范明孟曉峰譯(a)該數(shù)據(jù)的均值是什么?中位數(shù)是什么?(b)該數(shù)據(jù)的眾數(shù)是什么?爭論數(shù)據(jù)的峰(即雙峰、三峰 等)。(c)數(shù)據(jù)的中列數(shù)是什么?(d)你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(Q1)和第 三個四分位數(shù)(Q3)嗎?(e)給出數(shù)據(jù)的五數(shù)概括。(f)畫出數(shù)據(jù)的盒圖。(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么?解答:(a)該數(shù)據(jù)的均值是什么?中位數(shù)是什么?均值是!妥=809/27 = 29.96 E 30 (公式2.1)。中位數(shù)i應是

2、第14個,即燈4=25=。2。(b)該數(shù)據(jù)的眾數(shù)是什么?爭論數(shù)據(jù)的峰(即雙峰、三峰等)。這個數(shù)集的眾數(shù)有兩個:25和35,發(fā)生在同樣最高的頻率處,因此是雙峰眾數(shù)。(c)數(shù)據(jù)的中列數(shù)是什么?數(shù)據(jù)的中列數(shù)是最大術和最小是的均值。即:midrang e=(J0-13 )/2=41.5。(d)你能(粗略地)找出數(shù)據(jù)的第一個四分位數(shù)(Q1)和第三個四分位數(shù)(。3)嗎?數(shù)據(jù)集的第一個四分位數(shù)應發(fā)生在25%處,即在(N+l)/4=7處。所以:01=20。而第三個四分位數(shù)應發(fā)生在75%處,即在3x(N+l)/4=21處。所以:23=35(e)給出數(shù)據(jù)的五數(shù)概括。一個數(shù)據(jù)集的分布的5數(shù)概括由最小值、第一個四分位

3、數(shù)、中位數(shù)、第三個四分位數(shù)、和最大 值構成。它給出了分布外形良好的匯總,并且這些 數(shù)據(jù)是:13、20、 25、 35、 70o(f)畫出數(shù)據(jù)的盒圖。略。(g)分位數(shù)一分位數(shù)圖與分位數(shù)圖的不同之處是什么?分位數(shù)圖是一種用來展現(xiàn)數(shù)據(jù)值低于或等于在一個單變量分布中獨立的變量的粗略百分比。這樣,他可以展現(xiàn)全部數(shù)的分位數(shù)信息,而為獨立變量測得的值(縱軸)相對于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)一分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù), 用橫軸表示另一單變量分布的分位數(shù)。兩個坐標軸顯示它們的測量 值相應分布的值域,且點依據(jù) 兩種分布分位數(shù)值 展現(xiàn)。一條線(y=x)可畫到圖中,以增加圖像的 信息。落

4、在該線以上的點表示在y軸上顯示的值 的分布比x軸的相應的等同分位數(shù)對應的值 的分 布高。反之,對落在該線以下的點那么低。2.7使用習題2.4給出的age數(shù)據(jù)回答以下問題:(a)使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱的深度為3o解釋你的步驟。評述對于給定的數(shù) 據(jù),該技術的效果。(b)如何確定數(shù)據(jù)中的離群點?(c)對于數(shù)據(jù)光滑,還有哪些其他方法?解答:(a)使用分箱均值光滑對以上數(shù)據(jù)進行光滑,箱 的深度為3o解釋你的步驟。評述對于給定的數(shù) 據(jù),該技術的效果。用箱深度為3的分箱均值光滑對以上數(shù)據(jù)進行光滑需要以 下步驟:S 步驟1:對數(shù)據(jù)排序。(由于數(shù)據(jù)已被排序,所以此 時不需要該步驟。)S 步驟2:

5、將數(shù)據(jù)劃分到大小為3的等頻箱中。箱 2: 16, 19, 204 : 22 , 25 , 25箱 6: 33, 33, 35箱 8: 36, 40, 45箱 1: 13, 15, 16箱 3 : 20 , 21 , 22 箱箱 5: 25, 25, 30箱 7: 35, 35, 35箱 9: 46, 52, 70S 步驟3:計算每個等頻箱的算數(shù)均值。因 步驟4:用各箱計算出的算數(shù)均值替換每箱中的每個 值。箱 1: 44/3, 44/3, 44/3 箱 2: 55/3, 55/3, 55/3 箱 3: 21, 21, 21箱 4: 24, 24, 24箱 5: 80/3, 80/3, 80/3箱

6、 6: 101/3, 101/3, 101/3箱 7: 35, 35, 35 箱 8: 121/3, 121/3,121/3箱9: 56, 56, 56 (b)如何確定數(shù)據(jù)中的離群點?聚類的方法可用來將相像的點分成組或“簇”,并檢測離群點。落到簇的集外的值可以被視為離群點。作為選擇,一種人機結 合的檢測可被采納,而計算機 用一種事先打算的 數(shù)據(jù)分布來區(qū)分可能的離群點。這些可能的離群點 能被用人工 輕松的檢驗,而不必檢查整個數(shù)據(jù)集。(c)對于數(shù)據(jù)光滑,還有哪些其他方法?其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑 方法,如中位數(shù)光滑和箱邊界 光滑。作為選擇, 等寬箱可被用來執(zhí)行任何分箱方式,其中每個

7、箱中 的數(shù)據(jù)范圍 均是常量。除了分箱方法外,可以使 用回歸技術擬合成函數(shù)來光滑數(shù)據(jù),如通過線性 或多線性回歸。分類技術也能被用來對概念分層, 這是通過將低級概念上卷到高級概念來光滑數(shù) 據(jù)。2.10如下法律規(guī)范化方法的值域是什么?min-max法律規(guī)范化。z-score法律規(guī)范化。(c)小數(shù)定標法律規(guī)范化。解答:(a) min-max 法律規(guī)范化。值域是new_min,new_max o (b) z-score法律規(guī)范化。值域是(old _min mean)/ o, (old_max mean)/。,總的來說,對于全部可能 的數(shù)據(jù)集的 值域是(一oo, +oo) o(c)小數(shù)定標法律規(guī)范化。值域

8、是(一1.0, 1.0) o2.5 2.12使用習題2.4給出的age數(shù)據(jù),回答以下問題:(a)使用min-max法律規(guī)范化將age值35變換到0.0, 1.0 區(qū)間。(b)使用z-score法律規(guī)范化變換age值35,其中age的標 準差為12.94歲。(c)使用小數(shù)定標法律規(guī)范化變換age值35。(d)對于給定的數(shù)據(jù),你情愿使用哪種方法?陳述你的理 由。解答:(a)使用min-max法律規(guī)范化將age值35變換到0.0, 1.0 區(qū)間。minA=13, maxA=70, new_min A=0.0, new_maxA=1.0,而 v=35, v J俺瞇 4)+ new_,min_ min

9、max -AmaxA 廠 min A(1 0Q)+ - = 03860(b)使用z-score法律規(guī)范化變換age值35,其中age的標 準差為12.94歲。4 _ 13 +15 + 2 16 + 19 + 2 20 + 21 + 2 22 + 4 - 25A+ 30 + 2 - 33 + 4 - 35+36 + 40+ 45 + 46 + 52 + 70=鬻=29,963(A/ -=12.7002=12.7002= 12.9421吟=一發(fā) 161.2949,。A 二Hi 或 AS . 4)=2 = 1=n 167.4986,sA =v=355.037=0.3966 H 0.400o A12.

10、700212.7002?29v963SA?29v963SA口 A = 3512.94215.0 = 0.3892 H 0.393712.9421瀕定法律35 o35 oge10 35 =035 由于最大的肯定值為J w70,所以 j=2。M =(d)對于給定的數(shù)據(jù),你情愿使用哪種方法?陳述你的理 由。略。2.14假設12個銷售價格紀錄組已經(jīng)排序如下:5, 10,11, 13, 15, 35,50, 55, 72, 92, 204, 215。使用如下每種方法將其劃分成三 個箱。(a)等頻(等深)劃分。(b)等寬劃分。(c)聚類。解答:(a)等頻(等深)劃分。bin5.10.11.binbinl

11、72,91,204,215等寬時分。每個區(qū)間的寬度是:(215-5)/3=70binbin9bin204.2(c)聚類。我們可以使用一種簡潔的聚類技術:用2個最大的間隙將 數(shù)據(jù)分成3個箱。binbin35.50.55.bin204212.15使用習題2.4給出的age數(shù)據(jù),(a)畫出一個等寬為10的等寬直方圖;(b)為如下每種抽樣技術勾畫例子:SRSWOR, SRSWR ,聚類抽樣,分層抽樣。使用大小為5 的樣本和層“青年”,“中年”和“老年”。解答:(a)畫出一個等寬為10的等寬直方圖;(b)為如下每種抽樣技術勾畫例子:SRSWOR, SRSWR ,聚類抽樣,分層 抽樣。使用大小為5 的樣本

12、和層“青年”,“中年”和“老年”。元組:T1T2T3T1T2T3T1T2T3T1T2T3T1T2T4T2T3T4T2T3T4T2T3T5T2T3T7SRSWOR和SRSWR:不是同次的隨機抽樣結果可以不 同,但前者因無放回所以不能有相同的元組。SamoleSamoleSamoleSamoleSamoleSamoleT113T20T25T33T35T52T215T20T25T33T36T70T316T21T25T35T40T416T22T25T35T45JT519T22T30T35T46Sample2 Sample5T20T235T20T236T21T240T22T245T22T?46分層抽樣:

13、依據(jù)年齡分層抽樣時,不同的隨機試驗結果不 同。T1VOUT2VOUH2T3middleT1VOUT2vounzT3middleT1VOUT2vounsT3middleT1VOUT2voun2T3middleT1VOUT2VOUI12T4middleT2VOUT3middleT4middleT2VOUT3middleT4middleT2VOUT3middleT5middleT2VOUT3middleT7seniorT1vounaT2vounsT3middleT4middleT7Senio2.8 555555555555555555555555553.4假定BigUniversity的數(shù)據(jù)倉庫包含

14、如下4個維: student(student_name,area_id , major, status, university) , course(course_name,department) ,semester( semester, year)和 instructor(dept, rank) ; 2 個度量:count和avg_grade 0在最低概念層, 度量avg_grade存放同學的實際課程成果。在較 高概念層,avg_grade存放給定組合的平均成果。(a)為該數(shù)據(jù)倉庫畫出雪花形模式圖。(b)由基本方體student, course, semester, instructor開始,

15、 為歹U 出 BigUniversity 每個同學的CS課程的平均成果,應使用哪 些特另I的OLAP操作。(c)假如每維有5層(包括all ),如“ studentmajorstatusuniversityall , 該立方體包含多少方體?解答:a)為該數(shù)據(jù)倉庫畫出雪花形模式圖。雪花模式如圖所 /J O由基本方體student, course, semester, instructor開始, 為歹(J 出 BigUniversity 每個同學的CS課程的平均成果,應使用哪 些特別的OLAP操作。這些特別的聯(lián)機分析處理(OLAP)操作有:.沿課程(course)維從 course_id “上卷至

16、U department o.沿同學(student)維從student_id “上卷”至Iuniversity。.取 department= CS ”和 university= Big University ”,沿課程(course)維和同學(student)維切片。.沿同學(student)維從university下鉆到 student_name。假如每維有5層(包括all ),如“ studentmajorstatusuniversity 1.25 *MIN(Shelf) and(RI.Shelfl.5*MIN(Shelf) and Rl .Price100(c)這是一個分布式多特征立方

17、體嗎?為什么? 這不是一個分布多特征立方體,由于在“such that”語句中采納了條件。4.4 2022-11-294.5 2022-11-295.1 Apriori算法使用子集支持度性質(zhì)的先驗學問。節(jié)介紹了由頻繁項集產(chǎn)生關聯(lián)規(guī)章的方法。提 出了一個更有效的方法。解釋它為什么比 節(jié)的方 法更有效。(提示:考慮將習題5.1(b)和習題5.1(c) 的性質(zhì)結合到你的設計中。)5.3數(shù)據(jù)庫有5個事物。設min_sup=60%, min_conf=80。TWOE,YT200min_sup=60%, min_conf=80。TWOE,YT200HD購買的商品M, O, N, K,D, O, N, K,

18、E, Y T300E, Y T300M, A, K, E)T400M, U, C, K,YT500C, O, O, K, I, EApriori和FP增長算法找出全部的頻繁項 挖掘過程的效率。h)列舉全部與下面的的元規(guī)章匹配的強關聯(lián)規(guī)章(給出支持度s和置信度c),其中,X是代表顧客的變量,item是表示項的變量(如 A”、“B” 等):xDtransaction, buys(X, item 1) Abuys(X, item 2)buys(X, item3) s, c解答:(a)分別使用Apriori和FP增長算法找出全部的頻繁項集。比擬兩種挖掘過 程的效率。Apriori算法:由于只有5次購買

19、大事,所以肯定支持度是5xmin_sup=3o第1章引 、A什么是數(shù)據(jù)挖掘?在你的回答中,針對以下問題:1.6定義以下數(shù)據(jù)挖掘功能:特征化、區(qū) 分、關聯(lián)和相關分析、猜想聚 類和演化分 析。使用你熟識的現(xiàn)實生活的數(shù)據(jù)庫,給出 每種數(shù)據(jù)挖掘功 能的例子。解答:回特征化是一個目標類數(shù)據(jù)的一般特性或特性 的匯總。例如,同學的特征 可被提出,形成 全部高校的計算機科學專業(yè)一班級同學的輪 廓,這些特征包括作為一種高的班級平均成 果(GPA: Grade point aversge)的信息、,還有 所修的課程的最大數(shù)量。S區(qū)分是將目標類數(shù)據(jù)對象的一般特性與一個 或多個比照類對象的一般 特性進行比擬。 例如,

20、具有高GPA的同學的一般特性可被 用來與具有 低GPA的一般特性比擬。最終 的描述可能是同學的一個一般可比擬的輪 廓,就像具有高GPA的同學的75%是四班級 計算機科學專業(yè)的同學,而具有低GPA的同 學的65%不是。因關聯(lián)是指覺察關聯(lián)規(guī)章,這些規(guī)章表示一起 頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。 例如,一個數(shù)據(jù)挖掘系統(tǒng)可能覺察的 關聯(lián)規(guī)那么為:major(X,u computingscience) JM3/O 3XM0 ;/ ,MK3 ot10000 ,=fK 500fME2002 硼Y、MK,V,0g C300發(fā)二yY 82400p二,300C20090ZK300003:KEh0000 ,Dp

21、oPE3機2fU:Cloo 100 如 2ooKY3L =0KE31REKY f 113/165=0.68;P(senior)=52/165=0.32;P(Xjunior)P(junior)=0.01796 X0. 68=0. 01221280=0=P(X|senior)P(senio r); 所以:樸實貝葉斯分類器將X分到junior類。解二:設元組的各屬性之間不獨立,其聯(lián)合概率不 能寫成份量相乘的形式。所以:X=(department=system,age=26, , , 30,salary=46K, , 50K),元組總數(shù)為:30+40+40+20+5+3+3+10+4+4+6=165。

22、先驗概率:當 status=senio r 時,元組總數(shù)為:30+5+3+10+4=52,P(senior)=52/165=0.32 ;當status=junior時,元組總數(shù)為: 40+40+20+3+4+6=113 ,P(junior)=l 13/165=0.68 ;由于status=senior狀態(tài)沒有對應的age=2630區(qū)間,所以:P(X|senior)=0; 由于 status=junior 狀態(tài)對應的 partment=systems、age=26 30 區(qū)間的總元組 數(shù)為:3,所以:P(X|junior)=3/113;由于:P(X|junior)P(junior)=3/l 13

23、 X 113/165 =0. 0180=P(X|senior)P(senior); 所以:樸實貝葉斯分類器將X分到junior類。(d)為給定的數(shù)據(jù)設計一個多層前饋神經(jīng)網(wǎng)絡。標記輸入和輸 出層節(jié)點。(e)使用上面得到的多層前饋神經(jīng)網(wǎng)絡,給定訓練實例(sales, senior, 31 35, 46K50K),給出后向傳播算法一次迭代后 的權重值。指出你使用的初始權重和偏倚以及學習率。6.3 2022-12-016.4 2022-12-01owns(X,personalcomputer)confidsupport=12%,ence=98%肯需同圣是丘畬表示同學的變量。這個規(guī)章指出正在學 (支持度

24、)主修計算機科學并且擁有一臺個人計算機。這個組一個同學 擁有一臺個人電 腦的概率是98% (置信度,或確定度)。S分類與猜想不同,由于前者的作用是構造一 系列能描述和區(qū)分數(shù)據(jù)類型或概念的模型(或功能),而后者是建立一個模型去猜想 缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù) 值。它們的相像性是他們都是猜想的工具: 分類被用作猜想目標數(shù)據(jù)的類的標簽,而猜 測典型的應用是猜想缺失的 數(shù)字型數(shù)據(jù)的 值。S聚類分析的數(shù)據(jù)對象不考慮的類標號。 對象依據(jù)最大花蕾內(nèi)部的相 似性、最小化類 之間的相像性的原那么進行聚類或分組。形成 的每一簇可以被看作一個對象類。聚類也便 于分類法組織形式,將觀測組織成類分層結 構,把

25、類似的大事組織在一起。S數(shù)據(jù)延邊分析描述和模型化隨時間變化的對 象的規(guī)律或趨勢,盡管這可 能包括時間相關 數(shù)據(jù)的特征化、區(qū)分、關聯(lián)和相關分析、分 類、或猜想,這種分析的明確特征包括時間序 列數(shù)據(jù)分析、序列或周期模式匹配、和 基于 相像性的數(shù)據(jù)分析1.9列舉并描述說明數(shù)據(jù)挖掘任務的五種原語。解答:用于指定數(shù)據(jù)挖掘任務的五種原語是:因任務相關數(shù)據(jù):這種原語指明給定挖掘所處 理的數(shù)據(jù)。它包括指明數(shù)據(jù) 庫、數(shù)據(jù)庫表、 或數(shù)據(jù)倉庫,其中包括包含關系數(shù)據(jù)、選擇 關系數(shù)據(jù)的條件、用于探究的關系數(shù)據(jù)的屬 性或維、關于修復的數(shù)據(jù)排序和分組。因挖掘的數(shù)據(jù)類型:這種原語指明白所要執(zhí)行 的特定數(shù)據(jù)挖掘功能,如特 征化

26、、區(qū)分、關 聯(lián)、分類、聚類、或演化分析。同樣,用戶 的要求可能更特別,并可能供應所覺察的模 式必需匹配的模版。這些模版或超模式(也被稱為超規(guī)章)能被用來指導覺察過程。 因背景學問:這種原語允許用戶指定已有的關 于挖掘領域的學問。這樣的學問能被用來指導學問覺察過程,并且評估覺察的模式。關 于數(shù)據(jù)中關 系的概念分層和用戶信念是背景 學問的形式。因模式愛好度度量:這種原語允許用戶指定功 能,用于從學問中分割不感 愛好的模式,并 且被用來指導挖掘過程,也可評估覺察的模 式。這樣就 允許用戶限制在挖掘過程返回的 不感愛好的模式的數(shù)量,由于一種數(shù)據(jù)挖掘 系統(tǒng)可能產(chǎn)生大量的模式。愛好度測量能被 指定為簡易性

27、、確定性、適用性、和新奇性的 特征。S覺察模式的可視化:這種原語述及覺察的模 式應被顯示出來。為了使 數(shù)據(jù)挖掘能有效地 將學問傳給用戶,數(shù)據(jù)挖掘系統(tǒng)應能將覺察 的各種 形式的模式展現(xiàn)出來,正如規(guī)章、表 格、餅或條形圖、決策樹、立方體或其它視覺的表示。1.13描述以下數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù) 倉庫集成方法的差異:不耦合、松散耦合、 半緊耦合和緊密耦合。你認為哪種方法最流 行,為什么?解答:數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)的集成的層次的差異如下。S不耦合:數(shù)據(jù)挖掘系統(tǒng)用像平面文件這樣的 原始資料獲得被挖掘的原始 數(shù)據(jù)集,由于沒 有數(shù)據(jù)庫系統(tǒng)或數(shù)據(jù)倉庫系統(tǒng)的任何功能被 作為處理過程的一局部執(zhí)行。因此,這種構 架是一種糟糕的設計。s松散耦合:數(shù)據(jù)挖掘系統(tǒng)不與數(shù)據(jù)庫或數(shù)據(jù) 倉庫集成,除了使用被挖掘 的初始數(shù)據(jù)集的 源數(shù)據(jù)和存儲挖掘結果。這樣,這種構架能 得到數(shù)據(jù)庫 和數(shù)據(jù)倉庫供應的敏捷、高效、 和特征的優(yōu)點。但是,在大量的數(shù)據(jù)集中, 由松散耦合得到高可測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論