數據挖掘考試題庫_第1頁
數據挖掘考試題庫_第2頁
數據挖掘考試題庫_第3頁
數據挖掘考試題庫_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、。1. 何謂數據挖掘?它有哪些方面的功能?從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程稱為數據挖掘。相關的名稱有知識發現、數據分析、數據融合、決策支持等。數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢分析、孤立點分析以及偏差分析等。2. 何謂粒度?它對數據倉庫有什么影響?按粒度組織數據的方式有哪些?粒度是指數據倉庫的數據單位中保存數據細化或綜合程度的級別。粒度影響存放在數據倉庫中的數據量的大小,數據倉庫所能回答查詢問題的細節程度。按粒度組織數據的方式主要有:簡單堆積結構輪轉綜合結構簡單直接結構連續結

2、構同時影響3. 簡述數據倉庫設計的三級模型及其基本內容。概念模型設計是在較高的抽象層次上的設計,其主要內容包括:界定系統邊界和確定主要的主題域。邏輯模型設計的主要內容包括:分析主題域、確定粒度層次劃分、確定數據分割策略、定義關系模式、定義記錄系統。物理數據模型設計的主要內容包括:確定數據存儲結構、確定數據存放位置、確定存儲分配以及確定索引策略等。在物理數據模型設計時主要考慮的因素有: I/O存取時間、空間利用率和維護代價等。提高性能的主要措施有劃分粒度、數據分割、合并表、建立數據序列、引入冗余、生成導出數據、建立廣義索引等。4. 在數據挖掘之前為什么要對原始數據進行預處理?原始業務數據來自多個

3、數據庫或數據倉庫,它們的結構和規則可能是不同的,這將導致原始數據非常的雜亂、不可用,即使在同一個數據庫中,也可能存在重復的和不完整的數據信息,為了使這些數據能夠符合數據挖掘的要求,提高效率和得到清晰的結果,必須進行數據的預處理。為數據挖掘算法提供完整、干凈、準確、有針對性的數據,減少算法的計算量,提高挖掘效率和準確程度。5. 簡述數據預處理方法和內容。 數據清洗:包括填充空缺值,識別孤立點,去掉噪聲和無關數據。數據集成:將多個數據源中的數據結合起來存放在一個一致的數據存儲中。需要注意不同數據源的數據匹配問題、數值沖突問題和冗余問題等。數據變換:將原始數據轉換成為適合數據挖掘的形式。包括對數據的

4、匯總、聚集、概化、規范化,還可能需要進行屬性的重構。數據歸約:縮小數據的取值范圍,使其更適合于數據挖掘算法的需要,并且能夠得到和原始數據相同的分析結果。6. 簡述數據清理的基本內容。 盡可能賦予屬性名和屬性值明確的含義;統一多數據源的屬性值編碼;去除無用的惟一屬性或鍵值 ( 如自動增長的 id) ;去除重復屬性 ( 在某些分析中,年齡和出生日期可能就是重復的屬性,但在某些時候它們可能又是同時需要的)去除可忽略字段 ( 大部分為空值的屬性一般是沒有什么價值的,如果不去除可能造成錯誤的數據挖掘結果)合理選擇關聯字段 ( 對于多個關聯性較強的屬性, 重復無益, 只需選擇其中的部分用于數據挖掘即可,如

5、價格、數據、金額 )去掉數據中的噪音、填充空值、丟失值和處理不一致數據。7. 簡述處理空缺值的方法。 忽略該記錄;去掉屬性;手工填寫空缺值;使用默認值;使用屬性平均值;使用同類樣本平均值;預測最可能的值。8. 常見的分箱方法有哪些?數據平滑處理的方法有哪些?分箱的方法主要有: 統一權重法 ( 又稱等深分箱法 )統一區間法 ( 又稱等寬分箱法)最小熵法。1。自定義區間法數據平滑的方法主要有:平均值法、邊界值法和中值法。9. 何謂數據規范化?規范化的方法有哪些?寫出對應的變換公式。將數據按比例縮放 ( 如更換大單位 ) ,使之落入一個特定的區域(如0.0 1.0 ),稱為規范化。規范化的常用方法有

6、:(1)最大最小規范化:maxminmin0 ) minx( x0(2)零均值規范化:( max0min0 )x0Xx(3)小數定標規范化:xx0/10X10. 數據歸約的方法有哪些?為什么要進行維歸約? 數據立方體聚集維歸約數據壓縮數值壓縮離散化和概念分層維歸約可以去掉不重要的屬性,減少數據立方體的維數,從而減少數據挖掘處理的數據量,提高挖掘效率。11. 何謂聚類?它與分類有什么異同?聚類是將物理或抽象對象的集合分組成為多個類或簇 (cluster) 的過程,使得在同一個簇中的對象之間具有較高的相似度,而不同簇中的對象差別較大。聚類與分類不同,聚類要劃分的類是未知的,分類則可按已知規則進行;

7、聚類是一種無指導學習,它不依賴預先定義的類和帶類標號的訓練實例,屬于觀察式學習,分類則屬于有指導的學習,是示例式學習。12. 舉例說明聚類分析的典型應用。商業:幫助市場分析人員從客戶基本庫中發現不同的客戶群,并且用不同的購買模式描述不同客戶群的特征。生物學:推導植物或動物的分類,對基于進行分類,獲得對種群中固有結構的認識。 WEB文檔分類其他: 如地球觀測數據庫中相似地區的確定;各類保險投保人的分組;一個城市中不同類型、價值、地理位置房子的分組等。聚類分析還可作為其他數據挖掘算法的預處理:即先進行聚類,然后再進行分類等其他的數據挖掘。聚類分析是一種數據簡化技術,它把基于相似數據特征的變量或個案

8、組合在一起。13. 聚類分析中常見的數據類型有哪些?何謂相異度矩陣?它有什么特點?常見數據類型有區間標度變量、比例標度型變量、二元變量、標稱型、序數型以及混合類型等。相異度矩陣是用于存儲所有對象兩兩之間相異度的矩陣,為一個nn 維的單模矩陣。其特點是d(i,j)=d(j,i), d(i,i)=0,d(j,j)=0。如下所示:0d(2,1)0d(3,1) d(3,2) 0d(n,1) d(n,2) .014. 分類知識的發現方法主要有哪些?分類過程通常包括哪兩個步驟?分類規則的挖掘方法通常有:決策樹法、貝葉斯法、人工神經網絡法、粗糙集法和遺傳算法。分類的過程包括2 步:首先在已知訓練數據集上,根

9、據屬性特征,為每一種類別找到一個合理的描述或模型,即分類規則;然后根據規則對新數據進行分類。15. 什么是決策樹?如何用決策樹進行分類?決策樹是用樣本的屬性作為結點,用屬性的取值作為分支的樹結構。它是利用信息論原理對大量樣本的屬性進行分析和歸納而產生的。 決策樹的根結點是所有樣本中信息量最大的屬性。樹的中間結點是以該結點為根的子樹所包含的樣本子集中信息量最大的屬性。決策樹的葉結點是樣本的類別值。決策樹用于對新樣本的分類,即通過決策樹對新樣本屬性值的測試,從樹的根結點開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結點,該葉結點表示的類別就是新樣本的類別。決策樹方法是數據挖掘中非常有效的

10、分類方法。2。16. 簡述 ID3 算法的基本思想及其主算法的基本步驟。首先找出最有判別力的因素,然后把數據分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數據為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。主算法包括如下幾步:從訓練集中隨機選擇一個既含正例又含反例的子集(稱為窗口 );用“建樹算法”對當前窗口形成一棵決策樹;對訓練集 ( 窗口除外 ) 中例子用所得決策樹進行類別判定,找出錯判的例子;若存在錯判的例子,把它們插入窗口,重復步驟,否則結束。17. 簡述 ID3 算法的基本思想及其建樹算法的基本步驟。首先找出最有判別力的因素,然后把

11、數據分成多個子集,每個子集又選擇最有判別力的因素進一步劃分,一直進行到所有子集僅包含同一類型的數據為止。最后得到一棵決策樹,可以用它來對新的樣例進行分類。建樹算法的具體步驟如下:對當前例子集合,計算各特征的互信息;選擇互信息最大的特征Ak;把在 Ak 處取值相同的例子歸于同一子集,Ak 取幾個值就得幾個子集;對既含正例又含反例的子集,遞歸調用建樹算法;若子集僅含正例或反例,對應分枝標上P 或 N,返回調用處。18. 設某事務項集構成如下表,填空完成其中支持度和置信度的計算。事務 ID項集L2支持度 %規則置信度 %T1A, DA, B33.3A B50T2D, EA, C33.3C A60T3

12、A,C,EA, D44.4A D66.7T4A,B,D,EB, D33.3B D75T5A,B,CC, D33.3C D60T6A,B,DD, E33.3D E43T7A,C,DT8C,D,ET9B,C,D19.從信息處理角度看,神經元具有哪些基本特征?寫出描述神經元狀態的M-P方程并說明其含義。基本特征:多輸入、單輸出;突觸兼有興奮和抑制兩種性能;可時間加權和空間加權;可產生脈沖;脈沖可進行傳遞;非線性,有閾值。M-P方程:Sif (Wij Sjj ) ,Wij 是神經元之間的連接強度,j 是閾值,f ( x) 是階梯函數。j20. 遺傳算法與傳統尋優算法相比有什么特點? 遺傳算法為群體搜索

13、,有利于尋找到全局最優解; 遺傳算法采用高效有方向的隨機搜索,搜索效率高; 遺傳算法處理的對象是個體而不是參變量,具有廣泛的應用領域; 遺傳算法使用適應值信息評估個體,不需要導數或其他輔助信息,運算速度快,適應性好; 遺傳算法具有隱含并行性,具有更高的運行效率。21. 寫出非對稱二元變量相異度計算公式( 即 jaccard 系數 ) ,并計算下表中各對象間的相異度。測試項目test-1test-2test-3test-4test-5test-6對 象OBJ1YNPNNNOBJ2YNPNPNOBJ3NYNYNN22. 簡述 K- 平均算法的輸入、輸出及聚類過程 ( 流程 ) 。輸入:簇的數目 k

14、 和包含 n 個對象的數據集。3。輸出: k 個簇,使平方誤差準則最小。步驟:任意選擇 k 個對象作為初始的簇中心;計算其它對象與這k 個中心的距離,然后把每個對象歸入離它“最近”的簇;計算各簇中對象的平均值,然后重新選擇簇中心( 離平均值“最近”的對象值) ;重復第 2 第 3 步直到簇中心不再變化為止。23. 簡述 K- 中心點算法的輸入、輸出及聚類過程 ( 流程 ) 。輸入:結果簇的數目 k,包含 n 個對象的數據集輸出: k 個簇,使得所有對象與其最近中心點的相異度總和最小。流程:隨機選擇 k 個對象作為初始中心點;計算其它對象與這k 個中心的距離,然后把每個對象歸入離它“ 最近 ”的

15、簇;隨機地選擇一個非中心點對象Orandom,并計算用Orandom代替 Oj 的總代價 S;如果 S<0, 則用 Orandom代替 Oj ,形成新的k 個中心點集合;重復迭代第3、 4 步,直到中心點不變為止。24. 何謂文本挖掘?它與信息檢索有什么關系( 異同 ) 。文本挖掘是從大量文本數據中提取以前未知的、有用的、可理解的、可操作的知識的過程。它與信息檢索之間有以下幾方面的區別:方法論不同:信息檢索是目標驅動的,用戶需要明確提出查詢要求;而文本挖掘結果獨立于用戶的信息需求,是用戶無法預知的。著眼點不同:信息檢索著重于文檔中字、詞和鏈接;而文本挖掘在于理解文本的內容和結構。目的不同

16、:信息檢索的目的在于幫助用戶發現資源,即從大量的文本中找到滿足其查詢請求的文本子集;而文本挖掘是為了揭示文本中隱含的知識。評價方法不同:信息檢索用查準率和查全率來評價其性能。而文本挖掘采用收益、置信度、簡潔性等來衡量所發現知識的有效性、可用性和可理解性。使用場合不同:文本挖掘是比信息檢索更高層次的技術,可用于信息檢索技術不能解決的許多場合。一方面,這兩種技術各有所長,有各自適用的場合;另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結果的組織,使信息檢索系統發展到一個新的水平。人工神經網絡 是用大量的簡單處理單元廣泛連接而成的網絡,用以模擬生物神經網絡的智能計算系統,

17、神經網絡是一組類似于神經元的處理單元, 其中每個連接都與一個權重相關聯.Apriori 優缺點 : 優點:大大壓縮了頻繁集的大小,取得了很好的性能。缺點:(1 )產生大量的頻繁集 (2 )重復掃描事務數據庫如何改進 ?改進 :在第一次數據庫遍歷后就不需要用到原始數據庫,而使用在前一次過程中所用的候選項集的集合。AprioriTid算法的優點 是用逐漸減少的 TID 表代替原始數據庫, 但是在循環的初始階段, 候選項集的個數往往大于數據項個數 , 導致構造的 TID 表可能比原始事務數據庫還要大.聚類分析 : 從數據集中找出相似的數據并組成不同的組數據挖掘步驟 : 問題定義 , 數據準備 , 預處理 , 數據挖掘 , 結果的解釋和評估ID3 優點 : 搜索空間是完全的假設空間, 目標函數必在搜索空間中, 不存在無解的危險 ; 全盤使用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論