2024年數據挖掘考試題庫_第1頁
2024年數據挖掘考試題庫_第2頁
2024年數據挖掘考試題庫_第3頁
2024年數據挖掘考試題庫_第4頁
2024年數據挖掘考試題庫_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

一、填空題

1.Web挖掘可分卷、和3大類。

2.數據倉庫需要統壹數據源,包括統壹―、統壹—、統壹—和統壹數據特性

410方面。

3.數據分割壹般準畤間、—、—、—以及組合措施迤行。

4.噪聲數據處理的措施重要有—、—和—。

5.數值歸約的常用措施有一、—、—、—和卦數模型等。

6.評價關聯規則的2(0重要指檄是—和—。

7.多維數據集壹股采用或省花型架構,以表卷中心,連接多種表。

8.決策樹是用—作懸結黠,用—作卷分支的樹構造。

9.關聯可分卷簡樸關聯、—和—o

10.BP神^網絡的作用函數壹般卷—區間的—o

11.數據挖掘的謾程重要包括確定業務封象、—、—、—及知識同化等幾種環

節。

12.數據挖掘技術重要波及—、—和—3彳固技術領域。

13.數據挖掘的重要功能包括—、—、—、—、趨勢分析、孤立黠分析和偏

差分析7值1方面。

14.人工神^網絡具有—和—等特黠,其構造模型包括—、—和自組織網絡

3種。

15.數據倉庫數據的4他基本特性是—、—、非易失、隨日寺間變化。

16.數據倉庫的數據宜般劃分卷—、—、—和—等幾種級別。

17.數據預處理的重要內容(措施)包括—、—、—和數據歸約等。

18.平滑分箱數據的措施重要有—、—和—。

19.數據挖掘發現知識的類型重要有廣義知識、—、—、—和偏差型知識五種。

20.0LAP的數據組織方式重要有—和—兩種。

21.常見的0LAP多維數據分析包括—、—、—和旋轉等操作。

22.老式的決策支持系統是以—和—驅勃,而新決策支持系統則是以—、建

立在和技術之上。

23.0LAP的數據組織方式重要有—和—2種。

24.SQLServer的OLAP組件叫,OLAP操作窗口叫。

25.BP神^網絡由—、—以及壹或多種—結粘構成。

26.遺傳算法包括、、R佰1基本算子。

27.聚類分析的數據壹般可分卷區間襟度變量、—、—、—、序數型以及混合

類型等。

28.聚類分析中最常用的距離計算公式有—、—、—等。

29.基于劃分的聚類算法有—和—。

3O.Clementine的工作流壹般由—、—和一等節黠連接而成。

31.簡樸地三心數據挖掘就是優—中挖掘—的遇程。

32.數據挖掘有關的名稱尚有、、等。

、判斷題

)1.數據倉庫的數據量越大,其應用價值也越大。

)2.啤酒與尿布的故事是聚類分析的^典實例。

)3.等深分箱法使每他箱子的記錄他數相似。

)4.數據倉庫“粒度”越細,記錄數越少。

)5.數據立方體由3維構成,Z軸表達事實數據。

)6.決策樹措施壹般用于關聯規則挖掘。

)7.1D3算法是決策樹措施的初期代表。

)8.C4.5是壹種^典的關聯規則挖掘算法。

)9.回歸分析宣般用于挖掘關聯規則。

)10.人工神畿網絡尤其適合處理多參數大復雜度冏題。

)11.概念關系分析是文本挖掘所獨有的。

)12.可信度是封關聯規則的精確度的衡量。

)13.孤立黠在數據挖掘^^是被視卷異常、維用數據而丟棄。

)14.SQLServer不提供關聯規則挖掘算法。

)15.Clementine是IBM企業的專業級數據挖掘軟件。

)16.決策樹措施尤其適合于處理數值型數據。

)17.數據倉庫的數據卷歷史數據,歷來不需要更新。

)18.等寬分箱法使每他箱子的取值區間相似。

)19.數據立方體是廣義知識發現的措施和技術之壹。

)20.數據立方體的其中壹維用于記錄事實數據。

)21.決策樹壹般用于分類與預測。

)22.Apriori算法是壹種^典的關聯規則挖掘算法。

)23.支持度是衡量關聯規則重要性的壹種指襟。

)24.SQLServer集成了OLAP,但不具有數據挖掘功能。

)25.人工神^網絡常用于分類與預測。

,、名同解釋

1.數據倉庫:是壹種新的數據處理體系構造,是面向主題的、集成的、不可更新

的(穩定性)、隨畤間不停變化(不壹樣步間)的數據集合,卷企業決策支持系統

提供所需的集成信息。

2.孤立黠:指數據庫中包括的某些與數據的壹般行卷或模型不壹致的異常數據。

3.OLAP:OLAP是在OLTP的基礎上發展起來的,以數據倉庫卷基礎的數據分析處

理,是共享多維信息的迅速分析,是被專門設計用于支持復雜的分析操作,側

重封分析人員和高層管理人員的決策支持。

4.粒度:指數據倉庫的數據軍位中保留數據細化或淙合程度的級別。粒度影響寄

存在數據倉庫中的數據量的大小,同步影響數據倉庫所能回答查冏詢題的細節

程度。

5.數據規范化:指將教據按比例縮放(如更換大軍位),使之落入壹種特定的區域

(如0—1)以提高數據挖掘效率的措施。規范化的常用措施有:最大一最小規

范化、零一均值規范化、小數定襟規范化。

6.關聯知識:是反應壹種事件和其他事件之間依賴或互相關聯的知識。假如兩項

或多項屬性之間存在關聯,那么其中壹項的屬性值就可以根據其他屬性值迤行

預測。

7.數據挖掘:優大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取除

含在其中的、人儼J事先不懂得的、但又是潛在有用的信息和知識的遇程。

8.OLTP:OLTP卷聯機事務處理的縮寫,OLAP是聯機分析處理的縮寫。前者是以數

據庫卷基礎的,面封的是操作人員和低層管理人員,封基本數據暹行查詢和增、

刪、改等處理。

9.ROLAP:是基于關系數據庫存儲方式的,在造種構造中,多維數據被映像成二維

關系表,堂般采用星型或雪花型架構,由直種事實表和多種維度表構成。

10.MOLAP:是基于類似于“超立方”塊的OLAP存儲構造,由言午多^壓縮的、類似

于多維數組的封象構成,并帶有高度壓縮的索引及指針構造,通遇直接偏移「

算暹行存取。

II.數據歸約:縮小數據的取值范圍,使其更適合于數據挖掘算法的需要,并且可

以得到和原始數據相似的分析成果。

12.廣義知識:通謾封大量數據的歸納、概括和抽象,提煉出帶有普遍性的、概括

性的描述記錄的知識。

13.預測型知識:是根據畤間序列型數據,由歷史的和目前的數據去推測未來的數

據,也可以認卷是以畤間卷關鍵屬性的關聯知識。

14.偏差型知識:是卦差異和極端特例的描述,用于揭示事物偏離常規的異常現象,

如原則類外的特例,數據聚類外的離群值等。

15.遺傳算法:是壹種優化搜索算法,它首先產生壹種初始可行解群體,然彳及封道

倜群體通遇模擬生物謹化的選擇、交叉、變異等遺傳操作遺傳到下壹代群體,

并最終到達全局最優。

16.聚類:是將物理或抽象封象的集合分構成^多種類或簇Glust")的謾程,使得

在同壹種簇中的封象之間具有較高的相似度,而不壹樣簇中的卦象差異較大。

17.決策樹:是用樣本的屬性作卷結黠,用屬性的取值作卷分支的樹構造。它是分

類規則挖掘的典措施,可用于封新樣本暹行分類。

18.相異度矩陣:是聚類分析中用于表達各卦象之間相異度的壹種矩陣,n他I封象

的相異度矩陣是壹種rm維的軍模矩陣,其封角線元素均卷0,封角線兩側元素

的值相似。

19.頻繁項集:指滿足最小支持度的項集,是挖掘關我規則的基本條件之壹。

20.支持度:規則A-B的支持度指的是所有事件中A與B同地發生的的概率,即

P(AUB),是AB同步發生的次數與事件^次數之比。支持度是封關聯規則重要

性的衡量。

21.可信度:規則A-B的可信度指的是包括A項集的同步也包括B項集的條件概率

P(BA),是AB同步發生的次數與A發生的所有次數之比。可信度是封關聯規則

的精確度的衡量。

22.關聯規則:同步滿足最小支持度閾值和最小可信度閾值的規則稱之卷關聯規則。

四、綜合題

1.何謂數據挖掘?它有哪些方面的功能?

優大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中

的、人儼1事先不懂得的、但又是潛在有用的信息和知識的謾程稱懸數據挖掘。有

關的名稱有知識發JS、數據分析、數據融合、決策支持等。

數據挖掘的功能包括:概念描述、關聯分析、分類與預測、聚類分析、趨勢

分析、孤立黠分析以及偏差分析等。

2.何謂數據倉庫?卷何要建立數據倉庫?

數據倉庫是壹種新的數據處理體系構造,是面向主題的、集成的、不可更新

的(穩定性)、隨日寺間不停變化(不壹樣步間)的數據集合,卷企業決策支持系統提

供所需的集成信息。

建立數據倉庫的目的有3倜:

壹是卷了處理企業決策分析中的系統響應冏題,數據倉庫能提供比老式事務

數據庫更快的大規模決策分析的響應速度。

二是處理決策分析封數據的特殊需求冏題。決策分析需要全面的、封的的集

成數據,道是老式事務數據庫不能直接提供的。

三是處理決策分析封數據的特殊操作規定。決策分析是面向專'也顧客而非壹

般業務員,需要使用專業的分析工具,封分析成果遢要以商業智能的方式暹行體

現,道是事務數據庫不能提供的。

3.列舉操作型數據與分析型數據的重要區別。

操作型數據分析型數據

目前的、細節的歷史的、綜合的

面向應用、事務驅勒面向分析、分析驅勃

頻繁增、冊||、改幾乎不更新,定期追加

操作需求事先懂得分析需求事先不懂得

生命周期符合SDLC完全不壹樣的生命周期

封性能規定高封性能規定寬松

壹次操作數據量小壹次操作數據量大

支持平常事務操作支持管理決策需求

4.何謂OLTP和OLAP?它優的重要異同有哪些?

OLTP即聯機事務處理,是以老式數據庫卷基礎、面向操作人員和低層管理

人員、封基本數據迤行查詢和增、刪、改等的平常事務處理。OLAP即聯機分析

處理,是在OLTP基礎上發展起來的、以數據倉庫基礎上的、面向高層管理人員

和專業分析人員、卷企業決策支持服務。

OLTP和OI.AP的重要區別如下表:

OLTPOLAP

數據庫數據數據庫或數據倉庫數據

細節性數據綜合性數據

目前數據歷史數據

常常更新不更新,但周期性刷新

壹次性處理的數據量小壹次處理的數據量大

封響應畤間規定高響應畤間合理

顧客數量大顧客數據相封較少

面向操作人員,支持平常操作面向決策人員,支持管理需要

面向應用,事務驅助面向分析,分析驅勃

5.何謂粒度?它封數據倉庫有什么影響?按粒度組織數據的方式有哪些?

粒度是指數據倉庫的數據罩位中保留數據細化或綜合程度的級別。粒度影響

寄存在數據倉庫中的數據量的大小,同步影響數據倉庫所能回答查周詢題的細節

程度。按粒度組織數據的方式重要有:

①簡樸堆積構造

②輪轉綜合構造

③簡樸直接構造

④持續構造

6.簡述數據倉庫設計的三級模型及其基本內容。

概念模型設計是在較高的抽象層次上的設計,其重要內容包括:界定系統邊

界和確定重要的主題域。

邏輯模型設計的重要內容包括:分析主題域、確定粒度層次劃分、確定數據

分割方略、定義關系模式、定義記錄系統。

物理數據模型設計的重要內容包括:確定數據存儲構造、確定數據寄存位置、

確定存儲分派以及確定索引方略等。在物理數據模型設計畤重要考慮的原因有:

I/O存取畤間、空間運用率和維護代價等。

提高性能的重要措施有劃分粒度、數據分割、合并表、建立數據序列、引入

冗余、生成導出數據、建立廣義索引等。

7.在數據挖掘之前卷何要封原始數據暹行預處理?

原始業務數據來自多種數據庫或數據倉庫,它儼]的構造和規則也^是不壹樣

的,道將導致原始數據非常的雜亂、不可用,雖然在同壹種數據庫中,也也^存

在反復的和不完整的數據信息,卷了使道些數據可以符合數據挖掘的規定,提高

效率和得到清晰的成果,必須暹行數據的預處理。

卷數據挖掘算法提供完整、潔凈、精確、有針封性的數據,減少算法的計算

量,提高挖掘效率和精確程度。

8.簡述數據預處理措施和內容。

①數據清洗:包括填充空缺值,識別孤立鉆,去掉噪聲和輾關數據。

②數據集成:將多種數據源中的數據結合起來寄存在壹種壹致的數據存儲中。

需要注意不登樣數據源的數據匹配冏題、數值沖突冏題和冗余冏題等。

③數據變換:將原始數據轉換成卷適合數據挖掘的形式。包括封數據的匯幺恩、

匯集、概化、規范化,遢也考午需要迤行屬性的重構。

④數據歸約:縮小數據的取值范圍,使其更適合于數據挖掘算法的需要,并且

可以得到和原始數據相似的分析成果。

9.簡述數據清理的基本內容。

①盡量賦予屬性名和屬性值明確的含義;

②統壹多數據源的屬性值編碼;

③清除輾用的惟壹屬性或鍵值(如自勤增房的id);

④清除反復屬性(在某些分析中,年齡和出生曰期也言午就是反復的屬性,但在某

些日寺候它什,也言午又是同步需要的)

⑤消除可忽視字段(大部分^空值的屬性壹般是沒有什么價值的,假如不清除也

者午導致金音誤的數據挖掘成果)

?合理選擇關聯字段(封于多種關聯性較強的屬性,反復輾益,只需選擇其中的

部分用于數據挖掘即可,如價格、數據、金額)

⑦去掉數據中的噪音、填充空值、丟失值和處理不壹致數據。

10.簡述處理空缺值的措施。

①忽視該記錄;

②去掉屬性;

③手工填寫空缺值;

④使用默認值;

⑤使用屬性平均值;

⑥使用同類樣本平均值:

⑦預測最也^的值。

II.常見的分箱措施有哪些?數據平滑處理的措施有哪些?

分箱的措施重要有:

①統壹權重法(又稱等深分箱法)

②統壹區間法(又稱等寬分箱法)

③最小焙法

④自定義區間法

數據平滑的措施重要有:平均值法、邊界值法和中值法。

12.何謂數據規范化?規范化的措施有哪些?寫出封應的變換公式。

將數據按比例縮放(如更換大軍位),使之落入壹種特定的區域(如0.0?

1.0),稱卷規范化。規范化的常用措施有:

(1)最大一最小規范化:max-min,..

x=------------------(x—mui)+min

n0n

(maxf,-niin?)°

(2)零均值規范化:X-A

x=o------

W

(3)小數定襟規范化:^=V10"

13.數據歸約的措施有哪些?卷何要暹行維歸約?

①數據立方體匯集

②維歸約

③數據壓縮

④數值壓縮

⑤離散化和概念分層

維歸約可以去掉不重要的屬性,減少數據立方體的維數,優而減少數據挖掘

處理的數據量,提高挖掘效率。

14.何謂聚類?它與分類有什么異同?

聚類是將物理或抽象封象的集合分構成卷多種類或簇(cluster)的謾程,便

得在同壹種簇中的封象之間具有較高的相似度,而不壹樣簇中的封象差異較大。

聚類與分類不壹樣,聚類要劃分的類是未知的,分類則可按已知規則誕行;

聚類是壹種輾指導摯習,它不依賴預先定義的類和帶類襟號的訓練實例,屬于

觀測式摯習,分類則屬于有指導的學習,是示例式摯習。

15.舉例闡明聚類分析的^典應用。

①商、亞:協助市埸分析人員優客戶基本庫中發現不壹樣的客戶群,并且用不壹

樣的購置模式描述不壹樣客戶群的特性。

②生物孥:推導植物或勤物的分類,封基于迤行分類,獲得封種群中固有構造

的認識。

③跖?文檔分類

④其他:如地球觀測數據庫中相似地區確實定:各類保險投保人的分組:壹種

都市中不壹樣類型、價值、地理位置房子的分組等。

⑤聚類分析遢可作卷其他數據挖掘算法的預處理:即先暹行聚類,然彳爰再逛行

分類等其他的數據挖掘。聚類分析是壹種數據簡化技術,它把基于相似數據

特性的變量或他1案組合在壹起。

16.聚類分析中常見的數據類型有哪些?何謂相異度矩陣?它有什么特鉆?

常見數據類型有區間襟度變量、比例襟度型變量、二元變量、檄稱型、序教

型以及混合類型等。相異度矩陣是用于存儲所有封象兩兩之間相異度的矩陣,

壹種nn維的軍模矩陣。其特黠是d(i,j)=d(j,i),d(i,i)=0,d(j,j)=0o如下

所示:

-0'

(1(2,1)0

d(3,l)d(3,2)0

????

■?????

d(n,l)d(n,2)..........0

17.分類知識的發現措施重要有哪些?分類謾程壹般包括哪兩fel環節?

分類規則的挖掘措施壹般有:決策樹法、貝葉斯法、人工神^網絡法、粗

糙集法和遺傳算法。分類的謾程包括2步:首先在已知訓練數據集上,根據屬

性特性,卷每壹種類別找到壹種合理的描述或模型,即分類規則:然彳為根據規

則封新數據暹行分類。

18.什么是決策樹?怎樣用決策樹迤行分類?

決策樹是用樣本的屬性作卷結粘;用屬性的取值作卷分支的樹構造。它是

運用信息論原理封大量樣本的屬性暹行分析和歸納而產生的。決策樹的根幺吉鉆

是所有樣本中信息量最大的屬性。樹的中間結黠是以該幺吉黠卷根的子樹所包括

的樣本子集中信息量最大的屬性。決策樹的葉東吉貼是樣本的類別值。

決策樹用于封新樣本的分類,即通遇決策樹封新樣本屬性值的測試,優樹

的根結始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到樹的葉結黠,

該葉結,粘表達的類別就是新樣本的類別。決策樹措施是數據挖掘中非常有效的

分類措施.

19.簡述ID3算法的基本思想及其主算法的基本環節。

首先找出最有鑒別力的原因,然彳爰把數據提成多種子集,每他子集又選擇

最有鑒別力的原因深入劃分,壹直暹行到所有子集僅包括同壹類型的數據卷止。

最終得到壹棵決策樹,可以用它來封新的樣例迤行分類。

主算法包括如下幾步:

①優訓練集中隨機選擇壹種既含正例又含反例的子集(稱卷窗口);

②用“建樹算法”封目前窗口形成宜棵決策樹;

③封訓練集(窗口除外)中例子用所得決策樹迤行類別鑒定,找出貧昔判的例

子;

④若存在金昔判的例子,把它件號插入窗口,反復環節②,否則結束。

20.簡述ID3算法的基本思想及其建樹算法的基本環節。

首先找出最有鑒別力的原因,然彼把數據提成多種子集,每倜子集又選擇

最有鑒別力的原因淡入劃分,壹直暹行到所有子集僅包括同壹類型的數據懸止。

最終得到壹棵決策樹,可以用它來封新的樣例暹行分類。

建樹算法的詳細環節如下:

①封目前例子集合,計算各特性的互信息;

②選擇互信息最大的特性A』

③把在Ak處取值相似的例子歸于同壹子集,Ak取幾種值就得兒種子集;

④封既含正例又含反例的子集,遞歸調用建樹算法;

⑤若子集僅含五例或反例,封應分枝楝上P或N,返回調用處。

21.設某事務項集構成如下表,填空完畢其中支持度和置信度的計算。

事務ID項集L2支持度為規則置信度先

T1A,CA,B33.3A-*B50

T2D,EA,C33.3C~A60

T3A,C,EA,D44.4A-D66.7

T4A,B,C,EB,D33.3B-D75

T5A,B,CC,D33.3C-D60

T6A,B,I)D,E33.3D-E43

T7A,C,1)??????

T8C,D,E

T9B,C,D

22.彳史信息處理角度看,神^元具有哪些基本特性?寫出描述神^元狀態的M-P方

程并闡明其含義。

基本特性:①多輸入、罩輸出;②突觸兼有興奮和克制兩種性能;③可畤間加

權和空間加權;④可產生脈沖;⑤脈沖可迤行傳遞;⑥非線性,有

閾值。

M-P方程:3萬/(2叱戶廠4),心是神^元之間的連接強度,斗是閾值,

j

f(x)是階梯函數。

23.遺傳算法與老式尋優算法相比有什么特黠?

①遺傳算法卷群體搜索,有助于尋找到全局最優解;

②遺傳算法采用高效有方向的隨機搜索,搜索效率高;

③遺傳算法處理的封象是他體而不是參變量,具有廣泛的應用領域;

④遺傳算法使用適應值信息評估f0體,不需要導數或其他輔助信息-運算速

度快,適應性好;

⑤遺傳算法具有隱含并行性,具有更高的運行效率。

24.寫出非封稱二元變量相異度計算公式(即jaccard系數),并計算下表中各封象

間的相異度。

項目

test-1test-2test-3test-4test-5test-6

OBJ1YNPNNN

OBJ2YNPNPN

OBJ3NYNYNN

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論