《數(shù)據(jù)挖掘概論》期末考試復(fù)習(xí)題庫(含答案)_第1頁
《數(shù)據(jù)挖掘概論》期末考試復(fù)習(xí)題庫(含答案)_第2頁
《數(shù)據(jù)挖掘概論》期末考試復(fù)習(xí)題庫(含答案)_第3頁
《數(shù)據(jù)挖掘概論》期末考試復(fù)習(xí)題庫(含答案)_第4頁
《數(shù)據(jù)挖掘概論》期末考試復(fù)習(xí)題庫(含答案)_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGEPAGE1《數(shù)據(jù)挖掘概論》終結(jié)性考試復(fù)習(xí)題庫(含答案)一、單選題1.()是為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性算法。它逐層進(jìn)行挖掘,利用先驗(yàn)性質(zhì):頻繁項(xiàng)集的所有非空子集也都是頻繁的。A、priori算法B、頻繁模式增長算法C、使用垂直數(shù)據(jù)格式的算法D、knn算法答案:A2.假設(shè)12個(gè)銷售價(jià)格記錄組已排序如下:5,10,11,13,15,35,50,55,72,92,204,215,等頻(等深)劃分時(shí),15在第()個(gè)箱子內(nèi)。A、第一B、第二C、第三D、第四答案:B3.C1:2;C2:4,該分類的信息熵為()。A、1B、0C、0.65D、0.92答案:D解析:二、多項(xiàng)選擇題(下列每小題的備選答案中,有兩個(gè)或兩個(gè)以上符合題意的正確答案)4.()將兩個(gè)簇的鄰近度定義為不同簇的所有點(diǎn)對(duì)的平均逐對(duì)鄰近度,它是一種凝聚層次聚類技術(shù)。A、MIN(單鏈)B、MAX(全鏈)C、組平均D、Ward方法答案:C5.()數(shù)據(jù)庫中每個(gè)記錄代表一個(gè)事務(wù),如顧客的一次購物、一個(gè)航班訂票等。A、事務(wù)B、關(guān)系C、數(shù)據(jù)倉庫D、空間答案:A6.使用簇內(nèi)方差和關(guān)于簇?cái)?shù)的曲線拐點(diǎn)來估計(jì)簇?cái)?shù)的方法為()。A、經(jīng)驗(yàn)方法B、肘方法C、交叉驗(yàn)證D、以上都不是答案:B7.對(duì)于以下項(xiàng)集:{A,B};{A,C,D,E};{B,C,D,F};{A,B,C,D},{A,B,C,F}。其中,{A,C}→{A,B,C}的置信度為()。A、2/5B、3/5C、3/2D、2/3答案:D8.()屬于一種數(shù)據(jù)倉庫技術(shù),具有匯總、合并和聚集以及從不同的角度觀察信息的能力。A、數(shù)據(jù)清理B、數(shù)據(jù)集成C、聯(lián)機(jī)事務(wù)處理D、聯(lián)機(jī)分析處理答案:D9.KDD是指()。A、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)B、領(lǐng)域知識(shí)發(fā)現(xiàn)C、文檔知識(shí)發(fā)現(xiàn)D、動(dòng)態(tài)知識(shí)發(fā)現(xiàn)答案:A10.()屬性的值用固定、相等的單位測(cè)量。A、標(biāo)稱B、二元C、區(qū)間標(biāo)度D、比率標(biāo)度答案:C11.設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生()個(gè)關(guān)聯(lián)規(guī)則。A、4B、5C、6D、7答案:C12.現(xiàn)實(shí)生活中,顧客傾向于先購買相機(jī),再購買內(nèi)存卡,再購買其他配件,這樣的模式就是一個(gè)()模式。A、頻繁子序列B、頻繁項(xiàng)集C、頻繁子結(jié)構(gòu)D、頻繁規(guī)則答案:A13.假設(shè)12個(gè)銷售價(jià)格記錄組已排序如下:5,10,11,13,15,35,50,55,72,92,204,215,這組數(shù)據(jù)的中列數(shù)是()。A、42.5B、105C、210D、81答案:B14.假設(shè)屬性ine的最大最小值分別是12000元和98000元,利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi),對(duì)屬性ine的73600元將轉(zhuǎn)化為()。A、0.821B、1.224C、1.458D、0.716答案:D15.敏感度的公式為()。A、(TP+TN)/(P+N)B、(FP+FN)/(P+N)C、TP/PD、TN/N答案:C16.數(shù)據(jù)對(duì)象(1,2)和(3,5)之間的曼哈頓距離是()。A、5B、3.16C、3D、2答案:A17.以下選項(xiàng)中,不能作為判斷數(shù)據(jù)挖掘模式有趣的依據(jù)是()。A、在某種確信度上,對(duì)于新的或檢驗(yàn)數(shù)據(jù)是有效的B、新穎C、潛在有用D、不易被人理解答案:D18.數(shù)據(jù)挖掘是商務(wù)智能的核心,在現(xiàn)實(shí)生活中,()技術(shù)可以更好地理解每組顧客的特征,并開發(fā)定制顧客獎(jiǎng)勵(lì)計(jì)劃。A、聚類B、聯(lián)機(jī)分析處理C、特征挖掘D、預(yù)測(cè)答案:B19.因變量總的波動(dòng)中不能通過回歸模型解釋的部分是()。A、離差平方和B、回歸平方和C、殘差平方和D、R2答案:C20.以下選項(xiàng)中,不屬于數(shù)據(jù)預(yù)處理方法的是()。A、變量代換B、離散化C、集成D、估計(jì)遺漏值答案:D21.DBSCAN在最壞情況下的時(shí)間復(fù)雜度是()。A、O(m)B、O(m2)C、O(logm)D、O(m*logm)答案:B22.霍普金斯統(tǒng)計(jì)量的值接近0.5,表明數(shù)據(jù)分布為()。A、均勻分布B、高度左傾斜C、高度右傾斜D、不確定答案:A23.在數(shù)據(jù)集成期間,當(dāng)一個(gè)數(shù)據(jù)庫的屬性與另一個(gè)數(shù)據(jù)庫的屬性匹配時(shí),必須特別注意()。A、數(shù)據(jù)的規(guī)模B、數(shù)據(jù)的結(jié)構(gòu)C、數(shù)據(jù)的傳輸速度D、數(shù)據(jù)的價(jià)值答案:B24.SVM通過搜索()來處理該問題。A、最小邊緣超平面B、最大邊緣超平面C、橫截面D、支持向量答案:B25.數(shù)量歸約方法使用參數(shù)或非參數(shù)模型,下列選項(xiàng)中不屬于非參數(shù)模型方法的是()。A、對(duì)數(shù)線性模型B、直方圖C、聚類D、數(shù)據(jù)立方體聚集答案:A26.在決策樹中,()表示該測(cè)試的一個(gè)輸出。A、根結(jié)點(diǎn)B、分支C、內(nèi)部結(jié)點(diǎn)D、樹葉結(jié)點(diǎn)答案:D27.()可以用來把數(shù)據(jù)壓縮到較小的區(qū)間,例如0.0到1.0。A、數(shù)據(jù)集成B、數(shù)據(jù)歸約C、數(shù)據(jù)變換D、數(shù)據(jù)清理答案:C28.q-分位數(shù)共有數(shù)據(jù)點(diǎn)()個(gè)。A、q+1B、qC、q-1D、3答案:C29.()是找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)號(hào)未知對(duì)象的類標(biāo)號(hào)的過程。A、回歸B、聚類C、數(shù)據(jù)分類D、關(guān)聯(lián)規(guī)則答案:B30.同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為()。A、強(qiáng)規(guī)則B、弱規(guī)則C、關(guān)聯(lián)規(guī)則D、頻繁項(xiàng)集答案:A31.

YouareconfiguringaMicrosoftPowerBIdatamodeltoenableuserstoasknaturallanguagequestionsbyusingQ&A.

YouhaveatablenamedCustomerthathasthefollowingmeasure.CustomerCount=DISTINCTCOUNT(Customer[CustomerID])Usersfrequentlyrefertocustomersassubscribers.

Youneedtoensurethattheuserscangetausefulresultfor"subscribercount"byusingQ&A.Thesolutionmustminimizethesizeofthemodel.

Whatshouldyoudo?A、SetSummarizeBytoNonefortheCustomerIDcolumn.B、Addasynonymof"subscriber"totheCustomertable.C、Addasynonymof"subscriberID"totheCustomerIDcolumn.D、Addadescriptionof"subscribercount"totheCustomerCountmeasure.答案:B解析:

章節(jié):Topic2-QuestionSet232.以下聚類算法不屬于基于原型聚類方法的是()。A、模糊c均值B、EM算法C、SOMD、CLIQUE答案:D多選題1.數(shù)據(jù)集成可能產(chǎn)生的問題有()。A、屬性冗余B、元組沖突C、數(shù)據(jù)值沖突D、屬性值缺失答案:ABC解析:三、判斷題2.Apriori算法的計(jì)算復(fù)雜度受()影響。A、支持度閥值B、項(xiàng)數(shù)(維度)C、事務(wù)數(shù)D、事務(wù)平均寬度答案:ABCD3.歐幾里得距離具備的數(shù)學(xué)性質(zhì)有()。A、同一性B、非負(fù)性C、連續(xù)性D、滿足三角不等式答案:ABD4.以下方法采用的是貪心方法的有()。A、ID3B、C4.5C、ARTD、BSCAN答案:ABC5.數(shù)據(jù)分類是一個(gè)兩階段過程,包括()。A、學(xué)習(xí)階段B、分類階段C、抽樣階段D、聚合階段答案:AB6.聚類評(píng)估的外部指標(biāo)包括()。A、DBI指數(shù)B、Jaccard系數(shù)C、rand指數(shù)D、輪廓系數(shù)答案:BC7.組合方法可以通過學(xué)習(xí)和組合一系列個(gè)體(基)分類器模型提高總體準(zhǔn)確率。以下屬于組合方法的有()。A、裝袋B、提升C、隨機(jī)森林D、支持向量機(jī)答案:ABC8.可以應(yīng)用()來檢測(cè)數(shù)值屬性的冗余數(shù)據(jù)。A、卡方檢驗(yàn)B、相關(guān)系數(shù)C、協(xié)方差D、非參數(shù)檢驗(yàn)答案:BC9.盒圖中可以觀察到的指標(biāo)有()。A、方差B、四分位數(shù)C、最小值D、眾數(shù)答案:BC10.數(shù)據(jù)變換的方法包括()。A、平滑B、屬性構(gòu)造C、聚集D、規(guī)范化答案:ABCD11.對(duì)于頻繁項(xiàng)集挖掘,已經(jīng)開發(fā)了許多有效的、可伸縮的算法,由它們可以導(dǎo)出關(guān)聯(lián)和相關(guān)規(guī)則。這些算法可以分成()。A、類Apriori算法B、基于頻繁模式增長的算法C、使用垂直數(shù)據(jù)格式的算法D、使用水平數(shù)據(jù)格式的算法答案:ABC12.屬于分裂的層次聚類算法有()。A、二分K均值B、MSTC、hameleonD、組平均答案:AB13.K近鄰分類的核心問題包括()。A、K值的確定B、距離的計(jì)算C、快速預(yù)測(cè)D、最大邊緣答案:ABC14.可靠的分類器準(zhǔn)確率估計(jì)方法有()。A、保持方法B、隨機(jī)二次抽樣C、交叉驗(yàn)證D、自助法答案:ABCD15.聯(lián)機(jī)分析處理的操作包括()。A、鉆取B、上卷C、切塊D、旋轉(zhuǎn)答案:ABCD16.數(shù)值屬性相異性的測(cè)度指標(biāo)有()。A、閔可夫斯基距離B、曼哈頓距離C、歐幾里得距離D、上確界距離答案:ABCD17.以下屬于分類屬性選擇度量的有()。A、信息增益B、增益率C、基尼指數(shù)D、k-means答案:ABC18.多重共線性的解決方法有()。A、嶺回歸B、LassoC、主成分回歸D、偏最小二乘法答案:ABCD19.對(duì)于數(shù)據(jù)挖掘中的原始數(shù)據(jù),存在的問題有()。A、不一致B、重復(fù)C、完整性D、維度高答案:ABD20.電影推薦系統(tǒng)是包含()的應(yīng)用實(shí)例。A、分類B、聚類C、回歸D、判別答案:AB21.關(guān)于DBSCAN聚類算法的描述不正確的有()。A、集群中的數(shù)據(jù)點(diǎn)必須處于到核心點(diǎn)的距離閾限內(nèi)B、它對(duì)數(shù)據(jù)空間中數(shù)據(jù)點(diǎn)的分布有很強(qiáng)的假設(shè)C、它具有相當(dāng)高的時(shí)間復(fù)雜度O(n3)D、它不需要預(yù)先知道期望出現(xiàn)的簇的數(shù)量答案:BC22.在挖掘過程中,一旦識(shí)別閉項(xiàng)集就盡快對(duì)搜索空間進(jìn)行剪枝。其中,剪枝包括()策略。A、項(xiàng)合并B、抽樣C、子項(xiàng)集剪枝D、項(xiàng)跳過答案:ACD23.下列屬于時(shí)間相關(guān)或序列數(shù)據(jù)的有()。A、歷史記錄B、股票交易數(shù)據(jù)C、時(shí)間序列D、生物學(xué)序列答案:ABCD24.數(shù)據(jù)歸約中,參數(shù)方法包括()。A、回歸B、聚類C、對(duì)數(shù)-線性模型D、抽樣答案:AC25.決策樹中包括()結(jié)點(diǎn)。A、根結(jié)點(diǎn)B、內(nèi)部結(jié)點(diǎn)C、外部結(jié)點(diǎn)D、樹葉結(jié)點(diǎn)答案:ABD26.利用Apriori算法計(jì)算頻繁項(xiàng)集可以有效降低計(jì)算頻繁集的時(shí)間復(fù)雜度。在以下的購物籃中產(chǎn)生支持度不小于3的候選3-項(xiàng)集,在候選2-項(xiàng)集中需要剪枝的有()。ID項(xiàng)集1面包、牛奶2面包、尿布、啤酒、雞蛋3牛奶、尿布、啤酒、可樂4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可樂。A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶答案:BD27.度量數(shù)據(jù)散布的度量有()。A、極差B、中列數(shù)C、方差D、標(biāo)準(zhǔn)差答案:ABCD28.K近鄰分類的距離計(jì)算方法有()。A、歐式距離B、曼哈頓距離C、馬氏距離D、海明距離答案:ABCD29.數(shù)據(jù)平滑的方法主要有()。A、平均值法B、邊界值法C、最小熵法D、中值法答案:ABD30.樸素貝葉斯分類方法可以用于()。A、新聞分類B、情感分類C、疾病分類D、垃圾郵件分類答案:ABCD31.支持向量機(jī)使用()發(fā)現(xiàn)超平面。A、支持向量B、邊緣C、距離D、檢驗(yàn)元祖答案:AB32.抽樣可以作為一種數(shù)據(jù)歸約技術(shù)使用,因?yàn)樗试S用數(shù)據(jù)的小得多的隨機(jī)樣本(子集)表示大型數(shù)據(jù)集。假定大型數(shù)據(jù)集D包含N個(gè)元組。那么下述可以用于數(shù)據(jù)歸約的、最常用的對(duì)D的抽樣方法有()。A、無放回簡單隨機(jī)抽樣B、有放回簡單隨機(jī)抽樣C、簇抽樣D、分層抽樣答案:ABCD33.單模矩陣有()。A、詞向量矩陣B、數(shù)據(jù)矩陣C、相異性矩陣D、相關(guān)系數(shù)矩陣答案:CD判斷題1.最佳分離超平面上的點(diǎn)稱為支持向量。()A、正確B、錯(cuò)誤答案:B2.聚類形成簇的主題一定是互斥的。()A、正確B、錯(cuò)誤答案:B3.中位數(shù)是數(shù)據(jù)中心趨勢(shì)的度量。()A、正確B、錯(cuò)誤答案:A4.回歸是一種常見的處理噪聲數(shù)據(jù)的方法。()A、正確B、錯(cuò)誤答案:A5.強(qiáng)規(guī)則一定是有趣的。()四、簡答題A、正確B、錯(cuò)誤答案:B6.負(fù)傾斜的數(shù)據(jù)中,眾數(shù)<中位數(shù)><均值。()<body></均值。(></中位數(shù)>A、正確B、錯(cuò)誤答案:B7.數(shù)據(jù)庫的行對(duì)應(yīng)于數(shù)據(jù)屬性,列對(duì)應(yīng)于數(shù)據(jù)對(duì)象。()A、正確B、錯(cuò)誤答案:B8.k-均值是一種產(chǎn)生劃分聚類的基于密度的聚類算法,簇的個(gè)數(shù)由算法自動(dòng)地確定。()A、正確B、錯(cuò)誤答案:B9.數(shù)據(jù)挖掘把大型的數(shù)據(jù)集轉(zhuǎn)換成知識(shí)。()A、正確B、錯(cuò)誤答案:A10.ROC曲線下方的面積是模型準(zhǔn)確率的度量,面積越接近于0.5,模型準(zhǔn)確率越高。()A、正確B、錯(cuò)誤答案:B11.閔可夫斯基距離是歐幾里得距離和曼哈頓距離的推廣。()A、正確B、錯(cuò)誤答案:A12.對(duì)于二維數(shù)據(jù),SVM需要找到一條最好的分離直線,使分類誤差最小。()A、正確B、錯(cuò)誤答案:A13.分類和回歸都可用于預(yù)測(cè),分類的輸出是離散的類別值,而回歸的輸出是連續(xù)數(shù)值。()A、正確B、錯(cuò)誤答案:A14.相關(guān)分析可以用來檢測(cè)屬性冗余問題。()A、正確B、錯(cuò)誤答案:A15.提升度的值等于零表明兩個(gè)項(xiàng)不相關(guān)。()A、正確B、錯(cuò)誤答案:A16.在決策樹中,頂層節(jié)點(diǎn)是樹葉節(jié)點(diǎn)。()A、正確B、錯(cuò)誤答案:B17.具有較高的支持度的項(xiàng)集具有較高的置信度。()A、正確B、錯(cuò)誤答案:B18.余弦度量是兩個(gè)與A和B相關(guān)的關(guān)聯(lián)規(guī)則“AeB”和“BeA”的幾何平均置信度。()A、正確B、錯(cuò)誤答案:A19.定量屬性可以是整數(shù)數(shù)值或者連續(xù)值。()A、正確B、錯(cuò)誤答案:A20.利用先驗(yàn)原理可以幫助減少頻繁項(xiàng)集產(chǎn)生時(shí)需要探查的候選項(xiàng)個(gè)數(shù)。()A、正確B、錯(cuò)誤答案:A21.一個(gè)數(shù)據(jù)序列只能一個(gè)眾數(shù)。()A、正確B、錯(cuò)誤答案:B填空題(總共6題)1.下面的相依表匯總了超市的事務(wù)數(shù)據(jù)。其中hotdogs表示包含熱狗的事務(wù),hotdogs表示不包含熱狗的事務(wù),hamburgers表示包含漢堡的事務(wù),hamburgers表示不包含漢堡的事務(wù)。hotdogshotdogs∑hamburgers20005002500hamburgers100015002500∑300020005000問題:()假設(shè)挖掘了關(guān)聯(lián)規(guī)則“hotdogs?hamburgers”。給定最小支持度閾值25%,最小置信度閾值50%,該關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則嗎?()根據(jù)給定數(shù)據(jù),買hotdogs獨(dú)立于買hamburgers嗎?兩者存在何種相關(guān)聯(lián)系?()在給定數(shù)據(jù)上,計(jì)算全置信度、最大置信度、Kulczynski置信度和余弦度量?()根據(jù)給定的支持度和置信度閾值,該關(guān)聯(lián)規(guī)則為強(qiáng)規(guī)則。()兩者不獨(dú)立,呈正相關(guān)關(guān)系。()答案:1|2|3|1|2|32.在決策樹分類中,依據(jù)分裂規(guī)則的不同提出了不同決策樹算法,信息增益準(zhǔn)則在ID3分類方法中采用。我們希望能夠?qū)W習(xí)出一個(gè)貸款申請(qǐng)的決策樹,當(dāng)新的客戶提申請(qǐng)貸款時(shí),根據(jù)申請(qǐng)人的特征利用決策樹決定是否批準(zhǔn)申請(qǐng)貸款。請(qǐng)完成如下的計(jì)算。ID年齡有工作有自己的房子信貸情況是否批準(zhǔn)貸款申請(qǐng)1青年否否一般否2青年否否好否3青年是否好是4青年是是一般是5青年否否一般否6中年否否一般否7中年否否好否8中年是是好是9中年否是非常好是10中年否是非常好是11老年否是非常好是12老年否是好是13老年是否好是14老年是否非常好是15老年否否一般否()假設(shè)目前在根節(jié)點(diǎn),包含所有15個(gè)樣本點(diǎn),請(qǐng)計(jì)算根節(jié)點(diǎn)分類所需的期望信息?()計(jì)算“年齡”、“有工作”、“有自己的房子”、“信貸情況”四個(gè)屬性的信息增益。()說明基于信息增益準(zhǔn)則,應(yīng)該選擇什么屬性作為分裂屬性。應(yīng)該選擇“有自己的房子”的信息增益最大,因此作為分類屬性。答案:1|2|33.下表中給出某些地區(qū)常住人的年均收入和某商品的銷售量。年均收入()銷售量()XY610081245766.5987.51303.63091206.31054.5668.3125()繪制數(shù)據(jù)的散點(diǎn)圖。X和Y看上去具有線性聯(lián)系嗎?()使用最小二乘回歸求解出年均收入預(yù)測(cè)銷售量的方程式。()預(yù)測(cè)年均收入為10萬元的商品銷售量。()看上去具有線性關(guān)系。答案:萬元|件|1|2|3|14.考慮下表的數(shù)據(jù)集,請(qǐng)完成以下問題:記錄號(hào)ABC類1000+2101-3101-4010-5001+6101+7110-8001-9010+10101+()估計(jì)條件概率P(A|+),P(B|+),P(C|+),P(A|?),P(B|?),P(C|?)。()根據(jù)()中的條件概率,使用樸素貝葉斯方法預(yù)測(cè)測(cè)試樣本()的類標(biāo)號(hào)。因此,類標(biāo)號(hào)為“-”。答案:1|2|1|A=1,B=1,C=15.假設(shè)我們對(duì)購買計(jì)算機(jī)游戲和錄像帶的事務(wù)感興趣。設(shè)game表示包含計(jì)算機(jī)游戲的事務(wù),而video表示包含錄像的事務(wù)。在所分析的1000個(gè)事務(wù)中,數(shù)據(jù)顯示有600個(gè)顧客事務(wù)包含計(jì)算機(jī)游戲,750個(gè)事務(wù)包含錄像,而400個(gè)事務(wù)同時(shí)包含計(jì)算機(jī)游戲和錄像。假設(shè)發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘程序在該數(shù)據(jù)上運(yùn)行,對(duì)如下關(guān)聯(lián)規(guī)則:Buys()→Buys()計(jì)算支持度、置信度和提升度。答案:X,“游戲”|X,“錄像”6.給定兩個(gè)元組(22,1,42,10)和(20,0,36,8)表示的對(duì)象。()計(jì)算這兩個(gè)對(duì)象之間的歐幾里得距離,曼哈頓距離和上確界距離。()分別計(jì)算這兩個(gè)對(duì)象的L3范數(shù)和兩個(gè)對(duì)象的余弦相似性。答案:1|2簡答題1.簡述數(shù)據(jù)倉庫的特點(diǎn)。答案:(1)主題與面向主題;(2)數(shù)據(jù)的集成性;(3)數(shù)據(jù)的不可更新性;(4)數(shù)據(jù)的時(shí)態(tài)性。2.數(shù)據(jù)質(zhì)量可以從哪幾個(gè)方面進(jìn)行評(píng)估?答案:(1)準(zhǔn)確性;(2)完整性;(3)一致性;(4)時(shí)效性;(5)可信性;(6)可解釋性。3.常見的數(shù)量歸約方法有哪些?答案:(1)參數(shù)方法:回歸和對(duì)數(shù)-線性模型;(2)非參數(shù)方法:直方圖、聚類、抽樣、數(shù)據(jù)立方體聚集。4.多重共線性的解決辦法有哪些?答案:(1)嶺回歸;(2)Lasso;(3)主成分回歸;(4)偏最小二乘回歸。5.簡述凝聚的層次方法的聚類質(zhì)量改進(jìn)方法,并對(duì)每種方法舉出一個(gè)實(shí)例。答案:分析每個(gè)層次劃分中的對(duì)象連接,例如Chameleon;在微簇聚類的基礎(chǔ)上結(jié)合其他聚類技術(shù),例如BIRCH。6.決策樹算法的屬性選擇度量方法有哪些?答案:(1)信息增益;(2)信息增益率;(3)GINI指數(shù)。7.簡述k-均值聚類方法的缺點(diǎn)。五、計(jì)算題答案:(1)必須實(shí)現(xiàn)誒出要生成的簇?cái)?shù);(2)不適于發(fā)現(xiàn)非凸形狀的簇,或大小差別很大的簇;(3)對(duì)噪聲和離群點(diǎn)敏感。8.簡述數(shù)據(jù)變換采用的幾種策略。答案:(1)光滑;(2)屬性構(gòu)造;(3)聚集;(4)規(guī)范化;(5)離散化;(6)由標(biāo)稱數(shù)據(jù)產(chǎn)生概念分層。9.簡述三種描述數(shù)據(jù)散布的統(tǒng)計(jì)量及其計(jì)算方法。答案:極差:觀測(cè)值最大值與最小值之間的差;方差:觀測(cè)值與平均數(shù)差的平方的平均值;標(biāo)準(zhǔn)差:方差的算術(shù)平方根;中列數(shù):觀測(cè)值最大值與最小值的平均值;四分位數(shù)極差:第三個(gè)四分位數(shù)與第一個(gè)四分位數(shù)之間的差。10.簡述分類與回歸的區(qū)別。答案:分類是找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型對(duì)未知類標(biāo)號(hào)的樣例進(jìn)行預(yù)測(cè);回歸主要是建立連續(xù)值的函數(shù)模型,回歸主要用來預(yù)測(cè)缺失的或難以獲得的數(shù)值數(shù)據(jù)值,而不是離散的類標(biāo)號(hào),同時(shí)回歸也包含基于可用數(shù)據(jù)的分布趨勢(shì)識(shí)別。11.簡述支持向量機(jī)的基本思想。答案:SVM算法即尋找一個(gè)分類器使得超平面和最近的數(shù)據(jù)點(diǎn)之間的分類邊緣(超平面和最近的數(shù)據(jù)點(diǎn)之間的間隔被稱為分類邊緣)最大,對(duì)于SVM算法通常認(rèn)為分類邊緣越大,平面越優(yōu),通常定義具有“最大間隔”的決策面就是SVM要尋找的最優(yōu)解。并且最優(yōu)解對(duì)應(yīng)兩側(cè)虛線要穿過的樣本點(diǎn),稱為“支持向量”。其處理的基本思路為:把問題轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題,可以用運(yùn)籌學(xué)有關(guān)思想進(jìn)行求解:1目標(biāo)函數(shù)在線性SVM算法中,目標(biāo)函數(shù)顯然就是那個(gè)"分類間隔",使分類間隔最大2約束條件即決策面,通常需要滿足三個(gè)條件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論