數據倉庫與數據挖掘試題_第1頁
數據倉庫與數據挖掘試題_第2頁
數據倉庫與數據挖掘試題_第3頁
數據倉庫與數據挖掘試題_第4頁
數據倉庫與數據挖掘試題_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

《數據庫房與數據挖掘試題》一、判斷題(每題1分,計30分,答題時每5個答案寫在一同)數據庫作為數據資源用于管理業務中的信息解析辦理。(X)數據庫的查問不是指對記錄級數據的查問,而是指對解析要求的查問。(X)關系數據庫是二維數據(平面),多維數據庫是空間立體數據。(v)數據進入數據庫房以前,一定經過加工與集成。(V)OLAP使用的是目前數據;OLTP使用的是歷史數據。(V)對數據庫房操作不明確,操作數據量少。(X)數據市集實現難度超出數據庫房。(X)OLAP使用的數據經常更新;OLTP使用的數據不更新,但周期性刷新。(X)數據市集可升級到完好的數據庫房。(V)數據庫中寄存的數據基本上是保留目前綜合數據。(X)OLAP可以應解析人員的要求迅速、靈巧地進行大數據量的復雜辦理。(V)OLAP支持復雜的決議解析操作,重視對解析人員和高層管理人員的決議支持。(V)OLTP的事務辦理量大,辦理內容比較簡單但重復率高。(V)數據庫房的用戶有兩類:信息使用者和探究者。(V)對數據庫的操作比較明確,操作數據量大。(X)數據庫用于事務辦理,數據庫房用于決議解析。(V)信息使用者以一種可展望的、重發性的方式使用數據庫房平臺。(V)OLAP一次辦理的數據量大;OLTP一次性辦理的數據量小。(V)OLTP每次操作的數據量不大且多為目前的數據。(V)數據庫房系統由數據庫房(DW)、庫房管理和解析工具三部分組成。(V)隨著業務的變化,數據庫房中的數據會隨時更新。(X)數據市集的規模比數據庫房更大。(X)數據市集擁有更詳盡的、早先儲蓄在數據庫房的數據。(V)不同樣維值的組合及其對應的胸懷值組成了不同樣的查問和解析。(V)OLAP使用細節性數據,OLTP使用綜合性數據。(X)數據市集由公司管理和保護。(X)OLAP的觀點模型是多維的。(V)數據庫已經成為了成熟的信息基礎設備。(V)數據庫既保留過去的數據又保留目前的數據。(X)OLTP面對的是事務辦理操作人員和低層管理人員。(V)二、填空題(每題1分,計10分)1.信息使用者平時查察歸納數據或齊集數。2.探究者的任務是找尋公司數據內隱含的價值。3.數據立方體是在全部可能組合的維進步行分組齊集計算的總和。4.基本的多維數據解析操作包含切片切塊、旋轉、鉆取等。5.數據立方體的建立和保護等計算方法成為了多維數據解析研究的要點問題。6.OLAP是建立在網絡上的開發系統構造。7.在數據立方體中,不同樣維度組合組成了不同樣的子立方體。8.不同樣的數據庫房需要建立不同樣的數據庫。9.ETL是建立數據庫房的重要步驟,需要花銷開發數據庫房70%的工作量。數據庫房的數據是綜合的集成。三、名詞解說(每題5分,計30分)1、數據市集4、元數據2、數據挖掘5、知識發現3、商業智能6、數據庫房1,數據市集(DataMarts)是一種更小、更集中的數據庫房,為公司供給分析商業數據的一條低價門路。DataMarts是指擁有特定應用的數據庫房,主要針對某個應用或許詳盡部門級的應用,支持用戶獲取競爭優勢或許找到進入新市場的詳盡解決方案。4,元數據(metadata)定義為對于數據的數據(dataaboutdata),即元數據描繪了數據庫房的數據和環境。2,數據挖掘(DM):KDD過程中的一個特定步驟,它用特意算法從數據中抽取知識。3,商業智能以數據庫房為基礎,經過聯機解析辦理和數據挖掘技術幫助公司領導者針對市場變化的環境,做出迅速、正確的決議。5,知識發現(KDD):從數據中發現實用知識的整個過程。6,數據庫房是決議支持系統(dss)和聯機解析應用數據源的構造化數據環境。數據庫房研究和解決從數據庫中獲守信息的問題。數據庫房的特色在于面向主題、集成性、牢固性和時變性。四、簡答題(每題5分,計30分)簡述數據庫房與數據挖掘的關系?數據庫房與數據挖掘都是決議支持新技術。但它們有著完好不同樣的協助決議方式。在數據庫房系統的前端的解析工具中,數據挖掘是此中重要工具之一。它可以幫助決議用戶挖掘數據庫房的數據中隱含的規律性。比較統計學與數據挖掘的異同?統計學主假如對數目數據(數值)或連續值數據(如年紀、薪資等),進行數值計算(如初等運算)的定量解析,獲取數目信息。數據挖掘主要對失散數據(如職稱、病癥等)進行定性解析(覆蓋、歸納等),獲取規則知識。統計學與數據挖掘是有區其余。可是,它們之間是相互增補的。3.比較OLAP的數據模型MOLAP與ROLAP?MOLAP是早先生成多維立方體,供此后查問解析用,而ROLAP是經過動向的生成Sql,去做查問關系型數據庫,假如沒有做性能優化,數據量很大的時候,性能問題就會顯得比較突出了。ROLAP

MOLAP

比較ROLAP

MOLAP沿用現有的關系數據庫的技術

專為

OLAP所設計響應速度比MOLAP慢;現相關系型數據庫已經對OLAP做了好多優化,包含并行儲蓄、性能好、響應速度快并行查問、并行數據管理、鑒于成本的查問優化、位圖索引、SQL的OLAP擴展(cube,rollup)等,性能有所提升數據裝載速度快數據裝載速度慢需要進行估計算,可能致使儲蓄空間耗資小,維數沒有限制數據爆炸,維數有限;沒法支持維的動向變化受操作系統平臺中文件大借用RDBMS儲蓄數據,沒有文件大小限制小的限制,難以達到TB級(只好10~20G)缺乏數據模型和數據接見可以經過SQL實現詳盡數據與綱領數據的儲蓄的標準–支持高性能的決議支持–不支擁相關估計算的讀寫操作計算–SQL沒法達成部分計算?復雜的跨維計算?沒法達成多行的計算?多用戶的讀寫操作?沒法達成維之間的計算?行級的計算保護困難管理簡單比較數據挖掘與OLAP的差別?OLAP的典型應用,經過商業活動變化的查問發現的問題,經過追蹤查問找出問題出現的原由,達到協助決議的作用。數據挖掘任務在于聚類(如神經網絡聚類)、分類(如決議樹分類)、展望等。什么是對于數據庫房照射的元數據?數據庫房的元數據除對數據庫房中數據的描繪(數據庫房詞典)外,還有以下三類元數據:對于數據源的元數據對于抽取和變換的元數據對于最后用戶的元數據簡述聯機解析辦理的四個特色?(1)迅速性:用戶對OLAP的迅速反應能力有很高的要求。(2)可解析性:OLAP系統應能辦理任何邏輯解析和統計解析。(3)多維性:系統一定供給對數據解析的多維視圖和解析。(4)信息性:OLAP系統應能實時獲取信息,而且管理大容量的信息。數據庫房與數據挖掘第一章課后習題一:填空題1)數據庫中儲蓄的都是數據,而數據庫房中的數據都是一些歷史的、存檔的、歸納的、計算的數據。2)數據庫房中的數據分為四個級別:早起細節級、目前細節級、輕度綜合級、高度綜合級。3)數據源是數據庫房系統的基礎,是整個系統的數據源泉,平時包含業務數據和歷史數據。4)元數據是“對于數據的數據”。依據元數據用途的不同樣將數據庫房的元數據分為技術元數據和業務元數據兩類。5)數據辦理平時分為兩大類:聯機事務辦理和聯機事務解析6)Fayyad過程模型主要有數據準備,數據挖掘和結果解析三個主要部分組成。7)假如從整體上看數據挖掘技術,可以將其分為統計解析類、知識發現類和其余種類

的數據挖掘技術三大類。8)那些與數據的一般行為或模型不一致的數據對象稱做9)依據挖掘對象的不同樣,將Web數據挖掘分為三類:

孤立點。web內容挖掘、

web

構造挖掘和

web使用挖掘。10)查問型工具、解析型工具盒挖掘型工具

聯合在一同組成了數據庫房系統的工具層,

它們各自的重視點不同樣,所以適用范圍和針對的用戶也不同樣。二:簡答題1)什么是數據庫房?數據庫房的特色主要有哪些?數據庫房是一個面向主題的、集成的、相對牢固的、反應歷史變化的數據會合,用于支持管理決議。主要特色:面向主題組織的、集成的、牢固的、隨時間不停變化的、數據的會合性、支持決議作用2)簡述數據挖掘的技術定義。從技術角度看,數據挖掘是從大批的、不完好的、有噪聲的、模糊的、隨機的實質數據中,提取隱含在此中的、人們不知道的、但又是暗藏實用的信息和知識的過程。3)什么是業務元數據?業務元數據從業務角度描繪了數據庫房中的數據,它供給了介于使用者和實質系統之間的語義層,使得不懂計算機技術的業務人員也可以讀懂數據庫房中的數據4)簡述數據挖掘與傳統解析方法的差別。實質差別是:數據挖掘是在沒有明確假定的前提下去挖掘信息、發現知識。數據挖掘所獲取的信息應擁有先前未知、有效和適用三個特色。5)簡述數據庫房4種系統構造的異同點及其適用性。a.虛構的數據庫房系統構造b.獨自的數據庫房系統構造c.獨自的數據市集系統構造d.散布式數據庫房構造第二章課后習題一:填空題1)模型是對現實世界進行抽象的工具。在信息管理中需要將現實世界的事物及其相關特色變換為信息世界的數據才能對信息進行辦理與管理,這就需要依靠數據模型作為這類變換的橋梁。2)數據庫房模型設計包含觀點、邏輯、物理、元數據模型設計等內容。3)現實世界是存在于現實之中的各樣客觀事物。觀點世界是現真相況在人們腦筋中的反應。邏輯世界是人們為將存在于自己腦筋中的觀點模型變換到計算機中的實質的物理儲蓄過程中的一個計算機邏輯表示模式。計算機世界則是指現實世界中的事物在計算機系統中的實質儲蓄模式。4)數據庫房設計的觀點模型與業務數據辦理系統的三級數據模型仍舊擁有必定的差距。表現在數據種類的差別、數據的歷史變遷性、數據大體性5)數據庫房項目需求的采集與解析需求要從歷史數據與用戶需求兩個方面同時著手,采納數據驅動+用戶驅動的理念。6)所謂主題,是指在較高程度大將業務數據進行綜合,歸類和解析利用的一個抽象觀點,每個主題基本對峙業務的一個解析領域。7)多維數據模型較為廣泛地采納星型模型、雪花模型兩種模式。8)設計齊集模型時,第一需要考慮用戶的使用要求,其次要考慮數據庫房的粒度模型和數據的統計解析狀況。9)切割是數據庫房邏輯設計中要解決的另一個重要問題,它的目的在于提升效率能為數據庫房的物理實行供給設計依據。10)元數據依據使用狀況,主要有技術元數據和業務元數據兩類元數據。二:簡答題1)簡述觀點模型設計主要達成哪些工作?界定系統界限、確立主要的主題域、細化解析詳盡內容2)簡述一個符合第三范式的關系一定擁有的三個條件。A.每個屬性的值唯一,不擁有多義性B.每個非主屬性一定完好依靠于整個主鍵C.每個非主屬性不可以依靠于其余關系中的屬性。3)簡述確立粒度級其余步驟A.估量DASDB.計算儲蓄空間、確立能否區分粒度。C.計劃影響數據庫房的粒度區分D.使用多重粒度E.使用多種儲蓄介質的空間量F.選擇適合的粒度G.只采納大體數據4)簡述CWM五個功能層對象模型層、基礎層、資源層、解析層、管理層5)數據庫房物理模型進行優化時可以考慮的解決方案有哪些?A.歸并表與簇文件B.建立數據序列C.引入冗余,反規范辦理D.表的物理切割分區E.生成派出數據第三章課后習題一:填空題1)ETL過程主要包含三個部分:數據抽取、數據沖刷與數據變換以及數據的加載。2)ETL工作流模型包含ETL觀點模型和ETL邏輯模型兩部分。3)觸發器方式是廣泛采納的一種增量抽取體系。該方式是依據抽取要求,在要被抽取的源表上建立插入、改正和刪除3個觸發器。4)一般狀況下,在一個ETL流程中,抽取操作老是最初履行,加載操作最后履行。5)數據質量問題既有可能來自于數據源,又有可能來自于ETL的實行過程。6)基本的多線程并行辦理技術分為3種:任務并行辦理、數據并行辦理和管道并行辦理。7)ETL過程中數據質量問題分為四類:單數據源模式層問題、單數據源實例層問題、多半據源模式層問題、多半據源實例層。8)ETL過程可以被區分為兩各樣類:全量ETL過程和增量ETL過程。9)加載數據到目標數據庫房的兩個基本方式是刷新方式和更新方式。10)控制“臟數據”對數據庫房解析結果的影響程度,采納各樣有效的舉措對其進行辦理,這一辦理過程稱為數據沖刷。二:簡答題1)怎樣保障ETL過程中的數據質量?A.數據源端實行數據質量控制:多半據源的異構問題、數據扔掉值得問題、相像重復記錄的問題b.ETL過程中實行數據質量控制:數據抽取程序嚴格審查、實時監控數據源系統的更改、確立采信數據源、建立故障檢測體系、建立數據審查體系2)增量數據抽取中常用的捕捉變化數據的方法有哪幾種?觸發器方式、時間戳方式、全表刪除插入方式、全表比對方式、日記表方式、系統日記解析方式、系統日記解析方式。3)怎樣辦理空缺數據?可以采納忽略元組、用一個全局常量填補空缺值、用屬性性平均值填補空缺值、使用與給定元組同類的全部樣本的平均值填補空缺值、使用最可能的值填補空缺值、使用像Baysian公式或判斷樹這樣的鑒于推斷的方法。4)怎樣辦理噪聲數據?分箱或聚類等方法辦理5)簡述數據加載操作。數據加載負責將經過前幾步沖刷和變換后的數據依據目標數據定義的表構造裝入數據倉庫6)在ETL過程中會出現哪幾類數據質量問題?解析其產生原由。單數據源模式層次問題---------》缺乏完好性拘束,糟糕的模式設計單數據源實例層次問題---------》數據記錄的錯誤多半據源模式層次問題---------》異質的數據模型和模式設計多半據源實例層次問題---------》冗余、相互矛盾或許不一致的數據第四章課后習題一:填空題1)OLAP系統依據其儲蓄的數據儲蓄格式可以分為關系OLAP、多維OLAP和混淆OLAP三種種類。2)對于擁有海量數據的數據庫房,B-Tree索引技術顯得其實不靈巧,于是人們探訪新的索引技術,如位圖索引和表記符來解決此問題。3)用戶決議解析角度或決議解析出發點就是數據庫房中的維度。4)胸懷是多維數據集的核心值,是進行OLAP操作的用戶所要察看解析的數據。5)上卷和下鉆的深度與維所區分的層次相對應,上卷解析的細化程度越低,粒度度越大。下鉆解析的細化程度越高,粒度越小。6)所謂的數據“上卷”是指用戶在數據庫房的應用中,從較低層次開始漸漸將數據依據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論