數據倉庫課后習題答案_第1頁
數據倉庫課后習題答案_第2頁
數據倉庫課后習題答案_第3頁
數據倉庫課后習題答案_第4頁
數據倉庫課后習題答案_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 第一章作業1 數據庫與數據倉庫的本質差別是什么?書P2(1)數據庫用于事務處理,數據倉庫用于決策分析。(2)數據庫保持事物處理的當前狀態,數據倉庫即保存過去的數據又保存當前的數據。(3)數據倉庫的數據是大量數據庫的集成。(4)對數據庫的操作比較明確,操作數量較小。對數據倉庫操作不明確,操作數據量大。6.OLTPOLAP細節性數據綜合性數據當前數據歷史數據經常更新不更新,但周期性刷新一次性處理的數據量小一次處理的數據量大對響應時間要求高響應時間合理面向應用,事務驅動面向分析,分析驅動8 定義為關于數據的數據,描述數據倉庫中數據及其環境的數據。9 元數據不僅僅是數據倉庫的字典,而且還是數據倉庫本

2、身功能的說明數據,是整個數據倉庫的核心。數據字典是關于數據庫中數據的描述,而不是數據本身,數據字典是數據庫的元數據。18、統計學與數據挖掘的不同。統計學主要是對數量數據或連續值數據進行數值計算的定量分析,得到數量信息。數據挖掘主要對離散數據進行定性分析,得到規則知識。在統計學中有聚類分析和判別分析,它們與數據挖掘中的聚類和分類相似。但是,采用的標準不一樣,統計學的聚類采用的“距離”是歐式距離,即兩點間的坐標(數值)距離。而數據挖掘的聚類采用的“距離”是海明距離,即屬性取值是否相同,相同者距離為0,不相同者距離為1。總之,統計學與數據挖掘是有區別的,但是,它們之間是相互補充的。不少數據挖掘的著作

3、中均把統計學的不少方法引入到數據挖掘中,與將機器學習中不少方法引入到數據挖掘中一樣,作為從數據獲取知識的一大類方法。19、說明數據倉庫與數據挖掘的不同。數據倉庫是在數據庫的基礎上發展起來的。它將大量的數據庫的數據按決策需求進行重新組織,以數據倉庫的形式進行存儲,將為用戶提供輔助決策的隨機查詢、綜合信息以及隨時間變化的趨勢分析信息等。數據倉庫是一種存儲技術,其數據存儲量是一般數據庫的100倍,包含大量的歷史數據、當前的詳細數據以及綜合數據。它能適應不同用戶對不同決策需要提供所需的數據和信息。數據挖掘是從人工智能機器學習中發展起來的。它研究各種方法和技術,從大量的數據中挖掘出有用的信息和知識。最常

4、用的數據挖掘方法是統計分析方法、神經網絡方法和機器學習中研究的方法。數據挖掘中采用機器學習的方法有歸納學習方法(如覆蓋正例排斥反例方法,如AQ系列算法、決策樹方法等)、遺傳算法、發現學習算法(如公式發現系統BACON)等。利用數據挖掘的方法和技術從數據倉庫中挖掘的信息和知識,反映了數據倉庫中數據的規律性。用戶利用這些信息和知識來指導和幫助決策。例如,利用分類規則來預測未知實體的類別。23:數據倉庫與聯機分析出口里、數據挖掘在決策支持方面有什么不同?答:數據倉庫視為輔助決策而建立的,單依靠數據倉庫達到輔助決策的能力是有限的,綜合信息和預測信息是數據倉庫所獲得的輔助決策信息。數據倉庫中增加聯機分析

5、處理和數據挖掘等分析工具,能較大的提高輔助決策能力。數據倉庫和聯機分析處理幾數據挖掘結合的決策支持系統,是以數據倉庫為基礎的,稱為基于數據倉庫的決策支持系統。概括地說:基于數據倉庫的決策支持系統是從數據倉庫的數據中獲取輔助決策信息和知識,為決策提供支持。25畫出基于數據倉庫的決策支持系統結構圖。如圖:28 如何理解商業智能與基于數據倉庫的決策支持系統的區別于聯系?答:可以認為,商業智能是對商業信息的搜集、管理和分析過程,目的是使企業的各級決策者獲得知識或洞察力(insight),促使他們做出對企業更有利的決策。商業智能一般由數據倉庫、聯機分析處理、數據挖掘、數據備份和恢復等部分組成。商業智能的

6、實現涉及到軟件、硬件、咨詢服務及應用,其基本體系結構包括數據倉庫、聯機分析處理和數據挖掘三個部分。第二章作業1. 畫出數據倉庫的結構圖,說明各部分內容。P18答:當前基本數據是最近時期的業務數據,是數據倉庫用戶最感興趣的部分數據量大。隨著時間的推移,有數據倉庫的時間控制機制轉為歷史數據,輕度綜合數據是從當前基本數據中提取出來的,最高一層是高度綜合數據層,這一層的數據十分精煉,是一種準決策數據。2. 說明數據倉庫結構圖中包含輕度綜合層與高度綜合數據層的作用。這些數據為什么不是臨時計算出來的。P18-19數據倉庫除了存儲按主題組織起來的當前詳細數據外,還需要存儲綜合數據,這是為了適應決策需求而增加

7、的。在數據庫中需要得到綜合數據時,采用數據立方體的方法對詳細數據進行綜合。在數據倉庫中并不采取臨時計算的方式得到綜合數據,而在用戶提出需要綜合數據之前,就預先將可能的綜合數據利用數據立方體計算好,存入綜合數據層中,這種綜合數據層在用戶查詢時,能迅速提供給用戶。3. 說明數據集市與數據倉庫的區別和聯系。P206.畫出數據倉庫系統結構圖,說明把倉庫管理和分析工具作為數據倉庫系統的兩個獨立組成部分的原因。圖:P22原因:倉庫管理:安全和特權管理;跟蹤數據的更新;數據質量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態;刪除數據;復制、分割和分發數據;備份和恢復;存儲管理。訪問工具:為用戶訪問數

8、據倉庫提供手段9.畫出數據倉庫的運行結構圖,說明三層C/S結構和兩層C/S結構的不同點。數據倉庫服務器客戶端 二層C/S結構數據倉庫服務器三層C/S結構客戶端OLAP服務器OLAP服務器將加強和規范化決策支持的服務工作,集中和簡化了數據倉庫服務器的部分工作,即OLAP服務器從數據倉庫服務器中抽取數據,在OLAP服務器中轉換成客戶端要求的多維視圖,并進行多維數據分析,將分析結果傳送給客戶端,這種結構形式工作效率更高。11.數據模型與數學模型有什么區別? 答:數據模型是數據特征的抽象,數據管理教學的形式框架,數據庫系統中用以提高信息表示和操作手段的形勢構架。數據模型包括數據庫的數據的結構部分、數據

9、庫數據的操作部分和數據庫數據的約束條件。數學模型是根據對研究對象所觀察到的現象及實踐經驗,歸結成的一套反映其內部因素數量關系的數學公式、邏輯準則和具體算法。用以描述和研究客觀現象的運動規律。15第三范式數據模型與星型模型有什么不同?第三范式不同于星型模型之處在于,把事實表和維表的屬性作為一個實體都集中在同一數據庫表中,或分成多個實體用多個表來表示,每個表按第三范式組織數據。它減少了為表中的鍵和不必要的屬性。17簡單說明ETL過程的主要步驟。ETL過程的主要步驟概括為:(1)決定數據倉庫中需要的所有的目標數據(2)決定所有的數據源,包括內部和外部的數據源(3)準備從源數據到目標數據的數據映射關系

10、(4)建立全面的數據抽取規則(5)決定數據轉換和清洗規則(6)為綜合表制定計劃(7)組織數據緩沖區域和檢測工具(8)為所有的數據裝載編寫規程(9)維度表的抽取、轉換和裝載(10)事實表的抽取、轉換和裝載18、說明數據抽取工作的內容。P2821數據裝載方式與類型有哪些?答:數據倉庫中最基本的元數據相當于數據庫系統中的數據字典。由于數據倉庫和數據庫有很大的不同,因此元數據的作用遠不是數據字典所能相比的。元數據在數據倉庫中有著舉足輕重的作用,它不僅僅定義了數據倉庫有什么,指明了數據倉庫中數據的內容和位置,刻畫了數據的抽取和轉換規則,存儲了與數據倉庫有關的各種商業信息,而且整個數據倉庫的運行都是基于元

11、數據的,如數據的修改,跟蹤,抽取,裝入,綜合等。23什么是關于數據源的元數據?答:關于數據模型的元數據描述了數據倉庫中有什么數據以及數據之間的關系,是用戶管理數據倉庫的基礎。這種元數據可以支持從數據倉庫中獲取數據。用戶可以提出需要哪些表,系統從中選一個表,并得到表之間的關系。重復該過程,用戶希望能夠得到希望的數據。24什么是關于數據模型的元數據? 答:關于數據模型的元數據描述了數據倉庫中有什么數據以及數據間的關系,支持用戶從數據倉庫中獲取數據。25什么是關于數據倉庫映射的元數據?答:關于數據倉庫映射的元數據,反映了數據源與數據倉庫數據之間的映射,以及數據項是從哪個特定的數據源抽取的,經過了哪些

12、轉換、變換和裝載。第三章作業1. 聯機分析處理(OLAP)的簡單定義是什么?它體現的特征是什么。P402. OLAP準則中的主要準則有哪些?P413.什么是維?關系數據庫是二維數據嗎?如何理解多維數據?P43維是人們觀察數據的特定角度。關系數據庫不是二維數據,只是通過二維關系表示了數據的多維概念。多維數據就是從多個特定角度來觀察特定的變量。4.MDDB(Multi Dimensional Database, 多維數據庫)是以多維的方式組織數據,即以維作為坐標系,采用類似于數組的形式存儲數據。RDBMS(relational database management system,關系型數據庫管理

13、系統)通過數據、關系和對數據的約束三者組成的數據模型來存放和管理數據MDDB特點:1. 數據庫中的元素具有相同的數值2. 多維數據庫表達清晰,3. 占用存儲少RDBMS的特點:1.數據以表格的形式出現2.每行為各種記錄名稱3.每列為記錄名稱所對應的數據域4.許多的行和列組成一張表單5.若干的表單組成database5.1.數據存取速度ROLAP服務器需要將SQL語句轉化為多維存儲語句,臨時“拼合”出多維數據立方體。因此,ROLAP的響應時間較長。MOLAP在數據存儲速度上性能好,響應速度快。 2.數據存儲的容量ROLAP使用的傳統關系數據庫的存儲方法,在存儲容量上基本沒有限制。MOLAP通常采

14、用多平面疊加成立體的方式存放數據。當數據量超過操作系統最大文件長度時,需要進行數據分割。多維數據庫的數據量級難以達到太大的字節級。 3.多維計算的能力MOLAP能夠支持高性能的決策支持計算。ROLAP無法完成多行的計算和維之間的計算。4.維度變化的適應性MOLAP增加新的維度,則多維數據庫通常需要重新建立。ROLAP對于維表的變更有很好的適應性。5.數據變化的適應性當數據頻繁的變化時,MOLAP需要進行大量的重新計算,甚至重新建立索引乃至重構多維數據庫。在ROLAP中靈活性較好,對于數據變化的適應性高。6.軟硬件平臺的適應性ROLAP對軟硬件平臺的適應性很好,而MOLAP相對較差。7.元數據管

15、理目前在元數據的管理,MOLAP和ROLAP都沒有成形的標準。 6.在HOLAP中,對最常用的維度和維層次,使用多維數據表來存儲,對于用戶不常用的維度和數據,采用ROLAP星型結構來存儲。7多維數據顯示的兩種方法:關系數據庫方式和多維數據庫方式。關系數據庫可以顯示更多維的數據,但用事實表顯示多維數據時,重復數據很多,也很繁瑣;多維數據庫雖然不能同時顯示三維以上數據,但顯示的數據很精煉。11、多維數據顯示的經驗規則是什么?答:多維數據的顯示只能在平面上展現出來,用多維數據庫顯示時,不能同時顯示三維以上數據,但可以固定一些維成員,重點顯示兩維維數據。最有效表示多維數據使用多維類型結構(MTS),即

16、每一維用一條線段表示,維度中每一個成員都用線段上的一個區間表示。還可以使用行、列和頁表三個顯示組來表示。 經驗規則:1. 將維度盡量放在頁中,除非確定需要同時看到一個維度的多個成員;2. 當維度嵌套在行貨列中時,考慮到垂直空間比水平空間更有用,所以講維度嵌套在列中比嵌套在行中要好;3. 在決定數據的屏幕顯示方式前,應首先弄清楚需要查找和分析比較的內容;12、舉例說明OLAP的多維數據分析的切片操作。答:切片就是在某兩個維上取一定區間的維成員或全部維成員。如用三維數組表示為(地區,時間,產品,銷售額),如果在地區維度上選定一個維成員,就可以得到在該地區的一個切片(關于時間和產品的切片)。13比如

17、部門銷售數據表中部門1的銷售額為900元,對時間維進行下鉆操作,可以得到各個季度分別的銷售額為多少。14(1) 切片:切片就是在某兩個維上取一定區間的為成員或全部維成員,而在其余的維上選定一個維成員的操作。切片的作用就是舍棄一些觀察角度,使人們能在兩個維上集中觀察數據。(2) 切塊:切塊分兩種情況:(1)在多維數據的某一個維上選定某一區間的維成員的操作。(2)選定多維數組的一個三維子集的操作。切塊可以看成是在切片的基礎上確定某一個維成員的區間得到的片段,也即由多個切片疊合起來的。(3) 鉆取:向下鉆取是使用戶在多層數據中能通過導航信息而獲得更多的細節性數據,向上鉆取獲取概括性信息。(4) 旋轉

18、:通過旋轉可以得到不同視角的數據,旋轉操作相當于平面數據將坐標軸旋轉。15、廣義OLAP功能如何提高多維數據分析能力。廣義OLAP功能主要是通過四個模型逐層深入從而提高多維數據分析能力。這四個模型分別是:(1)絕對模型:它屬于靜態數據分析,通過比較歷史數據值或行為來描述過去發生的事實。該模型查詢比較簡單,綜合路徑是預先定義好的,用戶交互少。(2)解釋模型:它也屬于靜態數據分析,分析人員利用系統已有的多層次的綜合路徑層層細化,找出事實發生的原因。(3)思考模型:它屬于動態數據分析,旨在說明在一維或多維上引入一組具體變量或參數后將會發生什么。分析人員在引入確定的變量或公式關系時,必須創建大量的綜合

19、路徑。(4)公式模型:它的動態數據分析能力更高,該模型表示在多個維上,需要引入哪些變量或參數,以及引入后所產生的結果。16、說明數據立方體的概念數據立方體的概念是1996年,Jim Gray等首次提出的。數據立方體是實現多維數據查詢與分析的一種重要手段。實質上,數據立方體就是數據倉庫結構圖中的綜合數據層。從此,基于數據立方體的生成方法一直是OLAP和數據倉庫領域研究者所關注的熱點問題。多數據集的屬性分為維屬性和度量屬性。維數性是觀察數據對象的角度,而度量屬相則反映數據對象的特征。對于多維數據分析而言,本質上是沿著不同的維度進行數據獲取的過程。在數據立方體中,不同維度組合構成了不同的子立方體,不

20、同維值的組合機器對應的度量值構成相應的對于不同的查詢和分析。因此,數據立方體的構建和維護等計算方法成為了多維數據分析研究的關鍵問題。17答:OLAP的邏輯結構由OLAP視圖和數據存儲兩部分組成。OLAP視圖:對于用戶來說它是數據倉庫或數據集市中數據的多維邏輯表示,不管數據怎么存儲和存儲在何處。數據存儲:要求選擇數據實際存儲方式和實際存儲位置,兩種常用的選擇是多維數據存儲和關系數據存儲。18答:OLAP的物理結構包括基于數據存儲的兩種方式:多維數據存儲和關系數據存儲。多維數據存儲主要有兩種選擇:多維數據存儲于客戶端或OLAP服務器。在第一種情況,多維數據存儲于客戶端,數據分析也在客戶端,這樣形成

21、了“胖”客戶端,這是一種兩層客戶/服務器的物理結構。在第二種情況,多維數據存儲放在OLAP服務器中,抽取數據倉庫中的數據,然后將其轉換成多維數據結構,并把OLAP服務器傳給客戶端,這時客戶端就變成了“瘦”客戶端,這是一種經典的三層客戶/服務器物理結構。19說明濃縮立方體的壓縮方法和效果。答:濃縮立方體計算方法的基本原理是,在某些屬性或組合下的一個元組相對于其他元組具有唯一性,則稱為基本單一組(BST),當它的超集也是BST,且都是取同一度量值,在聚集運算時,可以把這些屬性的度量值對應的元組壓縮成一條元組存儲。一般來說,濃縮立方體的壓縮率可以達到30%-70%。20.多維數據分析的MDX語言與數

22、據庫的SQL語言有什么不同?答:MDX語言結合了多維數據集,指定“維度”(ON子句)和“創建表達式計算的新成員”(MEMBER子句),這樣就可以來從多維數據集中挖掘出指定的數據。21MDX提供的函數children來完成這個操作。Children 函數返回一個自然排序的集,該集包含指定成員的子成員。 如果指定的成員沒有子成員,則此函數返回一個空集。示例下例將返回 Geography 維度中 Geography 層次結構的 United States 成員的子成員。SELECT Geography.Geography.Country.&United States.Ch

23、ildren ON 0FROM Adventure Works第四章作業1. 數據倉庫的需求分析的任務是什么?P67需求分析的任務是通過詳細調查現實世界要處理的對象(企業、部門用戶等),充分了解源系統工作概況,明確用戶的各種需求,為設計數據倉庫服務。概括地說,需求分析要明確用那些數據經過分析來實現用戶的決策支持需求。2. 數據倉庫系統需要確定的問題有哪些?P673. 實現決策支持所需要的數據包括哪些內容?P68(1)源數據(2)數據轉換(3)數據存儲(4)決策分析4概念:將需求分析過程中得到的用戶需求抽象為計算機表示的信息結構,叫做概念模型。特點:(1)能真實反映現實世界,能滿足用戶對數據的分

24、析,達到決策支持的要求,它是現實世界的一個真實模型。(2)易于理解,便利和用戶交換意見,在用戶的參與下,能有效地完成對數據倉庫的成功設計。(3)易于更改,當用戶需求發生變化時,容易對概念模型修改和擴充。(4)易于向數據倉庫的數據模型(星型模型)轉換。5用長方形表示實體,在數據倉庫中就表示主題,橢圓形表示主題的屬性,并用無向邊把主題與其屬性連接起來;用菱形表示主題之間的聯系,用無向邊把菱形分別與有關的主題連接;若主題之間的聯系也具有屬性,則把屬性和菱形也用無向邊連接上。6數據庫的概念模型設計主要采用E-R概念模型的設計方法。數據倉庫的概念模型設計主要采用E-R概念模型和面向對象的分析方法。7 .

25、圖4.1所示的概念模型:商品和客戶是兩個主題,商品的銷售信息等同于客戶的購物信息,而每個商品具有本身的商品固有信息和商品號,還有就是商品的庫存信息;客戶具有自己的固有信息,還有就是客戶號。8.邏輯模型:計算機所支持的有E-R圖轉換成的數據模型,數據的邏輯結構 數據倉庫的邏輯模型:星型模型9.數據倉庫的邏輯模型:用來構建數據倉庫的數據庫邏輯模型。在數據庫中,邏輯模型有關系、網狀、層次,可以清晰的表示各個關系。10.舉例說明從數據倉庫的概念模型到邏輯模型的轉換?概念模型是對每個決策與屬性及主體之間的關系用E-R圖來表示的,E-R圖能有效的將現實的世界表示成信息世界,他利于向計算機的表示形式進行轉化

26、。而邏輯模型設計是需求分析主題域,將概念模型E-R圖轉化為邏輯模型,即計算機表示的數據模型,數據倉庫的數據模型一般采用星型模型。例如 概念模型設計時,確定了商品和客戶兩個主題。其中商品對于商場來說是更基本的業務對象,商品的業務有銷售、采購、庫存。其中商品銷售時最重要的業務。它是進行決策分析的重要方面。星型模型的設計如下:確定決策分析需求,數據倉庫是面向決策分析的,決策需求是建立多維數據模型的依據。例如分析銷售額趨勢,對商品的銷售量,促銷手段對銷售的影響。從需求中識別出事實,從決策主題確定的情況下,選擇或設計反映決策主體業務表。例如在商品主題中,以銷售數據為事實表。確定維,確定影響事實的各種因素

27、,對銷售業務的維一般的包括商店,地區,部門,城市,時間,商品等。確定數據匯總的水平,存在于數據倉庫中的數據包括匯總的數據。數據倉庫中對數據不同粒度的綜合形成了多層次的數據結構。例如 對于時間維,可以用年 月 日 不同水平進行匯總。設計事實表和維表,設計事實表和維表的屬性,再事實表中應該記錄哪些屬性是有維表的數量來決定的,一般來說,與事實表相關的維表的數量應該適中,太少的維表會影響查詢的質量,用戶得不到需要的數據,太多的數據會影響查詢的速度。11. 在數據倉庫中為什么考慮數據的粒度層次劃分?答: 所謂的粒度是指數據倉庫宗數據單元的詳細程度和級別,數據越詳細,粒度越小,層次級別九月低;數據綜合度越

28、高,粒度越大,層次級別就越高。在傳統事務處理系統中,對數據的處理,操作都是再詳細數據級別上的,即最低的粒度。但是數據倉庫環境中主要是分析處理,粒度的劃分鍵直接影響數據倉庫中數據量以及所適合的查詢類型。一般需要將數據劃分為詳細數據,輕度綜合,高度綜合三級或更多及粒度。不同粒度級別的數據用于不同類型的分析處理。力度的劃分是數據倉庫設計工作的一項重要內容,粒度劃分是否適當影響數據倉庫性能的一個重要方面。12.數據倉庫的記錄系統包括什么內容,舉例說明?答:數據倉庫中的數據來源與多個已經存在的事務處理系統外部系統,由于各個原系統的數據是面向應用的,不能完整地描述企業中的主題域,并且多個數據源的數據存在者

29、許多不一致,因此要從數據倉庫的概念模型出發,結合主題的多個表的關系模式,需要確定現有系統的哪些數據能較好地適應數據的需求。這就要求選擇最完整的、最及時的、最準確的、最接近外部實體源的數據作為記錄系統,同時這些數據所在的表的關系模式接近于構成主體的多個標的關系模式。記錄系統的定義要記入數據倉庫的元數據。13、什么是物理模型?數據倉庫的物理模型設計包括哪些工作?答:物理模型就是邏輯模型在計算機中的物理結構,其中包括存儲結構和存取方法;數據倉庫的物理模型設計的工作包括:估計存儲容量、確定數據的存儲計劃、確定索引策略、確定數據存放位置和確定存儲分配。14、為什么數據倉庫物理模型設計中要建立匯總計劃和確

30、定數據分區方案?答:如果數據倉庫只存儲最小粒度的數據,每次查詢遍歷所有的明細記錄,然后生成匯總信息,這會造成很大的開銷,因此要建立匯總計劃; 分區可以將表分解成易于管理的小表,對事實表的分區醫保采用垂直分區或水平分區,這樣使得大表被分成小表,因此要建立分區方案。16. 概念模型:E-R圖;邏輯模型:星型模型物理模型:存儲結構、索引、數據存放位置、存儲分配。17.(1)位索引技術:Bit-Wise索引技術;B-Tree索引技術(2)表示技術(3)廣義索引18.答:1、B-Tree只適合于高基數字段,但對于低基數字段毫無價值。2、B-Tree索引需占一定的空間和時間,增加了在數據倉庫中構造和維護索

31、引的代價。3、數據倉庫應用中常常是復雜的查詢,并經常帶有分組及聚合條件,此時B-Tree索引往往無能為力。19、數據倉庫中采用標識技術有什么好處。答:使用標準的數據庫技術來儲存數據倉庫是非常昂貴的。較好的替代方法是用基于標識的技術來儲存數據倉庫。一旦將基于標識的數據庫存放在內存中,處理速度會得到很大的提高。數據越多,標識數據比標準的、基于記錄的數據更有利。因為數據被大量壓縮,所以整個數據庫可以存放在內存中。可以索引所有的行和所有的列。21、說明數據倉庫開發的四個階段和12個步驟答:如下圖所示發:分為分析設計階段;數據獲取階段;決策支持階段;維護與評估階段。22. 數據獲取階段包括數據抽取,數據

32、轉換,數據裝載3個步驟。數據抽取:數據抽取主要進行數據源的確認,確定數據抽取技術,確認數據抽取頻率,按照時間要求抽取數據。數據轉換:數據抽取得到的數據不能直接存入數據倉庫的。數據轉換工作包括:數據格式的修改,字段的解碼,單個字段的分離,信息的合并,變量單位的轉化,時間的轉化,數據匯總等。數據裝載:數據裝載包括初始裝載,增量裝載,完全刷新。23. 數據倉庫的簡歷就是要達到決策支持的目的。決策支持階段包括信息查詢和知識探索兩個步驟。信息查詢:信息查詢者使用數據倉庫發現目前存在的問題。為適應信息查詢者的要求,數據倉庫一般采用如下的方法提高信息查詢效率:創建數據陳列,預連接表格,預聚集數據,聚類數據。

33、知識探索:只是探索者使用數據倉庫能對發現的問題找出原因。24. 維護與評估階段包括數據倉庫增長,數據倉庫維護,數據倉庫評價。數據倉庫增長:數據倉庫建立以后,隨著數據用戶的不斷增加,時間的曾增長,用戶查詢需求更多,數據會迅速增長。數據倉庫維護:數據倉庫維護包括適應數據倉庫增長的維護和正常系統維護兩類。數據倉庫評估:數據倉庫評估包括系統性能評定,投資回報分析,數據質量評估。25.概括說明“概念模型、邏輯模型、物理模型”分別是什么樣的數據模型?答:將需求分析過程中得到的用戶需求抽象為計算機表示的信息結構,即概念模型。邏輯模型是由概念模型進一步轉化成計算機支持的數據模型。物理模型是邏輯模型設計的數據模

34、型適應應用要求在計算機中的存儲結構和存取方法。28. 當有一個或多個維表沒有直接連接到事實表上,而是通過其他維表連接到事實表上時,其圖解就像多個雪花連接在一起,故稱雪花模型。雪花模型是對星型模型的擴展。它對星型模型的維表進一步層次化,原有的各維表可能被擴展為小的事實表,形成一些局部的 "層次 " 區域,這些被分解的表都連接到主維度表而不是事實表。管理大量數據,數據的高效裝入和數據壓縮,存儲介質的管理,元數據的管理,數據倉庫語言,高效索引,多維數據倉庫和數據管理第五章作業1 數據倉庫的兩類用戶有什么本質的不同?P96數據倉庫的用戶有兩類:信息使用者和探索者。信息使用者是使用數

35、據倉庫的大量用戶,信息使用者以一種可以預測的、重復性的方式使用數據倉庫平臺。探索者完全不同于信息使用者,他們有一個完全不可預測的、非重復性的數據使用模式。2 數據倉庫的信息使用者與數據庫的信息使用者有什么不同?數據庫的信息使用者主要關心當前某一個時間段內的數據,而數據倉庫的信息使用者關心企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。3.1非規格化規范化的作用是產生一種完全沒有數據冗余的設計方法。但是,有時在數據倉庫設計中引入一些有限的數據冗余來提高數據訪問效果。 2創建數據陣列創建數據陣列,將相關類型的數據

36、(如:1月、2月、3月等月份中的數據)存儲在一起,提高訪問效果。3預連接表格一個公用鍵和共同使用的數據將表格合并在一起。共享一個公用鍵,可以將多個表格合并到一個物理表格中。這樣做可以很大程度的提高數據訪問效率。4預聚集數據根據“滾動概括”結構來組織數據。當數據被輸入到數據倉庫中時,以每小時為基礎存儲數據。在這一天結束時,以每天為基礎存儲累加每小時的數據。在一周結束時,以每周為基礎存儲累加每天的數據。月末時,則以每月為基礎存儲累加每周的數據。5聚類數據將不同類型的數據記錄放置在相同的物理位置。這為用戶查看這些記錄,可以在同一地點找到它們,提高查詢效率。6壓縮數據壓縮可以使可讀取的數據量極大。定期

37、凈化數據定期刪除數據倉庫中不需要的數據,可以為每個用戶提高性能。 7合并查詢 如果查詢定期發生,那么可以通過把這些查詢合并到同一個表格中,從而節省大量資源。4. 增加一些數據冗余,相當于增加了某些相同的數據,這些數據往往是我們很需要的或者是經常被使用的,由于這些數據所占總量的比例增加,所以被訪問的概率增加,從而減少了查詢時間,提高了查詢速度。5. 聚類數據:基于產生共同信息,將不同類型的數據記錄放置在相同的物理位置。聚集數據:即概括數據,相同的商業維度和指標存儲數據。6. 合并查詢:把定期的一些查詢合并到同一個表格中,來節省大量資源,達到掃描數據倉庫表格的次數最小化。7.探索者所作的工作有哪些

38、?答:探索者查看治療和歷史記錄,在多數情況下,探索者考慮數據不同類型和數據具值之間的關系。探索者要做的工作概括分析,抽取、建模和分類。8.數據倉庫的探索者的工作與數據庫的數據挖掘者的工作有什么不同?答:數據倉庫的探索者是尋找不平常的且有用的商業運作模型的用戶群,探索者查看詳細的資料和歷史記錄,他們要做的的工作有概括分析、抽取、建模和分類;而數據庫的數據挖掘者是那些對數據庫中數據做出歸納和分析的專業人士,他們從數據庫的數據中提煉出有用的信息和一些數據的客觀規律。9.說明企業需要哪些戰略信息與實現方法。答:企業需要的戰略信息有:銷量最好的產品名單、出現問題的地區、查找出現問題的原因、對比其他的數據

39、(橫向鉆取)、顯示最大利潤以及一些警告信息。實現方法有:查詢與報表決策支持、多維分析和原因分析和預測未來。11.數據庫是面向事務的設計,數據倉庫是面向主題設計的。 數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。數據庫是為捕獲數據而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。12.說明如何利用數據倉庫發現問題并找出產生問題的原因答:主要是通過三個步驟來完成的:概括分析,抽取,建模。概括分析是第一步。分析數據的完整性和準確性。抽取是通過概括分析,所學數據的輪廓已經基本顯示出來。數據抽取就是將數據倉庫中抽取制定的數據并組織起來,進一步分析而不影響數據倉庫的正常工作

40、。最后一步是建模,通過以上兩步的得到的數據信息進行建模從而進一步分析數據,達到發現問題及其問題的原因。13.說明如何利用數據倉庫來進行預測答:就是建立相應的預測模型,利用歷史數據建立回歸方程。一般的預測模型有多元回歸模型、三次平滑預測模型、生長曲線預測模型。除了預測模型外,采用聚類模型或分類模型也能達到一定的預測效果。14.臟數據是指在數據源中抽取、轉換和裝載到數據倉庫的過程中出現的多余數據和無用數據。產生臟數據的途徑:1,開始時定義了一些多余的數據或由于一些不合適的轉換規則在轉換過程中產生的無用數據。2,來自不同數據源的數據在數據結構、數據編碼、數據定義等方面是不兼容的,在集成這些數據時,未

41、對所有不同情況的數據都轉成同意形式,產生遺漏或用了不匹配的轉化方法而產生的數據。3,輸入的數據已經過期。由于工作業務的改變,某些前期業務的數據已經過期,仍遺留在數據倉庫中而造成的過期無用數據。4,用戶需求的改變或數據質量有了新的要求時,那些沒有適應改變要求的數據成了無用的數據。15.清理臟數據的方法有:1,檢查抽取數據的定義和數據轉換規則的正確性,對那些不合適的定義和規則所造成的臟數據進行清理。2,在對多個數據源進行集成時,必須對所有不同結構、不同編碼、不同定義的數據,嚴格按照同意格式轉換后再集成,清楚那些遺留或不匹配方法產生的臟數據。3對過期數據,在形成歷史數據后,根據這種數據量的大小來決定

42、是否需要進行重新整理。17.企業基本情況:18.沃爾瑪一直是 Teradata 的大客戶,該公司的 Teradata 裝機是全球最大的數據倉庫之一,并且在該公司與各家供應商的數據共享網絡(稱為“零售鏈”)中發揮著重要作用。現在還不清楚惠普的勝利對 Teradata 會產生什么影響,看起來,沃爾瑪不大可能一下子全部放棄在 Teradata 方面的投資,不過,惠普公司在數據倉庫方面的任何獲勝都會搶走 Teradata 的潛在業務。至周三上午為止,惠普和沃爾瑪的官方都沒有立即發布評論。19.決策支持系統(decision support system ,簡稱dss)是輔助決策者通過數據、模型和知識,

43、以人機交互方式進行半結構化或非結構化決策的計算機應用系統。它是管理信息系統(mis)向更高一級發展而產生的先進信息管理系統。它為決策者提供分析問題、建立模型、模擬決策過程和方案的環境,調用各種信息資源和分析工具,幫助決策者提高決策水平和質量。決策支持系統,是以管理科學、運籌學、控制論、和行為科學為基礎,以計算機技術、仿真技術和信息技術為手段,針對半結構化的決策問題,支持決策活動的具有智能作用的人機系統。該系統能夠為決策者提供所需的數據、信息和背景資料,幫助明確決策目標和進行問題的識別,建立或修改決策模型,提供各種備選方案,并且對各種方案進行評價和儔優選,通過人機交互功能進行分析、比較和判斷,為

44、正確的決策提供必要的支持。DSS的概念是在20世紀70年代提出的,并在80年代獲得發展。它的產生原因有:傳統的MIS沒有給企業帶來巨大的效益,人在管理中的積極作用要得到發揮;人們對信息處理規律認識提高,面對不斷變化的環境,要求更高層次的系統來直接支持決策;計算機應用技術的發展為DSS的發展提供了物質基礎。 第六章作業1.數據挖掘與知識發現兩個概念有什么不同?P1162.知識發現過程由哪三部分組成?每部分的工作是什么?P1163.數據挖掘的對象有哪些?他們各自的特點是什么?P1184.P1205.聚類是指在沒有類的數據中,按“距離”概念聚集成若干類。在同一類別中,個體之間的距離較小,而不同類別上

45、的個體之間的距離偏大。分類是在聚類的基礎上,對已確定的類找出該類別的概念描述,它代表了這類數據的整體信息。6.當發生有丟失的數據、觀察不到的數據,隱藏的數據、錄入過程中發生錯誤的數據等情況時,即產生了不完全數據。7 兩個變量X和Y的采樣,其中X是獨立變量,總有觀測值;Y是響應變量,可能涉及丟失值。以Y=?代表丟失值,以(X=i,Y=?)代表不完全的記錄。丟失數據模式分別取決于Y=?的概率是否依賴于Y與X的狀態。如果這一概率依賴于X但不依賴于Y,則認為數據是隨機丟失的。8兩個變量X和Y的采樣,其中X是獨立變量,總有觀測值;Y是響應變量,可能涉及丟失值。以Y=?代表丟失值,以(X=i,Y=?)代表不完全的記錄。丟失數據模式分別取決于Y=?的概率是否依賴

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論