




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章
聯機分析處理(2)13.4OALP的多維數據分析(下)3.4.3廣義OLAP功能3.4.4數據立方體3.4.5多維數據分析的MDX語言及其應用23.4.3廣義OLAP功能
1、基本代理操作
當系統處于某種特殊狀態時“代理”提醒分析員。
(1)示警報告定義一些條件,一但條件滿足,系統會提醒分析員去做分析。如每日報告完成或月定貨完成等通知分析員作分析。(2)時間報告
按日歷和時鐘提醒分析員。
(3)異常報告當超出邊界條件時提醒分析員。如銷售情況已超出預定義閾值的上限或下限時提醒分析員。3
2.數據分析模型(1)絕對模型通過比較歷史數據值或行為來描述過去發生的事實。絕對模型只能對歷史數據進行比較,并且利用回歸分析等一些分析方法得出趨勢信息。4(2)解釋模型利用系統已有的多層次的綜合路徑層層細化,找出事實發生的原因。
假設今年銷售量下降,那么解釋模型應當能找出原因,即下滑與時間、地區、商品及銷售渠道四者中的何種因素有關。5(3)思考模型說明在一維或多維上引入一組具體變量或參數后將會發生什么。例如該公司決策者為了了解某商品的銷售量是否與顧客的年齡有關,引入了行變量-年齡,即在當前的多維視圖上增加了顧客的年齡維。6(4)公式模型該模型表示在多個維上,需要引入哪些變量或參數,以及引入后所產生的結果。公式模型自動完成上述變量引入工作,從而最終找出與銷量有關的全部因素,并給出了引入后的結果。73.商業分析模型(1)分銷渠道的分析模型(2)客戶利潤貢獻度模型(3)客戶關系(信用)優化模型(4)風險評估模型8(1)分銷渠道的分析模型通過客戶、渠道、產品或服務三者之間的關系,了解客戶的購買行為、客戶和渠道對業務收入的貢獻、哪些客戶比較喜好由什么渠道在何時和銀行打交道。為此,銀行需要建立客戶購買傾向模型和渠道喜好模型等。9(2)客戶利潤貢獻度模型通過該模型能了解每一位客戶對銀行的總利潤貢獻度。知道哪些利潤高的客戶需要留住,采用什么方法留住客戶,交叉銷售改善客戶的利潤貢獻度,哪些客戶應該爭取,完成個性化服務。10(3)客戶關系(信用)優化模型銀行對客戶的每一筆交易中,知道客戶需要什么產品或服務,例如,定期存款是希望退休養老使用,申請信用卡需要現金消費,詢問放貸利息需要住房貸款等。通過模型計算,主動地對客戶溝通并進行交叉銷售,達到留住客戶和增加利潤的目標。11(4)風險評估模型模擬風險和利潤間的關系,建立風險評估的數學模型:
在滿足高利潤、低風險客戶需求的前提下,達到銀行收益的極大化。123.4.4數據立方體1.概述
1996年,JimGray等首次提出了數據立方體(DataCube)的概念。
數據立方體就是數據倉庫結構圖(圖2.1)中的綜合數據層(輕度和高度)。基于數據立方體的生成方法一直是OLAP和數據倉庫領域研究者所關注的熱點問題。13對于多維數據分析而言,本質上是沿著不同的維度進行數據獲取的過程。在數據立方體中,不同維度組合構成了不同的子立方體。不同維值的組合及其對應的度量值構成了不同的查詢和分析。數據立方體的構建和維護等計算方法成為了多維數據分析研究的關鍵問題。14OLAP和數據倉庫通常預先計算好不同細節層次和不同維屬性集合上的聚集,并把聚集的結果存儲到物理磁盤上(稱為物化)。把所有可能的聚集(即全聚集)都計算出來,可以得到最快的系統查詢響應時間,15數據立方體是在所有可能組合的維上進行分組聚集運算(groupby操作)的總和。聚集函數有:sum()、count()、average()等。數據立方體中的每一個元組(立方體的度量屬性)被稱為該立方體的上個格(
cell),每個格在n個維屬性上有相應的值。在未參與groupby操作的維屬性上具有All值(用﹡表示),而在參與groupby
操作的維屬性具有非All值。16例如,對于一個具有三個維屬性A、B、C和一個度量屬性M的數據集R(A,B,C,M).其對應的數據立方體是在維屬性集{},{A},{B},{C},{AB},{AC},{BC},{ABC}上分別對度量屬性進行聚集操作后的并集。其中:{}表示進行聚集運算{*,*,*,聚集函數(M)};{A}表示進行聚集運算{A,*,*,聚集函數(M)}等。17這些聚集運算與操作結果是數據倉庫中的一種高度綜合級數據.實質上是進行了數據的濃縮(壓縮),也可稱為泛化。最終所獲得的這些數據立方體可用于決策支持、知識發現,或其它許多應用。18例如,對如表3.12所示的超市的基本數據集POS(product,type,counter,price),前三個屬性分別代表(產品名、類型、柜臺)為維屬性.
現在對度量屬性價格price進行取平均值(average)的聚集運算,通過Cube
操作可以得到一個具有三個維屬性和一個度量屬性的數據立方體Dpos,如表3.13所示。19表3.12基本數據集POS
product type counter price KONKA TVSET 011000TCL TVSET 011500NOKIA PHONE 01200020product type counter M(AVG(price))﹡
﹡
﹡1500KONKA ﹡
﹡1000TCL
﹡
﹡1500NOKIA
﹡
﹡2000﹡
TVSET ﹡1250﹡PHONE﹡2000﹡
﹡011500KONKA TVSET ﹡1000TCL TVSET ﹡1500NOKIAPHONE﹡2000﹡TVSET 011250﹡PHONE 012000KONKA ﹡011000TCL ﹡011500NOKIA﹡012000KONKATVSET 011000TCL TVSET 011500NOKIAPHONE 01200021全聚集的數據占據的空間是原始數據空間的數百倍,花費很長時間。故數據立方體構建部分物化:即按照一定的規則選擇數據立方體的一個子集進行預先計算。這種選擇是存儲空間和響應時間的一種折衷。22典型的壓縮型數據立方體,包括:
冰山立方體、緊湊數據立方體、外殼片段立方體等。隨著流式數據處理技術的發展,流立方體生成方法越來越受到領域研究者的關注。23(1)冰山立方體在冰山立方體的生成計算中,僅聚集高于(或低于)某個閾值的子立方體。數據立方體的空間多數,被低(或高)度量值的數據單元所占據,而這些數據單元往往是分析者很少關心的內容。這種方法的優點是能夠減少構建數據單元所占用的存儲空間。24例如,在表3.12中,設定聚集運算條件:M(AVG(price))
≤1250,其冰山立方體為表3.14所示。表3.14
基本數據集POS的冰山立方體
product type counter M(AVG(price))KONKA ﹡
﹡1000﹡
TVSET ﹡1250KONKA TVSET ﹡1000﹡TVSET 011250KONKA ﹡011000KONKATVSET 01100025(2)緊湊數據立方體生成方法緊湊數據立方體生成方法的一個重要特點是能夠保持數據立方體的鉆取操作的語義。這種緊湊數據立方體生成方法在壓縮的方式和表現形式上表現出有不同的特征,包括:濃縮立方體(Condensedcube)、商立方體(Quotientcube)等,這些都是近年來出現的一系列新型的數據立方體的存儲結構。26濃縮立方體濃縮立方體計算方法的基本原理是,在某些屬性或組合下的一個元組相對于其它元組具有唯一性,則稱為基本單一元組(BST,BaseSingleTuple)。當它的超集(增加屬性組合)也是BST,且都是取同一度量值,在聚集運算時,可以把這些屬性的度量值對應的元組壓縮成一條元組存儲。27屬性{product}的所有超集{product,type},{product,counter},{product,type,counter }也是BST,且都具有相同值。如{KONKA,﹡,﹡,1000},{KONKA,TVSET,﹡,1000},{KONKA,﹡,01,1000},{KONKA,TVSET,01,1000},故可以將這些元組壓縮存儲為一條元組{KONKA,﹡,﹡,1000}。同理,屬性{type}中,其屬性值為PHONE的元組是BST,它和它的超集也可以壓縮存儲為一條元組{﹡,PHONE,﹡,2000}。經過這樣的濃縮后,表3.13的的濃縮立方體為表3.15。28表3.15基本數據集POS的濃縮立方體product type counter M(AVG(price))﹡
﹡
﹡1500KONKA ﹡
﹡1000TCL
﹡
﹡1500NOKIA
﹡
﹡2000﹡
TVSET ﹡1250﹡PHONE﹡2000﹡
﹡011500﹡TVSET 01125029可以看出濃縮立方體是全聚集立方體的有效濃縮。由于在一般的應用中,當屬性個數較多時,BST是廣泛存在的。一般來說,其壓縮率可以達到30%~7O%。303.4.5多維數據分析的MDX語言
及其應用1.MDX語言簡介MDX(MultiDimensionaleXpressions,多維表達式)是聯機分析處理(OLAP)和數據倉庫應用中最廣泛使用的軟件語言(維度語言)。MDX語言可以查詢和管理多維數據倉庫,MDX表達式可以用來創建新的計算成員。31MDX與SQL的比較相同:MDX與SQL都包含“選擇對象”(select子句)、“數據源”(from子句)以及“指定條件”(where子句),不同:MDX結合了多維數據集,指定“維度”(On子句)和“創建表達式計算的新成員”(MEMBER子句)。MDX語法還包含功能強大的函數,以協助數據處理與挖掘。32具體說明
(1)關鍵字SELECT后帶需要檢索內容的子句。 (2)關鍵字ON和維度(坐標軸)的名稱一起使用,以指定數據庫維度顯示位置。(3)MDX用大括號{}包含某個特定維度或者多個維度的一組元素。一個維度(度量維度或時間維度)的多個元素間用逗號(,)隔開。元素名稱用方括號[]引用,并且不同組成部分之間用點號(.)分隔。33(4)在一個MDX查詢中,不同查詢的維度(坐標軸)的數量可能不同。前三個坐標軸以“columns”、“rows”及“pages”命名,更多的坐標軸命名為:chapters、section等。也可以統一用axis(0)、axis(l)、axis(2)等表示坐標軸。 (5)MDX查詢中FROM子旬指明用于查詢數據的多維數據集。 (6)WHERE子句指定在列或行(或者其他的坐標軸)上沒有出現的多維數據集的成 員。 342.多維數據查詢在多維數據集中用得最多的查詢是對多維數據的切片查詢,通過不同角度的切片來發現問題。通過下鉆操作一般用來查詢問題的原因。下面分別通過切片查詢和向下鉆取操作例子進行說明。35例1:切片查詢在多維數據集Sales中,顧客所在的MA州,對時間2009年Q1(1季度)和Q2(2季度)的銷售額DollarSales和銷售數量UnitSales的情況,進行切片查詢。MDX語言的切片查詢語句:36SELECT {[Measures].[DollarSales],[Measures].[UnitSales]} Oncolumns, {[Time].[Q1,2009],[Time].[Q2,2009]}Onrows FROM[Sales] WHERE([Customer].[MA]) 37切片查詢結果DollarSalesUnitSalesQ1,200996,949.13866Q2,2009
104,510.2
412538例2:向下鉆取操作一種常用的查詢是獲得一個成員的子成員。這么做的目的是執行一個向下鉆取操作,即獲得基于一個共同父成員的范圍內的成員。MDX提供.Children函數來完成這個操作。39下面將對多維數據集Sales中,顧客所在的TX州,向下鉆取查詢:工具產品[Product].[Tools]成員和它的子成員(Tool1、…Tool5),以及2009年Q3(3季度)成員的子成員(7、8、9)三個月的銷售數量[Measures].[UnitSales]情況。MDX語言的向下鉆取操作語句如下:40SELECT {[Time].[Q3,2009].Children}oncolumns, {[Product].[Tools],[Product].[Tools].Children} Onr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 共享渣土車租賃合同標準文本
- 公司電子合同樣本
- 個人和公司加工合同樣本
- 公司贈與合同樣本
- 買賣巴西白糖合同樣本
- 農副產品包裝運輸合同樣本
- 養生勞動合同樣本
- 專家輔導合同樣本
- 臨時服務用工合同樣本
- 修繕流水別墅合同樣本
- 高速公路工程質量管理制度匯編
- 2025年春形勢與政策第二學期練習題、知識點梳理
- 2025年精密注塑市場分析報告
- 2025屆浙江省杭州市下學期高三考前(二模)語文試題試卷含解析
- 北師大版二年級數學下冊全冊10套試卷(附答案)
- 二年級下冊語文-第五單元單元解讀-人教版
- 肺功能培訓課件
- 基于UbD理論小說敘事視角的群文閱讀設計
- 植物花粉和花藥培養.PPT
- (完整word版)成績證明模板(一)(word文檔良心出品)
- aci318r08混凝土結構設計規范(中文版)
評論
0/150
提交評論