商業智能內訓_第1頁
商業智能內訓_第2頁
商業智能內訓_第3頁
商業智能內訓_第4頁
商業智能內訓_第5頁
已閱讀5頁,還剩38頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

商業智能引見內訓資料江蘇富深協通數碼技術

2007年04月23日.目錄商業智能概念與原理富深研發中心BI組階段性成果.商業智能產生的背景隨著信息技術的普及,各級政府和企業建立了大量的業務信息系統,這些業務系統存儲了大量的、有價值的數據,如部門預算、目的、工資及單位資料等。雖然如此,高層指點和管理人員在面對動態的、不確定的外部環境和內部環境時,卻不知道從何處去得到決策所需求的信息,有時即使知道,由于效率太低的問題也不能進展所需求的數據分析。為了改動這種“數據泛濫,知識貧乏〞的局面,商業智能便應運而生。.商業智能的概念商業智能也稱作BI(BusinessIntelligence),是企業利用現代信息技術搜集、管理和分析構造化和非構造化的商務數據和信息,發明和積累商務知識和見解,完善各種商務流程,改善商務決策程度,采取有效的商務行動,提升各方面商務績效,加強綜合競爭力的智慧和才干,是將企業中現有的數據轉化為知識,協助企業做出明智的業務運營決策的工具。商務智能是運用了數據倉庫、聯機分析處置和數據發掘技術來處置和分析數據的技術,它允許用戶查詢和分析數據庫或數據倉庫,進而得出影響商業活動的關鍵要素,最終協助用戶做出更好、更合理的決策。.商業智能的信息層次

商業智能商業價值驅動決策支持分析型報告操作型報告.商業智能體系構造數據源數據倉庫數據集市?數據采集及整合數據的映射規那么、模型。。。

〔元數據管理〕商業智能工程流程管理及系統性能管理和監控?數據展現及決策部門預算預算執行工資統發外部收入分析支出分析目的分析多維分析儀表盤數據發掘終端用戶終端用戶.數據倉庫的概念數據倉庫之父WilliamH.Inmon在<BuildingtheDataWarehouse>中,將數據倉庫定義為“一個面向主題的、集成的隨時間變化的非易失性數據的集合,用于支持管理層的決策過程〞。.數據倉庫的特性面向主題典型的主題領域:收入分析;支出分析;目的分析集成的數據抽取、清理、轉換、裝載非易失的數據倉庫的數據通常是一同載入和訪問的,但并不進展普通意義上的數據更新隨時間的變化性數據倉庫中的時間期限要遠遠長于操作型系統中的時間期限〔5~10年〕;數據倉庫中的數據是一系列某一時辰生成的復雜快照;數據倉庫的鍵碼構造總是包含某時間元素。.數據倉庫的幾個重要概念主題從信息管理的角度看,主題就是在一個較高的管理層次上對信息系統中的數據按照某一詳細的管理對象進展綜合、歸類所構成的分析對象。從數據組織的角度看,主題就是一些數據集合,這些數據集合對分析對象進展了比較完好的、一致的數據描畫,這種描畫不僅涉及數據本身,還涉及數據之間的聯絡。.數據倉庫的幾個重要概念

某個“客戶〞在特定“時間〞、特定“地點〞購買了一個“產品〞,發生了購買活動。這是一個根本的業務事件。現實是從市場捕捉到的事件的一個度量,它是客戶在特定時間和地點與產品發生作用時的瞬時值。這個事件的參考實體“客戶〞、“時間“、“地點〞和“產品〞,稱之為維。數據倉庫中的現實定義為維的交叉點。維和現實.數據倉庫的幾個重要概念粒度所謂粒度是指數據倉庫中數據單元的詳細程度和級別。數據越詳細,粒度越小級別就越低;數據綜合度越高,粒度越大級別就越高。粒度越小,細節程度越高程度越低,回答查詢的種類就越多。.銷售地域西南華中華東四川云南河南湖北江蘇上海維的層次級別成員.數據集成的背景一致性問題:業務信息系統建立相對分散,缺乏一致規劃和一致的數據平臺。共享性問題。各業務流程之間缺乏順暢的系統銜接,數據共享困難,數據的利用率比較低,構成信息孤島。管理程度問題:指點需求從整體上對業務數據進展查詢和分析,以便作出科學決策,現有的系統難以滿足要求。平安性問題:各業務系統平安措施差次不齊,隨著運用需求的不斷擴展,有待于建立規范的平安系統。.數據集成數據集成普通稱為ETL(Extract,Transformation,Loading,抽取、轉換、加載),就是對原有的,分散的,陳舊的數據進展批量的提取、轉換、加載,使它們成為對OLAP(聯機分析系統)和數據發掘等決策分析有用的數據。ETL工具既可以滿足用戶對種類繁多的異構數據源進展整合的需求,又可以經過增量方式進展數據的后期更新。.數據抽取支持跨平臺:支持UNIX、Windows98/NT/2000/2003、Linux等操作系統。集成異構的數據源:支持Oracle、Sybase、SqlServer、DB2等業界主流數據庫軟件平臺;支持文件數據源,支持JDBC、ODBC、OLE-DB接口,XML接口,音訊隊列以及WebSevice運用接口等。數據抽取過程的調度:抽取過程的備份與恢復;支持時間觸發方式;支持事件觸發方式;支持命令行執行方式等。.數據轉換選擇過濾:從源系統中選擇整個記錄或者部分記錄。分別/合并:對源系統中記錄中的數據進展分別操作或者對很多源系統中選擇的部分數據進展合并操作。排序:對源系統中的數據按某幾個字段進展排序操作。轉化:對字段的轉化包括對源系統進展規范化和使字段對用戶來說是可用和可了解的。匯總:數據倉庫中需求保管很多匯總數據。這需求將最低粒度數據進展匯總。計算值:根據某個公式進展假設干字段的計算。.數據加載數據裝載完成將轉換好的數據存儲到數據倉庫的義務。數據裝載類型主要有3種方式:最初裝載、增量裝載和完全刷新。.數據倉庫建模的目的數據倉庫的數據模型中不包含操作型的數據,數據倉庫的數據模型只包含用戶所感興趣的分析數據、描畫數據和細節數據。數據倉庫的數據模型擴展了關鍵字構造,添加了時間屬性作為關鍵字的一部分。數據倉庫的數據模型中還添加了一些由根本數據所導出的衍生數據,這些導出的衍生數據主要用于對企業的管理決策進展分析。.數據倉庫建模的步驟維表建模:每一張維表對應現實世界中的察看事件的一個角度,如時間、地域、預算科目等現實表建模:每一個現實表通常包含了處置所關懷的一系列的度量值數據倉庫建模:維表和現實表按相互關系組織成數據倉庫模型,常見的有星型模型和雪花模型聚合表設計:性能思索.星型模型中心是現實表,圍繞現實表的是維度表。經過現實表將各種不同的維度表銜接起來,各個維度表都銜接到中央現實表。星型模型現實表維度表維度表維度表維度表維度表.雪花模型是對星型模型的擴展,每一個維度都可以向外銜接到多個詳細類別表。雪花模型對星型模型的維度表進一步規范化,對星型模型中的維度表進展了規范化處置。現實表維度表維度表維度表維度表維度表詳細類別表詳細類別表雪化模型.星型模型例如VendordataVendordataVendordatavendor_id供應商cust_id客戶order_id發貨OrderdataOrderdataorder_id訂單CustdataCustdataCustdataMoneydataOrderdataOrderdataOrderdata產品ProductdataProductdataProductdataProductidVendoridMoneydatacustidMoneydataorderidMoneydataproductid.聯機分析處置〔OLAP〕的概念聯機分析處置OLAP〔On-LineAnalyticalProcessing〕是一類與聯機事務處置OLTP〔On-LineTransactionProcessing〕有明顯區分的軟件技術,它使分析人員、管理人員或執行人員可以從多角度對信息進展快速、一致、交互地存取,從而獲得對數據的更深化了解。OLAP的目的是滿足決策支持或者滿足在多維環境下特定的查詢和報表需求,它的技術中心是"維"這個概念。.OLAP的特征

1.快速性系統能在數秒內對用戶的多數分析要求做出反響2.可分析性用戶無需編程就可以定義新的專門計算,將其作為分析的一部分,并以用戶所希望的方式給出報告3.多維性提供對數據分析的多維視圖和分析4.信息性能及時獲得信息,并且管理大容量信息.

地域產品北京上海化裝品江蘇玩具浙江服裝電器1234時間〔月〕(上海,4月,電器,10000〕OLAP可以為是在多維數據集進展分析操作的工具集合。根本的多維分析操作有鉆取〔上卷和下鉆〕、切片、切塊、及旋轉等。銷售多維數據集OLAP與多維分析.切片

地域產品北京上海化裝品江蘇玩具浙江服裝電器1234時間〔月〕對多維數據集的某一個維或多個維選定成員,稱為切片(slice)。切片的維數取決于原來多維數據集的維數。以下圖為在產品維選定“電器〞后的切片。服裝切片.切塊

地域時間〔月〕北京上海4江蘇3浙江21化裝品玩具電器服裝產品對多維數據集的某一個維或多個維選定成員集合,稱為切塊(dice)。切塊的維數取決于原來多維數據集的維數。以下圖為在時間維選定{“1月〞,“2月〞,“3月〞}集合的切塊。服裝切片服裝切片.上卷地域產品華北化裝品華東玩具服裝電器1234時間〔月〕上卷是指沿某一個維的層次向上爬升,例如地域維成員{“北京〞,“上海〞,“江蘇〞,“浙江〞}向上爬升為{“華北〞,“華東〞},使銷售數據按地域維進展聚集,或稱為匯總。.下鉆

地域產品蘇州無錫化裝品常州玩具鎮江服裝電器1234時間〔月〕下鉆是上卷的逆向操作,沿某一個維的層次向下細化,例如地域維成員{“江蘇〞}細化為{“蘇州〞,“無錫〞,“常州〞,“鎮江〞},使銷售數據按地域維向下尋覓細節數據的過程。.旋轉用戶經常希望改動多維數據集顯示的維方向,稱為多維數據集的旋轉(rotate)操作。如原來橫坐標為時間維,縱坐標為地域維。經過旋轉可以使橫坐標為地域維,縱坐標為時間維。2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294.旋轉

北京市上海市天津市

2002年1季度12313467

2季度5610373

3季度459859

4季度6687962003年1季度13410273

2季度5613969

3季度239762

4季度558294.OLAP與數據倉庫的關系OLAP獨立于數據存儲的詳細方式,是以數據倉庫(DW)或數據庫為根底,其最終數據來源是底層的OLTP數據庫系統,但主要數據源是數據倉庫。OLAP對數據的任何分析懇求要在一個穩定一致的時間內,給子呼應,所以在分析操作前,先將所需數據從OLTP數據庫中搜集、挑選、轉換、合并與匯總,而管理人員需求的也是從更高層次、全局的角度了解數據,故數據倉庫是最好的選擇。.OLAP的數據組織方式存儲組織方式主要有MOLAP、ROLAP和HOLAP三種。MOLAP〔MultidimensionalOLAP):MOLAP利用一個專有的多維數據庫來存儲OLAP分析所需的數據,數據以多維方式存儲,并以多維視圖方式顯示。ROLAP〔RelationalOLAP〕:ROLAP利用一個關系數據據庫來存儲OLAP分析所需的數據。HOLAP〔HOLAP,HybridOLAP〕:HOLAP用關系表存儲現實表和維表,利用專有的多維數據庫來存儲聚集表。.數據發掘的概念從商業角度看,數據發掘是一種嶄新的商業信息處置技術,其主要特點是對商業數據庫中的大量業務數據進展抽取、轉化、分析和方式化處置,從中提取輔助商業決策的關鍵知識。從技術角度看,數據發掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實踐數據中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。.數據發掘與傳統數據分析比較傳統數據分析工具數據挖掘工具工具特點回顧型的、驗證型的預測型的、發現型的分析重點已經發生了什么預測未來的情況、解釋發生的原因分析目的從最近的銷售文件中列出最大客戶鎖定未來的可能客戶,以減少未來的銷售成本數據集大小數據維、維中屬性數、維中數據均是少量的數據維、維中屬性數、維中數據均是龐大的啟動方式企業管理人員、系統分析員、管理顧問啟動與控制數據與系統啟動,少量的人員指導技術狀況成熟統計分析工具已成熟,其他工具正在發展中.數據發掘與數據倉庫的關系大多數數據發掘工具需求在集成的、一致的、經過清理的數據上進展發掘。數據發掘所需求的數據與數據倉庫所能提供的數據要求相符合。數據發掘技術在數據倉庫中的運用,正好彌補了數據倉庫只能提供大量數據,而無法進展深度信息分析的缺陷,提高了數據倉庫的利用價值。.數據發掘的過程確定發掘對象預備數據建立模型數據發掘結果分析知識運用階段源數據集成數據目的數據預處置數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論