專題分析-商務智能_第1頁
專題分析-商務智能_第2頁
專題分析-商務智能_第3頁
專題分析-商務智能_第4頁
專題分析-商務智能_第5頁
已閱讀5頁,還剩196頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

【專題】商務智能

1什么是商務智能?2業務層面的商務智能-業務流程可視化3數據觀察和數據分析的基礎-數據倉庫4數據觀察層面的商務智能-在線分析處理(OLAP)5數據分析層面的商務智能-數據挖掘商務智能1.1“商務智能”的本質1.2商務智能應用層次1.3商務智能應用發展1.4“商務智能”從何而來?1.5案例:三類典型業務管理中的商務智能1什么是商務智能?

對企業本身而言,商務智能是指一種能力,即通過智能地使用企業的數據財產(知本)來制定更好的商務決策。從本質上講,商務智能是幫助企業提高決策能力和運營能力的方法、過程以及軟件的集合,其主要目標是將企業所掌握的信息轉換成競爭優勢,提高企業決策能力、決策效率、決策準確性。商務智能幫助識別、理解公司的運營數據,將其轉化成為高價值的可以獲取的信息(或者知識),并且在恰當的時候、通過恰當的方式、把恰當的信息、傳遞給恰當的人。1.1“商務智能”的本質

商務智能(BusinessIntelligence,BI)已經成為企業創造更多盈利的關鍵。商務智能能夠讓企業從現有的“知本”中提煉更多的有價值的知識。BI已經緊緊地與“知本”和“知識”結合在一起,牢不可分。

生產“商務智能”的”原材料”和”產品”1.1“商務智能”的本質1.2商務智能應用層次1.3商務智能應用發展1.4“商務智能”從何而來?1.5案例:三類典型業務管理中的商務智能1什么是商務智能?

簡單的報告和查詢在線分析處理(OLAP)經理信息系統(EIS)

數據挖掘外網1.2商務智能應用層次去年我們X產品的銷售量是多少?我們擁有多少客戶?用戶向系統提出的問題是:“告訴我發生了什么”。我們的產品在哪個國家獲得了最大的成功?哪部分客戶購買了我們的絕大部分產品?用戶在簡單報告的基礎上,進一步提出更多問題。預測哪種客戶最有可能購買我們的新產品。市場營銷戰略更為有針對性,成本降低。用戶的問題是:“告訴我未來會發生什么”。1.1“商務智能”的本質1.2商務智能應用層次1.3商務智能應用發展1.4“商務智能”從何而來?1.5案例:三類典型業務管理中的商務智能1什么是商務智能?中國大多數企業進行商務智能項目試驗時,也是從部署部門戰略開始的。試驗期大約6~12個月。西方企業大約10年前開始部署部門商務智能部門商務智能現已涵蓋了企業的某一業務領域,如生產、人力資源或財務西方企業用了大約5年時間建立了企業級的商務智能系統及其外網1.3商務智能應用發展1.1“商務智能”的本質1.2商務智能應用層次1.3商務智能應用發展1.4“商務智能”從何而來?1.5案例:三類典型業務管理中的商務智能1什么是商務智能?這些問題的答案都在業務流程和數據中。業務運行離不開數據,業務和數據的聯系形成信息,而信息造就智能。1.4“商務智能”從何而來?(1)“商務智能”從業務及其數據得來企業如何才能獲得所要求的智能?企業如何利用智能來培養客戶的忠誠度并使企業盈利?企業怎樣才能在競爭中勝出?例如,美國阿肯色州小石城的一位消費者花14.95美元在網站上購買了一張埃爾頓·約翰(EltonJohn)的CD唱片,它導致交易數據庫中的一項記錄(數據)。1.4“商務智能”從何而來?

數據——未經加工和修飾的原料(2)數據、信息和智能例如,從小石城那位消費者購買CD唱片的數據,可聯合其它數據得到顧客性別、收入對埃爾頓·約翰CD唱片的購買情況(信息),它是業務人員對采集來的原始數據進行提煉、分選、聯合得來的。這些信息可以用來分析產品的盈利性、未來購買趨勢等。(2)數據、信息和智能1.4“商務智能”從何而來?信息——含有一定商務價值和意義的數據例如,唱片公司的一些營銷人員在分析了一個月的購買記錄后,發現新版埃爾頓·約翰唱片最受歐洲“嬰兒潮”中出生的人群所歡迎(智能)。公司便采取措施直接針對這類消費群體進行市場促銷(智能應用),從而將倉庫中積壓的埃爾頓·約翰的舊作推銷一空。1.4“商務智能”從何而來?(2)數據、信息和智能智能——對信息、過去的行為以及未來預測進行完整評價的基礎上發現的業務規律,及其指導業務實踐的活動。1.4“商務智能”從何而來?從數據產生智能的過程-小案例菲亞特公司一直從兩個供應商A和B手中購買凸型螺帽,并把關于從兩處購買的螺帽的數量和價格的“數據”分別存放在兩個數據庫中。當兩個數據庫結合在一起時,數據就成了“信息”。信息表明供應商A比供應商B提供的螺帽單價多了0.1美元。采購人員了解了這一情況,便產生了集體“智能”,調整采購策略,從而為公司節省了巨大的開支。①商務智能技術應用面臨的問題②有用信息(知識)的表達方法—智能的根本:商務規律③分析器的兩種形式—獲取知識的工具1.4“商務智能”從何而來?(3)商務智能應用的關鍵6.2數據挖掘應用技術■對企業決策者來說,什么是潛在有用的信息?■有用信息如何表達?更進一步說如何規范化表達?■有用信息如何獲得?1.4“商務智能”從何而來?①商務智能技術面臨的問題有用信息的自然描述-事實(Fact)對一個企業決策者來說,“有用信息”實際上是從“行數據”中總結出來的一些“事實”。1.4“商務智能”從何而來?②有用信息(知識)表達的方法(事實與規則)“…我公司1997年全年的鋼材產量完全達到了國家的計劃要求。從總的銷售情況來看,基本上完成了全年的銷售計劃,全年實現銷售利稅500億元。當然,個別品種我們尚未打開市場,如造船板。在取得成績的同時,我們也應看到如下事實,即我們的產品幾乎都銷往東北地區,其它地區的市場占有率幾乎全部喪失,個別地區,如廣東、海南地區甚至不足1%。…”1.4“商務智能”從何而來?有用信息的自然描述例在這段報告中我們注意到如下“有用信息”的表達方式:■1997年全年鋼材產量完全達到了國家計劃要求。■銷售基本上完成了上一年的銷售計劃。■產品幾乎都銷往東北地區。■個別地區,如廣東、海南地區市場占有率甚至不足1%。1.4“商務智能”從何而來?有用信息的自然描述(事實)例(續)觀察下面的產品按地區的銷售情況表:我們得出以下結論(事實):1998年2月大部分銷售都集中在東北地區1.4“商務智能”從何而來?有用信息的規范化描述—規則總結有用信息的表達方式,我們得到下面的有用信息(知識)的規范化表達方式為:IF條件THEN結論(確信度,支持行數)■確信度(Confidence):所關注列具有相同值的結論行值占所查詢行值總計的百分比。■支持行數:滿足此模式條件的行數。

1.4“商務智能”從何而來?“規則”的一般形式■固定格式的分析器■事實發現器(規則發現器)數據固定格式分析器事實發現器用戶1.4“商務智能”從何而來?③從“數據”得到“知識”的分析器有兩種形式

事實發現器有時稱為“事實搜索引擎”,它是從數據中搜索商業事實(規則)的搜索工具。

1.4“商務智能”從何而來?“事實發現器”是商務智能的核心!1.1“商務智能”的本質1.2商務智能應用層次1.3商務智能應用發展1.4“商務智能”從何而來?1.5案例:三類典型業務管理中的商務智能1什么是商務智能?BI市場分析員銷售經理采購經理他們在日常商務工作中會提出哪些問題?他們如何利用商務智能工具有效解決這些問題?1.5案例:三類典型業務管理中的商務智能(一)某玩具公司管理中的商務智能-銷售經理

離本財務季度完結還剩下4周的時間,按照慣例,全美銷售部門副總經理羅伯特需要向其上司——全美銷售部門總經理進行工作匯報,他關心的首要話題總是:本財務季度的銷售狀況如何?為了準備這次匯報,羅伯特借助商務智能工具,做了如下工作:全美地區銷售數據第幾周123456789101112銷售指標250預計收入130135140145152160170185202訂貨額515305080120130150175預計收入/銷售指標52%54%56%58%61%64%68%74%81%訂貨額/銷售指標4%11%21%34%53%75%76%81%87%

(1)瀏覽定時自動更新的全美銷售周報表,查看銷售預測、銷售指標和訂貨額等指標的狀態。(一)某玩具公司管理中的商務智能-銷售經理

(周)153.519920%21%運營預算支出成本計劃運營利潤實際運營利潤(一)某玩具公司管理中的商務智能-銷售經理

從銷售報表中可以清楚看到:銷售預測數據低于本財務季度的銷售指標執行花費低于本財務季度的預算訂貨情況與銷售預測相吻合(一)某玩具公司管理中的商務智能-銷售經理

東部地區銷售數據第幾周123456789101112銷售指標80預計收入242529323638414345訂貨額136101626323842預計收入/銷售指標30%31%36%40%45%48%51%54%56%訂貨額/銷售指標4%12%21%31%44%68%78%88%93%(2)羅伯特進一步了解了全美各地區(東部、中部和西部)的銷售細節。(一)某玩具公司管理中的商務智能-銷售經理

年份:2000季度:第一季度地區:東部單位:100萬美元376419%18%東部運營預算東部支出成本預計運營利潤實際運營利潤從宏觀到微觀的分析轉換——“下鉆”(Drilldown)反之,從微觀到宏觀的轉換——“上鉆”(Drillup)(周)(一)某玩具公司管理中的商務智能-銷售經理

觀察數據中的某一層面——切片(Takingaslice)(一)某玩具公司管理中的商務智能-銷售經理

(3)羅伯特決定根據銷售渠道(直接銷售和間接銷售)了解各地區的主要表現指標(包括訂貨情況、預計收入、銷售指標、項目執行支出等)。銷售信息立方體

銷售地區東部中部西部銷售渠道間接直接財政季度第4季度第3季度第2季度第1季度切片分析表明:預測銷售的下降起源于銷售渠道中的直接銷售方面。(一)某玩具公司管理中的商務智能-銷售經理

根據某一特定季節進行的切片分析根據某一特定銷售地區進行的切片分析

銷售地區銷售渠道

財政季度

銷售地區銷售渠道

財政季度決策者不但要了解主要的業務指標,還要按照地區、銷售渠道和時間范圍等不同視角去了解業務各指標的情況——多維分析(Multidimensionalanalysis)切片分析表明:東部地區的銷售預測比較低。(一)某玩具公司管理中的商務智能-銷售經理

(一)某玩具公司管理中的商務智能-銷售經理

(4)羅伯特通過進一步“鉆取”,查看了東部地區每一位銷售代表的訂貨情況和銷售預測。但是這一項工作對他并沒有什么幫助。每一位銷售代表的業績都達到或接近他們的銷售指標,這樣并不能解釋為什么銷售預測比較低。東部地區個人直銷數據銷售代表銷售指標預計收入訂貨額預計收入/銷售指標訂貨額/銷售指標Sarah3.53.73.5106%100%Andrew1.52.02.9133%193%Alex2.52.62.5104%100%Michelle1.01.11.0110%100%Chole4.55.04.9111%109%Taphael1.01.51.4150%140%Max4.04.14.0103%100%Ryan2.02.12.0105%100%Keeton1.01.51.3150%130%Stephanie5.05.15.0102%100%Jenniter2.02.12.0105%100%Abigail1.01.01.0100%100%Isabel6.05.64.893%80%Theodore1.00.80.680%60%(一)某玩具公司管理中的商務智能-銷售經理

(一)某玩具公司管理中的商務智能-銷售經理

(5)羅伯特發現東部地區的執行花費維持在一個比較低的水平。由于銷售地區的銷售費很大程度上取決于推銷隊伍的工資。因此,他懷疑可能是雇傭的推銷人員不足導致了銷售費用和預計利潤的低下。于是,他建立了一個能夠按月顯示東部地區最近兩個財務季度的預計人員和實際人員的對照表。東部地區預算人員和實際人員的對照圖(單位:人)分析得到:東部雇傭銷售人員費用的下降以及雇傭地銷售人員人數的不足導致了銷售預測的下降。(一)某玩具公司管理中的商務智能-銷售經理

(6)羅伯特利用鉆取的方法按州查看同樣的指標,報告顯示其他三個州也同樣存在銷售人員短缺的問題。他與東部地區的銷售經理通了電話后,這個分析結果得到了肯定。(一)某玩具公司管理中的商務智能-銷售經理

(二)一家銀行信用卡部門的商務智能-市場分析員

露茜是一家銀行信用卡部門的市場分析員,她的工作是確定市場促銷的目標及其前景。由于爭取新客戶的費用遠遠大于穩定現有顧客的成本,因此露茜必須確定此次促銷活動最理想的客戶群體。她關心的第一個問題是:常客們是否是銀行的受益顧客?為了回答這個問題,露茜做了以下工作。(二)一家銀行信用卡部門的商務智能-市場分析員

(1)制定標準,劃定對象范圍。常客指的是每月至少使用一次信用卡的顧客。受益顧客是指為銀行帶來最好回報的顧客,特別是那些有透支行為,但通常在30~60天之內就支付透支額的顧客。受益顧客他們既為銀行帶來了利息收入又帶來了滯納金。(2)利用商務智能工具,建立一個能夠顯示那些既是常客,又是受益顧客的用戶清單報告,即收益顧客與常客的交集部分。受益顧客與常客的數量比較報告72051760825124常客受益顧客顧客分類顧客人數常客76082受益顧客72051(二)一家銀行信用卡部門的商務智能-市場分析員

報告表明,銀行所喜歡的顧客,一般來講并不是那些使用信用卡的常客。因此露茜制定的促銷策略為:針對受益顧客進行促銷,努力提高他們的信用卡使用頻率,使其成為常客。(二)一家銀行信用卡部門的商務智能-市場分析員

(二)一家銀行信用卡部門的商務智能-市場分析員

(3)受益顧客的數量超過72000位,但露茜的促銷預算只允許達到36000位顧客(她想送給每一位目標客戶一個價值1.25美元的促銷袋)。因此,露茜迎來了第二個問題:促銷應針對哪一部分受益顧客?露茜利用商務智能工具得到了顧客特征的精確描述,同時也確定了辨別受益顧客的重要因素。數據挖掘報告——決策樹401709個記錄帳戶平衡:24378960.7%延遲60天:8586921.4%延遲30天:7205117.9%婚姻狀況=寡居36519個記錄帳戶平衡:789621.6%延遲60天:1677945.9%延遲30天:1188432.4%婚姻狀況=獨身65142個記錄帳戶平衡:1974030.3%延遲60天:987015.2%延遲30天:3553254.5%婚姻狀況=已婚300048個記錄帳戶平衡:21615372.0%延遲60天:5922019.7%延遲30天:246758.2%居住情況=租房42441個記錄帳戶平衡:9872.3%延遲60天:592214.0%延遲30天:3553283.7%居住情況=自有房屋22701個記錄帳戶平衡:1875382.6%延遲60天:394817.4%月可支配收入938美元6909個記錄帳戶平衡:98714.3%延遲60天:592285.7%月可支配收入938美元35532個記錄延遲30天:35532100%帳戶平衡延遲60天延遲30天(二)一家銀行信用卡部門的商務智能-市場分析員

這里所應用的決策樹技術是“數據挖掘”中的一種自動數據分析算法。數據分析算法可以在人們不可見、不可估測的情況下,通過一些復雜的算法,對專門組織的歷史數據進行挖掘分析,得到有價值的信息。同時,數據挖掘還提供“描述”技術,從而提高分析者對信息的理解程度。(二)一家銀行信用卡部門的商務智能-市場分析員

(二)一家銀行信用卡部門的商務智能-市場分析員

(4)由數據挖掘報告分析得到,那些租房居住、單身的顧客通常擁有較多的可自由支配收入,他們屬于受益顧客類型。露茜將促銷目標確定為35532個顧客,這些顧客具有單身、租房居住、具有較高可自由支配收入等特征。利用商務智能工具精確確定促銷目標,而不是向隨機產生的客戶群進行促銷,這場促銷戰役以巨大的成功宣告結束。(三)一家汽車公司的商務智能-采購經理

吉姆是一家汽車公司的采購經理,他的工作就是在全國范圍內為公司進行各種合同談判,并對公司的供應商進行評估。他所關心的問題是:我怎么做才能為公司減少采購成本?公司成本包括直接成本和間接成本,在成本最小化問題上,公司歷來都把直接成本作為主要焦點,而忽略了間接成本。很少有幾家公司肯為采購辦公室用的鉛筆討價還價。吉姆就是要針對這些間接成本進行調查,因特網時代的到來給他提供了絕好的條件。(三)一家汽車公司的商務智能-采購經理

借助商務智能工具,吉姆做了如下工作:(1)吉姆查看了匯總的電話賬單,這些賬單是電信服務商通過一個商務智能外網上的在線賬單業務提供的。電信服務商的匯總報告每個月向客戶分發或廣播(Broadcast)一次。通過查看10月份的賬單,吉姆感覺相關移動電話費用所占的份額高于往常月。10月匯總電話賬單70%17%70%12%辦公室電話電話卡移動電話服務類型月費用(美元)電話卡9400移動電話6580辦公室電話38025月服務費用540054(三)一家汽車公司的商務智能-采購經理

(三)一家汽車公司的商務智能-采購經理

(2)吉姆建立了一個有關電話費的統計報告,包括全公司四個生產基地——新罕布什爾州的Nashua,俄亥俄州的Toledo,德克薩斯州的Austin,內華達州的Reno。該報告顯示,2000年(從1月到10月)的電話費用持續增長,人均電話費也呈增長態勢。尤其是新罕布什爾州的Nashua基地,幾個月來的電話費用增長顯著。按月按基地顯示的電話費用數據基地1月2月3月4月5月6月7月8月9月10月Nashua10000110041082412436144061438816225167401656016605Toledo14210147351460014330142701426014630149601509014960Austin8526884187608598856285568778897690548976Remo12789132621314012897128431283413167134641358113464總電話費45525478424732448261500815003852800541405428554005(三)一家汽車公司的商務智能-采購經理

按月按基地顯示的電話費用年份:2000(截至報告月)設備:全部服務:全部單位:美元1月2月3月4月5月6月7月8月9月10月300290280270260250220200180160140120100人均電話費支出員工總支出(三)一家汽車公司的商務智能-采購經理

(三)一家汽車公司的商務智能-采購經理

(3)吉姆對Nashua基地的數據進行了“下鉆”,查看了各種服務種類的電話賬單細節。他很快發現,相關的綜合服務費用超過了往年,其中移動電話的費用在全部增長中占據了很大份額。吉姆突然記起,為了提高員工工作效率,Nashua基地為全體管理人員配發了移動電話,報告中所顯示出來的一場恰恰就是新的移動電話使用政策造成的。按月按服務類型顯示的Nashua生產基地電話賬單類型1月2月3月4月5月6月7月8月9月10月辦公室話費8000840082008200810080008200840085008450電話卡費用2000210020502000195019001950190018501900手機話費05045742236435644886075644062106255總電話費10000110041082412436144061438816225167401656016605(三)一家汽車公司的商務智能-采購經理按月按服務類型顯示的Nashua生產基地電話賬單年份:2000(截至報告月)設備:全部服務:全部單位:美元人均電話費支出員工人數1月2月3月4月5月6月7月8月9月10月42038034030026022052504846444240(三)一家汽車公司的商務智能-采購經理

(三)一家汽車公司的商務智能-采購經理

(4)吉姆對Nashua基地移動電話賬單數據進行了“下鉆”,發現國際長途電話在增長幅度較大,特別是打到英國的長途電話費最為引人注目。吉姆與該地區的經理通了電話,原來他們正在與英國的幾個主要供應商建立一個聯盟,供貨和配送需求不斷更新,需要隨時聯系。Nashua生產基地移動電話賬單(三)一家汽車公司的商務智能-采購經理手機話費類型1月2月3月4月5月6月7月8月9月10月市話2362923441319226525582734289827952877國內長途156202218872196017501944206119252127國際-英國000044901276135213661126國際-其他81012448688120128124125Nashua生產基地移動電話賬單年份:2000(截至報告月)設備:全部服務:全部單位:美元1月2月3月4月5月6月7月8月9月10月16012080400人均電話費支出行業內人均手機費用支出(三)一家汽車公司的商務智能-采購經理(三)一家汽車公司的商務智能-采購經理

(5)吉姆得到了這個重要信息后,馬上與其電信服務商聯系,簽訂了一份特殊的協議——對與英國方面的通信業務給予優惠。該項協議的簽署,意味著吉姆將為他的公司每年節省數百萬美元的經費。吉姆通過因特網獲得了電信公司提供的相關數據,利用商務智能工具對其企業內部數據和外部數據加以綜合分析和利用,采取合理的措施,從而為企業節省了大量成本。1什么是商務智能?2業務層面的商務智能-業務流程可視化3數據觀察和數據分析的基礎-數據倉庫4數據觀察層面的商務智能-在線分析處理(OLAP)5數據分析層面的商務智能-數據挖掘商務智能2.1為什么要“業務流程的可視化”?2.2“業務流程可視化”的形式2.3業務流程的可視化的基礎2業務層面的商務智能-業務流程可視化組織的效率取決于它的業務流程的有效運行。但如何知道業務流程在正常運行?(也就是說如何知道業務在正常進行?)

不知道業務是否正常進行,當然業務(商務)管理也就無從談起,“商務智能”就更無從談起了!要知道業務流程是否正常運行,需要對流程運行進行監視,這就要求“業務流程的可視化”!2.1為什么要“業務流程的可視化”? 過去,我看到的是各方面報來的結果,我說不清數據的可靠性。 現在(流程可視化后),我看到的是產生結果的過程,我可以判斷其真實性! 北一大偎公司項目經理趙紅霞: 2.1為什么要“業務流程的可視化”?2.2“業務流程可視化”的形式2.3業務流程的可視化的基礎2業務層面的商務智能-業務流程可視化2.2“業務流程可視化”的形式(1)模型可視化使用可視化的建模工具,利用圖形化的方式描述組織內角色、活動、流程的狀態及其相互關系,建立企業業務流程模型。流程圖建模在可視化建模中運用得非常廣泛,它是指將一些符號放在呈現界面上來描述系統邏輯關系,并利用模塊圖和網絡圖來建立系統仿真模型的一種技術。

(2)信息可視化信息可視化通常被定義為通過使用由計算機支持的、交互式的且可視的抽象數據呈現方式來加強認知的過程。在信息可視化系統中一般使用工作流管理技術將企業運行過程中產生的數據以及結果“推向”用戶,使用戶及時感知業務的狀態。2.1為什么要“業務流程的可視化”?2.2“業務流程可視化”的形式2.3業務流程的可視化的基礎2業務層面的商務智能-業務流程可視化(1)信息集成指企業系統中各業務子系統和用戶的信息采用統一的標準,規范和編碼,實現全系統信息共享,進而可實現相關用戶軟件間的交互和有序工作。

(2)信息共享指不同層次、不同部門信息系統間,信息和信息產品的交流與共用。2.3業務流程的可視化的基礎1什么是商務智能?2業務層面的商務智能-業務流程可視化3數據觀察和數據分析的基礎-數據倉庫4數據觀察層面的商務智能-在線分析處理(OLAP)5數據分析層面的商務智能-數據挖掘商務智能3.1什么是數據倉庫?3.2數據倉庫的數據組織3數據觀察和數據分析的基礎-數據倉庫(1)數據倉庫的本質數據倉庫是為了企業管理決策需要進行的業務觀察、企業運行分析等數據分析工作專門建立的數據存儲。數據倉庫是面向主題的、集成的、具有時間特征的、穩定的數據集合,用以支持經營管理中的決策制定過程。3.1什么是數據倉庫?在現有業務系統產生的業務數據上,不方便直接進行分析型數據操作。如果直接在現有業務系統產生的業務數據上進行分析型數據操作,由于數據運算量巨大,可能導致拖垮現有業務系統。上述問題,要求我們必須為分析型系統建立專門的數據存儲,這就是數據倉庫。決策分析為什么不能直接針對業務數據?數據四大特征1面向主題2集成性3增量變化4相對穩定(2)數據倉庫的特征操作型數據庫數據倉庫系統目的支持日常操作支持管理需求、獲取信息使用人員辦事員、DBA、數據庫專家經理、管理人員、分析專家數據內容當前數據歷史數據、派生數據數據特點細節的綜合的,或提煉的數據組織面向應用面向主題存取類型增加、更改、查詢、刪除查詢、聚集數據穩定性動態的相對穩定操作需求特點操作需求事先可知道操作需求事先不知道操作特點一個時刻操作一單元一個時刻操作一集合數據庫設計基于E-R圖基于星型模式、雪花模式一次操作數據量一次操作數據量小一次操作數據量大存取頻率比較高相對較低響應時間小于1秒-3秒幾秒幾分鐘(3)操作型數據庫與數據倉庫的比較(4)數據倉庫應用體系的基本結構OLAP數據挖掘數據倉庫可視化應用工具數據存儲數據源外部數據內部業務數據抽取清理轉換業務系統分析型系統“十五”期間:業務系統分析型系統“十一五”期間:以業務系統(數據)為基礎,建立能對管理決策提供支持的運營分析與控制系統。分析型信息系統建設的目的“十五”期間:業務系統分析型系統“十一五”期間:業務數據1業務數據n…分析用數據數據中心(數據倉庫)從已有的業務系統,建立分析型系統的基礎是:對業務系統產生的業務數據進行再組織得到分析用的數據,建立分析用“數據中心”(或數據倉庫)。分析型信息系統的關鍵(1/3)

—數據倉庫業務系統分析型系統業務數據1業務數據n…分析用數據數據倉庫分析結果數據挖掘OLAP分析型信息系統的關鍵(2/3,3/3)

—OLAP+數據挖掘①基于分析型數據進行人工數據分析操作就是OLAP!

②基于分析型數據開展自動(或半自動)數據分析工作就是數據挖掘!3.1什么是數據倉庫?3.2數據倉庫的數據組織3數據觀察和數據分析的基礎-數據倉庫數據組織數據的來源數據的結構3.2數據倉庫的數據組織3.2數據倉庫的數據組織(1)數據源數據源是數據倉庫的原始數據來源,是數據倉庫系統開發與應用的數據基礎。數據倉庫系統的數據源非常廣泛。從總體內容上講,可以分為企業內部數據源和企業外部數據源兩大類。

3.2數據倉庫的數據組織1)企業內部數據源企業內部數據指的是企業多年來的數據沉淀(主要是業務數據)。由于各企業的歷史背景與應用環境不同,企業內部數據源有很大的差異,表現在數據內容、結構和存儲類型等許多方面。在數據倉庫系統的建設中,應該針對商務需求對內部數據源進行充分的分析,適當的對比,為正確高效地獲取基礎數據做準備。3.2數據倉庫的數據組織2)企業外部數據源企業外部數據源的內容更為廣泛,數據的存儲類型也更為多樣化,比較常見的為目標市場信息、競爭對手信息、行業統計信息等。外部數據源的獲取往往存在著一定的難度,可能采用的幾種主要方式為:從行業相關部門獲取資料;向信息咨詢公司購買數據;企業內部組建相應機構進行專門的調查研究;從行業期刊或網絡中分析摘錄相關信息等。數據倉庫的總線主題粒度維度數據立方體數據集市星形模式相關基本概念一致性保障機制數據組織方式3.2數據倉庫的數據組織(2)數據倉庫中的數據結構3.2數據倉庫的數據組織(3)數據倉庫中數據結構相關概念1)主題主題是一個在較高層次上將數據歸類的標準,每一個主題基本對應一個宏觀的分析領域。面向主題的數據組織方式是根據分析要求將數據組織成一個個完備的分析領域,稱為主題域。主題域應該具有獨立性和完備性。操作型環境數據倉庫應用主題顧客保險單索賠3.2數據倉庫的數據組織業務(應用)與主題例如對一個保險公司來說,應用問題可能是汽車保險、健康保險和意外傷亡保險等;而公司的主要主題域卻可能是顧客、保險單、索賠等。3.2數據倉庫的數據組織2)粒度粒度是指數據倉庫中數據單元的詳細程度和級別。數據越詳細,粒度越小級別就越低;數據綜合度越高,粒度越大級別就越高。在傳統的操作型數據庫系統中,對數據處理和操作都是在最低級的粒度上進行的。但是在數據倉庫環境中應用的主要是分析型處理,一般需要將數據劃分為:詳細數據、輕度總結、高度總結三級或更多級粒度。高細節——低粒度級例如:一個顧客一個月內所有電話的通話細節。低細節——高粒度級例如:一個顧客一個月內通話總額。3.2數據倉庫的數據組織數據粒度與對象信息的詳細程度低粒度級能回答細節問題數據量大高粒度級能進行綜合性查詢數據量小權衡選擇粒度的高低是非常重要的,它關系到能否滿足企業決策信息支持的需要,以及能否滿足查詢速度的要求。3.2數據倉庫的數據組織粒度與數據量3.2數據倉庫的數據組織3)維度維度是指人們觀察事物的特定的角度,例如:時間維、地區維。人們從某個維的角度觀察數據,還可以根據細節程度的不同形成多個描述層次,該多個描述層次就稱為維層次。中國西北地區東北地區華北地區簡單層次關系的維層次3.2數據倉庫的數據組織中國西北地區東北地區華北地區黑龍江省遼寧省吉林省沈陽市鞍山市…………復雜層次關系的維層次3.2數據倉庫的數據組織3.2數據倉庫的數據組織(4)數據倉庫中數據的組織方式1)數據立方體數據立方體是指由兩個或更多個維來描述或分類的數據。在三維的情況下以圖形來表示,該類數據具有立方體結構,一般稱為數據立方體。雖然通常從幾何意義的角度將立方體理解為三維,但是在數據倉庫中數據立方體是一個n維的概念。銷售收入地區維時間維產品維產品維時間維地區維銷售收入3.2數據倉庫的數據組織數據立方體(圖示)與分析問題問題:“某產品在某個月份在某個地區的銷售收入是多少?”半年季度月份地區大類具體地區碼CAMCVCRTR-75UX-11TR-78EC-1XVG上半年1季度一月北部5316059001290450809上半年1季度一月北部539899788564780655上半年1季度一月南部652900680602780680上半年1季度一月南部6835901020608800407上半年1季度一月南部8671300780398745576上半年1季度二月北部5311098980479576879上半年1季度二月北部5391350680609889809……………………………………………………數據立方體(數據)例:某錄像機生產商某年的部分銷售數據3.2數據倉庫的數據組織產品維層次錄像機產品CAMCVCRTR-78TR-75UX-11XVGEC-1全部地區北部地區南部地區652531539867683地區維層次3.2數據倉庫的數據組織從前數據立方體數據中可以獲得銷售分析維度的信息。時間維層次上半年全年下半年一季度二季度4月2月3月6月5月1月三季度四季度10月8月9月12月11月7月3.2數據倉庫的數據組織注:紅色部分代表了1月份531地區所有產品的銷售收入

TR-75UX-11TR-78EC-1XVG5315396526838675月4月3月2月1月全部南方北方第1季第2季1年產品地區27時間錄像機CACMVCR3.2數據倉庫的數據組織“銷售分析”數據立方體-便于觀察數據!3.2數據倉庫的數據組織2)數據集市數據集市是完整的數據倉庫的一個邏輯子集,而數據倉庫正是由其所有的數據集市有機組合而成的。數據集市一般在某一個業務部門建設,滿足其分析決策的需要,可以將其理解為“部門級數據倉庫”。各數據集市都應該是數據倉庫的有機組成部分,且各數據集市間應協調一致,滿足整個企業分析決策的需要。銷售子系統數據抽取與集成數據抽取銷售子系統銷售子系統數據抽取數據抽取.........數據集市數據倉庫業務系統數據庫數據集市(DataMart)—部門級數據倉庫

時間碼產品碼地區碼銷售量銷售額銷售成本產品碼產品大類產品細類產品名稱地區碼國家地區城市時間碼日期月份季度年度時間維表事實表產品維表地區維表3)星形模式為了數據分析方便,在數據倉庫中,由兩種類型的表(事實表和維表)保存數據。事實表和維表間通過星形方式連接而成,故稱為星形模式。3.2數據倉庫的數據組織事實表與維表事實表包含的是業務數據信息,數據取值通常是可度量的、連續型的,且具有可加性,數據量可達到幾百萬甚至上億條記錄。維表包含的是相應維度的描述型信息,這些信息用作查詢的約束條件,一般是離散的、描述性的,不具有可加性。3.2數據倉庫的數據組織(5)數據倉庫中數據的一致性保障機制:數據總線

一個數據倉庫內所有的數據集市必須具有統一一致的維定義和統一一致的業務事實。統一的維和統一的事實就是數據倉庫的“總線”。總線型結構的目的在于避免各數據集市不能有機地組合在一起,不能從全企業的角度查看數據信息。應收帳款事實銷售量事實銷售額事實…分銷渠道維時間維…客戶維產品維統一的事實統一的維財務數據集市銷售數據集市3.2數據倉庫的數據組織數據倉庫的總線型結構1什么是商務智能?2業務層面的商務智能-業務流程可視化3數據觀察和數據分析的基礎-數據倉庫4數據觀察層面的商務智能-在線分析處理(OLAP)5數據分析層面的商務智能-數據挖掘商務智能基于數據倉庫進行數據分析的兩種方式在線分析處理數據挖掘在線分析處理是基于數據倉庫進行數據分析的兩種方式之一4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應用實例4數據觀察層面的商務智能-在線分析處理(OLAP)4.1什么是在線分析處理(OLAP)?(1)OLAP的產生60年代末,E.F.Codd提出了關系數據模型,其促進了關系數據庫及聯機事物處理(OLTP)的發展。后來,聯機事務處理已不能滿足終端用戶對數據庫查詢分析越來越復雜的需要,SQL對大數據庫進行的簡單查詢不能滿足用戶分析的需求。聯機分析處理(OnlineAnalysisProcessing)就是針對用戶決策分析需要對關系數據庫進行大量計算才能得到所需要的結果的數據分析需求發展而來的技術。4.1什么是在線分析處理(OLAP)?(2)OLAP的本質OLAP是數據處理的一種技術概念,其基本目的是使企業的決策者應能靈活地操縱企業的數據,以多維的形式從多方面和多角度來觀察企業的狀態、了解企業的變化,通過快速、一致、交互地訪問各種可能的信息視圖,幫助管理人員掌握數據中存在的規律,實現對數據的歸納、分析和處理,幫助組織完成相關的決策。快速性可分析性多維性信息性用戶對OLAP的快速反應能力有很高的要求

OLAP系統能處理與應用有關的任何邏輯分析和統計分析

OLAP系統必須提供對數據的多維視圖和分析OLAP系統應能及時獲得信息并且管理大容量信息

4.1什么是在線分析處理(OLAP)?(3)OLAP的特征

觀察在某一時間點或時間段上各個產品在各個地區的銷售情況產品地區時間觀察某地區各個產品在各個時期的銷售情況產品地區時間觀察某種產品在各個時期和各個地區中的銷售情況產品地區時間觀察某種產品在某時間點或時間段上在某地區的銷售情況產品地區時間4.1什么是在線分析處理(OLAP)?(4)OLAP多維數據視圖

4.1什么是在線分析處理(OLAP)?4.2OLAP的基本操作4.3OLAP應用實例4數據觀察層面的商務智能-在線分析處理(OLAP)對于訂貨分析的訂貨立方體,選定訂貨立方體中的客戶維與產品維,在時間維中選取一個屬性成員(如“2008年1月”),就得到了訂貨立方體在產品和客戶兩維上的一個切片。該切片表示2008年1月各客戶、各產品的訂購情況。

(1)切片

切片就是在某個或某些維上選定一個屬性成員,而在某兩個維上取一定區間的屬性成員或全部屬性成員。4.2OLAP的基本操作產品維客戶維產品維客戶維時間維產品訂購情況2008年1月產品訂購情況選定時間維的維成員“2008年1月”選定兩個維,產品維和客戶維數據切片4.2OLAP的基本操作切片操作例接前例,若將時間維上的取值設定為一個區間(例如取“2008年1月至2008年10月”),而非單一的屬性成員時,就得到一個數據切塊,它可以看成由2008年1月至2008年10月10個切片疊合而成。(2)切塊

切塊是在立方體中的三個維上取一定區間的屬性成員或全部屬性成員。從另一個角度講,切塊可以看成是由多個切片疊合起來。

4.2OLAP的基本操作產品維客戶維時間維數據切塊產品維客戶維時間維4.2OLAP的基本操作切塊操作例實現所有客戶對某產品季度訂購額與月份訂購額之間的鉆取。比如2008年第一季度。(3)上鉆和下鉆

鉆取包括上鉆和下鉆兩種操作。從高級別數據到明細數據視圖稱為下鉆;從明細級向上到高級來觀察數據,稱為上鉆。數據庫的設計以及數據的粒度級別將決定下鉆或上鉆的能力。

4.2OLAP的基本操作(3)上鉆和下鉆

上鉆下鉆銷售額(單位:萬元)第一季度產品145產品253……4.2OLAP的基本操作銷售額(單位:萬元)第一季度1月2月3月產品125515產品2201518……將一個橫向為時間、縱向為產品的報表,變成一個橫向仍為時間和縱向旋轉為客戶的報表。

(4)旋轉旋轉即是改變一個報告或頁面顯示的維方向。通過旋轉可以得到不同視角的數據。

4.2OLAP的基本操作(4)旋轉旋轉以改變頁面顯示時間維客戶維產品維時間維產品維客戶維4.2OLAP的基本操作3.1什么是在線分析處理(OLAP)?3.2OLAP的基本操作4.3OLAP應用實例4數據觀察層面的商務智能-在線分析處理(OLAP)(1)問題背景描述以某鋼鐵集團銷售公司為背景,給出數據倉庫的星型建模方案及OLAP分析例。該鋼鐵集團銷售公司是一個較早應用MIS的企業,經過多年的發展,公司積累的數據越來越多,大量的數據背后隱藏著許多重要的信息。為了充分利用這些數據,發現數據中所隱含的知識,公司迫切要求建立數據倉庫,實現OLAP分析。使用工具為SQLServer。4.3OLAP應用實例(2)確定分析主題

建立數據倉庫的第一步是確定商業需求,根據需求確定分析主題。本例主要討論該鋼鐵集團銷售公司的訂貨分析主題。訂貨主題主要從時間、客戶、產品等維度來分析產品訂購情況。

發現優勢產品,判別產品潛在的銷售能力,選擇合適的分銷渠道識別客戶群,預測客戶的訂貨趨勢,采取靈活的促銷策略降低庫存量,減少交貨失誤,改善訂貨業務通過訂貨分析實現4.3OLAP應用實例(3)分析數據源

在確定主題之后,需要分析數據源,并進行相關數據的抽取。本例的數據源來自該鋼鐵集團銷售公司。我們需要的數據有:時間信息(包括年、月)、客戶信息(包括客戶編號、客戶名稱、客戶分部)、產品信息(包括品種編號、品種名稱、產品長度、厚度、寬度),以及事實表中的事實度量值訂貨量。4.3OLAP應用實例分析數據源

4.3OLAP應用實例(4)建立訂貨分析的星形模式

時間碼產品碼客戶碼訂貨量產品碼品種編號品種名稱產品厚度產品寬度產品長度客戶碼客戶編號客戶名稱客戶分部時間碼月份年度時間維表訂貨事實表產品維表客戶維表4.3OLAP應用實例時間維的結構

4.3OLAP應用實例產品維的結構

4.3OLAP應用實例客戶維的結構

4.3OLAP應用實例訂貨事實的結構

4.3OLAP應用實例建立訂貨事實表與各維表的關系

4.3OLAP應用實例(5)訂貨分析的DTS包SQLServer中的數據轉換服務DTS(DataTransformationServices)主要作用是把不同的數據來源中的數據結合起來,并利用自身的數據轉換功能把這些結合后的數據放入數據倉庫之中。4.3OLAP應用實例訂貨分析的數據轉換的實現過程圖

創建連接數據轉換執行并保存DTS包確定流程順序執行SQL任務建立數據導入的工作流4.3OLAP應用實例(6)訂貨分析的OLAP實踐SQLServer分析服務提供了從數據倉庫中設計、構建及管理多維數據集的能力,以及讓客戶端可以取得OLAP數據。多維數據集構建完成后必須能夠讓用戶直接進行操作,SQLServer提供了數據透視表服務(PivotTableServices),可以用Excel通過數據透視表服務連接到分析服務器,將多維數據集中的數據取來做分析。

4.3OLAP應用實例

訂貨分析的OLAP實踐的流程

分析服務器端客戶端分析多維數據設定數據來源創建多維數據集分析多維數據數據透視表服務4.3OLAP應用實例從產品維與時間維觀察數據4.3OLAP應用實例數據透視4.3OLAP應用實例碳素鎮板、碳素鎮卷、液化氣瓶卷的訂貨趨勢分析4.3OLAP應用實例1什么是商務智能?2業務層面的商務智能-業務流程可視化3數據觀察和數據分析的基礎-數據倉庫4數據觀察層面的商務智能-在線分析處理(OLAP)5數據分析層面的商務智能-數據挖掘商務智能基于數據倉庫進行數據分析的兩種方式在線分析處理數據挖掘數據挖掘是基于數據倉庫進行數據分析的兩種方式之一5.1什么是數據挖掘?5.2數據挖掘能做什么事?—數據挖掘的任務!5數據分析層面的商務智能-數據挖掘(1)啤酒與尿布的故事(小案例)某大型超市發現每到周末,啤酒與尿布的銷量就會同時大增,這是什么原因呢?購物籃5.1什么是數據挖掘?(1)啤酒與尿布的故事(小案例)-續這是沃爾瑪利用NCR自動數據挖掘工具(模式識別軟件)對一年多詳細的原始交易數據進行分析和挖掘后的一個意外發現:跟尿布一起購買最多的商品竟是啤酒!沃爾瑪因此就在其商店里將它們并排擺放在一起,結果是尿布與啤酒的銷售量雙雙增長。經過研究人員分析發現,原來家里的太太們讓丈夫們去超市給孩子買尿布,而丈夫們在買尿布的時候往往順便買上幾瓶啤酒回去喝。這樣就產生了這個比較奇怪的現象。數據挖掘對數據挖掘結果的解釋分析5.1什么是數據挖掘?(2)KDD與數據挖掘數據庫知識發現(KnowledgeDiscoveryinDatabase,KDD)一詞的第一次出現是在1989年8月在美國底特律召開的第11屆國際人工智能聯合會議的專題討論會上。

數據庫知識發現是從數據集中識別有效的、新穎的、潛在有用的,以及最終可理解模式的非平凡處理過程。5.1什么是數據挖掘?KDD是一個交互式、循環反復的整體過程,除了包括數據挖掘外,還包括數據的預處理和對所發現的結果進行解釋評估等諸多環節。數據挖掘是數據庫知識發現中專門負責發現知識的核心環節。數據挖掘KDD5.1什么是數據挖掘?KDD的過程可視化數據準備數據挖掘解釋評估數據庫待挖掘數據抽取的信息有用的知識5.1什么是數據挖掘?(3)數據倉庫與數據挖掘數據倉庫為數據挖掘提供了更廣闊的空間。數據倉庫完成了數據的收集、集成、存儲、管理等工作,數據挖掘面對的是經過初步加工的數據,使得數據挖掘能更專注于知識的發現。另一方面,由于數據倉庫所具有的新的特點,又對數據挖掘技術提出了更高的要求。數據挖掘技術和數據倉庫技術結合起來,能夠更充分地發揮潛力。

5.1什么是數據挖掘?

數據倉庫中集成和存儲著來自若干異構數據源的信息,這就要求其數據挖掘的算法必須更有效、更快速。數據倉庫對數據挖掘技術提出的更高要求

數據倉庫中的長時間歷史數據在時間軸上的特征,在一定程度上增加了數據挖掘的難度。數據倉庫的發展對數據挖掘提出了更高的要求5.1什么是數據挖掘?聚類分析分類發現關聯規則發現序列模式發現……數據挖掘的任務5.2數據挖掘能做什么事?—數據挖掘的任務!(1)聚類分析1)聚類分析的內涵

聚類任務用于發現在數據庫中未知的對象類。這種對象類劃分的依據是“物以類聚”,即考察個體或數據對象間的相似性,滿足相似性條件的個體或數據對象劃分在一組內,不滿足相似性條件的個體或數據對象劃分在不同的組。在聚類之前,對象類劃分的數量與類型均是未知的,因此在數據挖掘后一般需要對數據挖掘結果進行合理的分析與解釋。5.2

數據挖掘的任務——聚類分析例如:聚類分析能幫助市場分析人員從客戶的基本庫中發現不同的客戶群;可以根據房子的類型、價值和地理位置對一個城市中的房屋進行分組;還能對Web上的文檔進行分類等等。2)聚類分析的一般應用模式識別空間數據分析圖像處理經濟科學網絡

5.2

數據挖掘的任務——聚類分析3)數據挖掘應用對聚類分析算法的要求處理不同類型屬性的能力發現任意形狀的聚類用于決定輸入參數的領域知識最小化處理噪聲數據的能力對于輸入數據的順序不敏感處理高維屬性數據的能力結合用戶特定的約束結果可解釋性和可用性5.2

數據挖掘的任務——聚類分析4)什么是好的聚類方法?好的聚類方法將產生高質量的類,即在類的內部具有高的相似度,而類間具有低的相似度。聚類方法的質量依賴于所選用的相似度計算方法和該方法的實現情況質量聚類方法的質量也取決于它發現隱藏模式的能力5.2

數據挖掘的任務——聚類分析5)聚類分析方法的分類分割聚類方法

1層次聚類方法2基于網格的聚類方法4基于密度的聚類方法35.2

數據挖掘的任務——聚類分析算法步驟:首先隨機地選擇k個對象,每個對象作為一個類的“中心”,分別代表將分成的k個類;根據距離“中心”最近的原則,尋找與各對象最為相似的類,將其他對象分配到各個相應的類中;在完成對象的分配之后,針對每個類,計算其所有對象的平均值,作為該類新的“中心”;根據距離“中心”最近的原則,重新進行所有對象到各個相應類的分配;返回步驟3,直到沒有變化為止。

聚類算法例——k-平均算法

k-平均算法屬于分割聚類方法。5.2

數據挖掘的任務——聚類分析有10個對象xi,,描述每一個對象的屬性為xi1,xi2,取值如下表。設定聚類個數為k=2。這里我們采用歐幾里德距離進行距離的計算。k-平均聚類算法數值例子x1x2x3x4x5x6x7x8x9x10xi2466584382301234567812345678x8x9x10x1x3x5x2x4x6x7xi1xi2k-平均聚類算法數值例子聚類問題的擴展—數據對聚類問題“數據(對象)對”聚類問題的實際背景

—電信客戶聚類分析問題電信客戶聚類分析問題說明,在實際情況中存在這樣一種數據情況:實際業務數據中,每條記錄標明了兩個的對象,這兩個對象具有關聯關系(以下稱為“數據對”),實際問題要求我們在兩個關聯對象的基礎上,尋找更多具有關聯關系的對象群體。聚類問題的擴展—數據對聚類問題“數據(對象)對”聚類問題的本質—類和對象間的關系不同-傳統聚類問題的聚類對象是獨立對象!-“數據對”聚類問題的聚類對象是相互關聯的“對象對”!-傳統聚類得到的“類”中:每個對象只能屬于一個類!-“數據對”聚類得到的“類”中:一個對象可能屬于多個類(由“對象對”構成的“類”)!數據對聚類與傳統聚類問題的差異

—聚類對象不同聚類問題的擴展—數據對聚類問題聚類問題的擴展—社會網絡分析在社會網絡中,聚類對象包含更多基本對象(如每個家庭),聚類結果是一個個“社團”。社會網絡分析的研究應用,將導致對傳統系統論的革命性發展!(2)分類發現1)分類發現的目的分類發現的目的是構造一個分類函數或分類模型(也稱作分類器),通過分類函數,把數據庫中的元組映射到給定類別中的某一個,即要發現一些指定的商品或事件是否屬于某一特定數據子集的規則。5.2

數據挖掘的任務——分類發現2)分類發現的處理過程第一階段第二階段分類模型的建立該階段也稱監督學習,數據類別是事先已知的,需要做的工作是通過分析訓練樣本數據總結出一般性的分類規則,建立分類模型。分類模型的應用應用分類模型前,需要對建立的模型進行評估,在確保分類模型的準確性及精確度的情況下,才能運用該分類模型對未知其類別的數據樣本進行分類處理。5.2

數據挖掘的任務——分類發現分類發現的處理過程——第一階段訓練集分析分類器建立的模型矩形是黃色圓形是紅色三角是綠色2)分類發現的處理過程分類發現的處理過程——第二階段數據庫紅色圖形黃色圖形綠色圖形分類器已建立的模型沒有分辨顏色的圖形2)分類發現的處理過程3)分類模型的評估標準預測準確性描述的簡潔性計算復雜性模型強健性處理規模性

5.2

數據挖掘的任務——分類發現4)分類發現的主要方法

基于決策樹模型的數據分類——ID3算法1基于統計模型的數據分類——貝葉斯分類2基于神經網絡的數據分類35.2

數據挖掘的任務——分類發現5)分類發現規則提取的實例利用決策樹模型對某鋼鐵公司的歷史銷售數據進行分析。注:*代表對應的屬性為決策屬性注:行數代表滿足各行要求的記錄個數銷售時間銷售地區*銷售產品客戶行業*銷售渠道*利潤行數2000年華中薄板冶金直銷高2002000年華東管材冶金直銷高5102000年華中圓鋼機電分銷中3002000年華南線材電力直銷低502000年華東線材電力分銷低600…………………2000年華中薄板電力直銷中802000年華中薄板電力直銷高3205.2

數據挖掘的任務——分類發現應用ID3算法得到的決策樹直銷分銷華中華東冶金電力銷售地區華中低中高高銷售地區客戶行業銷售渠道5.2

數據挖掘的任務——分類發現利用決策樹提取分類規則(用“IF-THEN”的形式表示)直銷分銷華中華東冶金電力銷售地區華中低中高高銷售地區客戶行業銷售渠道規則1:IF銷售渠道=“直銷”and客戶行業=“冶金”THEN銷售業務屬于“高”利潤規則2:IF銷售渠道=“直銷”and客戶行業=“電力”and銷售地區=“華中”THEN銷售業務屬于“高”利潤規則3:IF銷售渠道=“分銷”and銷售地區=“華中”THEN銷售業務屬于“中”利潤規則4:IF銷售渠道=“分銷”and銷售地區=“華東”THEN銷售業務屬于“低”利潤5.2

數據挖掘的任務——分類發現(3)關聯規則發現1)關聯規則的含義關聯規則是指大量數據中項集之間有趣(價值)的關聯或相關聯系。前面提到的“啤酒與尿布”的故事就是關聯規則的一個典型例子。這也成為零售商的貨籃分析,其通過發現顧客放入其貨籃中不同商品、即不同項之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,分析得到商品之間的關聯,這種關聯的發現可以幫助零售商制定營銷策略。

5.2

數據挖掘的任務——關聯規則發現2)描述關聯規則的參數關鍵參數作用度期望可信度支持度可信度5.2

數據挖掘的任務——關聯規則發現描述關聯規則的參數-支持度商場10個顧客同時購買錘子和釘子顧客購買錘子

顧客購買釘子的關聯規則的支持度為10%100個顧客去商場購買東西5.2

數據挖掘的任務——關聯規則發現商場20個顧客購買了錘子顧客購買錘子

顧客購買釘子的關聯規則的可信度為50%100個顧客去商場購買東西其中10個顧客又購買了釘子描述關聯規則的參數-可信度5.2

數據挖掘的任務——關聯規則發現商場20個顧客購買了釘子顧客購買錘子

顧客購買釘子的關聯規則的期望可信度為20%100個顧客去商場購買東西描述關聯規則的參數-期望可信度5.2

數據挖掘的任務——關聯規則發現作用度是可信度和期望可信度之間的比值。描述關聯規則的參數-作用度名稱描述(利用前面的例子)公式支持度顧客購買錘子(X)和購買釘子(Y)同時出現的概率P(X∪Y)可信度顧客在購買錘子(X)的前提下,又購買釘子(Y)的概率P(Y|X)期望可信度顧客購買釘子(Y)的概率P(Y)作用度可信度與期望可信度的比值P(Y|X)/P(Y)5.2

數據挖掘的任務——關聯規則發現支持度是對關聯規則重要性的衡量可信度是對關聯規則的準確度的衡量作用度描述了一個事件對另一事件的影響力大小,有用關聯規則的作用度都應該大于1四個參數的意義期望可信度描述了在沒有別的事件作用下,某一事件本身的支持度5.2

數據挖掘的任務——關聯規則發現單層關聯規則:規則條件中僅涉及同一層次上的屬性。多層關聯規則:規則條件中涉及不同層次上的屬性。單維關聯規則:處理單個屬性中的一些關系。啤酒

尿布(一個屬性:顧客購買的東西)多維關聯規則:處理各個屬性之間的某些關系。性別=“女”且職業=“秘書”

漂亮(多個屬性:性別、職業)3)關聯規則的類型5.2

數據挖掘的任務——關聯規則發現4)關聯規則發現的步驟進行數據清理、集成、轉換、聚集等數據準備;根據實際情況,確定最小支持度和最小可信度;利用數據挖掘工具提供的算法發現關聯規則;可視化顯示、解釋、評估關聯規則。5.2

數據挖掘的任務——關聯規則發現例:關聯規則發現算法“概念樹算法”挖掘多層關聯規則食品飲料水果肉類可樂蘋果礦泉水香蕉豬肉可口可樂百事可樂紅富士

從下到上的概括或抽象反之則為從上到下的具體化5.2

數據挖掘的任務——關聯規則發現食品飲料水果肉類可樂蘋果礦泉水香蕉豬肉可口可樂百事可樂紅富士

購買(可口可樂)

購買(蘋果)涉及不同的抽象層關聯規則稱為多層關聯規則。例:關聯規則發現算法“概念樹算法”挖掘多層關聯規則5.2

數據挖掘的任務

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論