數據挖掘與智能決策技術簡介_第1頁
數據挖掘與智能決策技術簡介_第2頁
數據挖掘與智能決策技術簡介_第3頁
數據挖掘與智能決策技術簡介_第4頁
數據挖掘與智能決策技術簡介_第5頁
已閱讀5頁,還剩51頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據挖掘與智能決策技術簡介背景背景 二十世紀末以來,全球信息量以驚人的速度急劇增長據估計,每二十個月將增加一倍。許多組織機構的IT系統中都收集了大量的數據(信息)。目前的數據庫系統雖然可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。為了充分利用現有信息資源,從海量數據中找出隱藏的知識,數據挖掘技術應運而生并顯示出強大的生命力。 背景背景 數據挖掘是八十年代投資AI研究項目失敗后,AI轉入實際應用時提出的。它是一個新興的,面向商業應用的AI研究。(AI(Artificial Intelligence,人工智能) ) 1989年8

2、月,在美國底特律召開的第11屆國際人工智能聯合會議的專題討論會上首次出現數據庫中的知識發現(Knowledge Discovery in Database,KDD)這一術語。 隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算法、知識表示、知識運用等問題。最初,數據挖掘是作為KDD中利用算法處理數據的一個步驟,其后逐漸演變成KDD的同義詞。 數據挖掘定義數據挖掘定義n技術角度的定義技術角度的定義 數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的

3、、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數據挖掘相近的同義詞包括:數據融合、數據分析和決策支持等。 這一定義包括好幾層含義:數據源必須是真實的、海量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。 數據挖掘定義數據挖掘定義n商業角度的定義商業角度的定義 數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性信息。 簡言之,數據挖掘其實是一類深層次的數據分析方法。因此,數據挖掘可以描述為:按企業既定業務目標,對大

4、量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證己知的規律性,并進一步將其模型化的有效方法。 數據倉庫的定義數據倉庫的定義 數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。 此定義由最為權威的、被稱為“數據倉庫之父”的William H. Inmon 先生給出。 數據內容 數據庫名(數據 庫內容描述) 注意: 信息的完整性; 相關業務人員達 成共識。 業務人員確定業務人員確定 I T人員確定人員確定數據結構.計算機內主題主題數據庫數據庫數據標準化決策支持:從數據庫到數據倉庫到數據集市到決策支持:從數據庫到數據倉庫到數據集市到數據倉庫的定義數據倉庫的定義 數

5、據倉庫是決策支持系統(Decision Support System, DSS,DSS)的基礎。 在數據倉庫中只有單一集成的數據源,并且數據是可訪問的。所以與傳統數據庫相比,在數據倉庫環境中DSS分析員的工作將較為容易。 數據倉庫的組成數據倉庫的組成n一個數據倉庫的大小一般都是在100GB以上n通常,數據倉庫系統應該包含下列程序: (1)抽取數據與加載數據 (2)整理并轉換數據(采用一種數據倉庫適用的數據格式) (3)備份與備存數據 (4)管理所有查詢(即將查詢導向適當的數據源 )數據倉庫的組成數據倉庫的組成OLAP的定義、特點的定義、特點n60年代,關系數據庫之父E.F.Codd提出了關系模

6、型,促進了聯機事務處理 (OLTP)的發展(數據以表格的形式而非文件方式存儲)。n1993年,E.F.Codd提出了OLAP概念,認為OLTP已不能滿足終端客戶對數據庫查詢分析的需要,SQL對大型數據庫的簡單查詢也不能滿足終端客戶分析的要求。客戶的決策分析需要對關系數據庫進行大量計算才能獲得結果,而查詢的結果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數據庫和多維分析的概念,即OLAP。OLAP的定義、特點的定義、特點nOLAPOLAP(On-Line Analysis ProcessingOn-Line Analysis Processing)定義)定義 是數據倉庫上的分析展

7、示工具,它建立在數據多維視圖的基礎上。 nOLAPOLAP的主要特點的主要特點 一是在線性(On Line),體現為對用戶請求的快速響應和交互式操作; 二是多維分析(Multi_Analysis),這是OLAP技術的核心所在。 OLAP的定義和特點的定義和特點nOLAPOLAP與與OLTPOLTP的區別的區別 (1)OLTP主要面向公司職員;OLAP則主要面向公司領導者。 (2)OLTP應用主要是用來完成客戶的事務處理,其數據基礎是操作型數據庫,如民航訂票系統、銀行儲蓄系統等等,通常需要進行大量的更新操作,同時對響應時間要求較高;而OLAP是以數據倉庫或數據多維視圖為基礎的數據分析處理,是針對

8、特定問題的聯機數據訪問和分析,它一般不對倉庫數據作修改處理,而只是查詢,其應用主要是對客戶當前及歷史數據進行分析,輔助領導決策,其典型的應用有對銀行信用卡風險的分析與預測、公司市場營銷策略的制定等,主要是進行大量的查詢操作,對時間的要求不太嚴格。多維數據多維數據 Sales volume as a function of product, month, and regionProductRegionMonthDimensions: Product, Location, TimeHierarchical summarization pathsIndustry Region YearCategor

9、y Country QuarterProduct City Month Week Office Day立方體實例立方體實例Total annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum數據立方體的瀏覽數據立方體的瀏覽 Visualization OLAP capabilities Interactive manipulationPreprocessedDataDataTranslatedDataPatterns/ModelsResultsPreproces

10、singAnalysisInputOutput基于層次的聚類方法基于層次的聚類方法n這類方法不需要預先給定參數(聚類數),但需要終止條件。Step 0Step 1Step 2Step 3Step 4bdceaa bd ec d ea b c d eStep 4Step 3Step 2Step 1Step 0agglomerative(AGNES)divisive(DIANA)CURE算法Data Partitioning and Clusteringqs = 50qp = 2qs/p = 25xxxyyyyxyxns/pq = 5CHAMELEON算法ConstructSparse Graph

11、Partition the GraphMerge PartitionFinal ClustersData Set客戶總列表客戶總列表30% VIP0-1 孩子孩子2-3 孩子孩子20% VIP4+ 孩子孩子$50 - 75k income15% VIP$75k+ income70% VIP$50-75k income$20-50k income85% VIPAge: 40 - 6080% VIPAge: 20 - 4045% VIPAttributes = Outlook, Temperature, Humidity, WindOutlookHumidityWindsunnyrainoverc

12、astyesnoyeshighnormalnostrongweakyesPlayTennis = yes, no打高爾夫球的決策樹實例(自頂向下)wage increasefirst yearworkinghoursstatutoryholidayscontribution tohealth pathwage increasefirst year2.5%36half10=104goodgoodgoodgoodgoodbadbad圖 公司福利條件決策樹示例nonefull 根據加薪百分比、工作時長、法定節假日、及醫療保險三個屬性來判斷一個企業的福利狀況(good或bad)。 3.2.2.6 神經

13、網絡算法神經網絡算法 人工神經網(Artificial Neural Network,ANN)是20世紀80年代后期迅速發展起來的人工智能技術,它對噪聲數據具有很高的承受能力,對未經訓練的數據具有分類模擬的能力,因此在網站信息、生物信息和基因以及文本的數據挖掘等領域得到了越來越廣泛的應用。在多種ANN模型中,反向傳播(Back Propagation,BP)網絡是應用最廣的一種。 神經元神經元 通過非線性函數n維的輸入向量 x 被映射為變量 ymk-fweighted sumInputvector xoutput yActivationfunctionweightvector ww0w1wnx

14、0 x1xn神經網絡的組成神經網絡的組成輸出節點輸出節點輸入節點輸入節點隱層節點隱層節點輸入矢量輸入矢量輸入矢量輸入矢量: xiwijijiijjOwIjIjeO11)(1 (jjjjjOTOOErrjkkkjjjwErrOOErr)1 (ijijijOErrlww)(jjjErrl)(基本的BP網絡由輸入層、輸出層和隱層組成。神經網絡的拓撲結構神經網絡的拓撲結構 神經網絡訓練之前,需要設計網絡拓撲結構。設計網絡拓撲的關鍵是,確定隱層的神經元個數及各神經元初始權值和閾值(偏差)。理論上講,隱層的神經元數越多,逼近越精確。但實際上,隱層神經元數不宜過多;否則會極大加長訓練時間,并造成網絡容錯能力

15、下降。經訓練后的神經網絡若其準確性不能被接受,則必須重新進行拓撲設計或改用不同的初始權值和閾值(偏差)。 神經網絡的訓練神經網絡的訓練n訓練的終止條件q獲得一組權重值,使得訓練集中幾乎所有樣本都分類正確n訓練步驟q利用隨機值對權值進行初始化 q將訓練樣本逐一地輸入給神經網絡,進行訓練q對于每個神經元n將其所有的輸入值進行線性求和計算得到總的輸入n利用激勵函數計算其輸出值n計算誤差n修正網絡權值和閾值(偏差)BP神經網絡神經網絡 BP神經網絡通過迭代處理一組訓練樣本,將各樣本的網絡預測與實際已知類標號進行比較實現學習訓練,反向修改網絡的權值,使得網絡預測與實際類之間的誤差平方最小。BP神經網絡按

16、照最優訓練準則反復迭代,確定并不斷調整神經網絡結構,通過迭代修改,當誤差收斂時學習過程終止。 因此,具有分類準確、收斂性好、動態性好和魯棒性強等優點。 BP神經網絡存在的問題神經網絡存在的問題n收斂速度問題收斂速度問題 BP分類器最大的弱點是其訓練速度非常緩慢,難以收斂。尤其是當網絡的訓練達到一定程度后,收斂更為緩慢。n局部極小點問題局部極小點問題 BP算法采用的是梯度下降法,對一個復雜的網絡而言,其誤差曲面是一個高維空間中的曲面,其中分布著許多局部極小點,一旦陷入了局部極小點則算法很難逃離出來。 BP神經網絡存在的問題神經網絡存在的問題n網絡癱瘓問題網絡癱瘓問題 在訓練過程中,權值可能變得很

17、大,這會使神經元的網絡輸入變得更大,從而使得其激勵函數的一階導函數在此點上的取值很小。此時的訓練步長會變得非常小,最終導致網絡停止收斂,這種現象即是所謂的網絡癱瘓現象。 關聯規則挖掘實例關聯規則挖掘實例 通過發現顧客放入其購物籃中不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發現可以幫助零售商制定營銷策略。例如,在同一次購物中,如果顧客購買牛奶的同時,也購買面包(和什么類型的面包)的可能性有多大? 這種信息可以引導銷售,可以幫助零售商有選擇地經銷和安排貨架。例如,將牛奶和面包盡可能放近一些,可以進一步刺激一次去商店同時購買這些商品。關聯規則挖掘實例關聯

18、規則挖掘實例購物籃關聯分析實例圖購物籃關聯分析實例圖3.3.1 基本概念基本概念Customerbuys diaperCustomerbuys bothCustomerbuys beer“啤酒與尿布啤酒與尿布”的關聯規則的關聯規則 For rule A Csupport = support(A C) = 50%confidence = support(A C)/support(A) = 66.6%For C A (50%, 100%)The Apriori principle:Any subset of a frequent itemset must be frequentTransaction ID Items Bought2000A,B,C1000A,C4000A,D5000B,E,FFrequent Itemset SupportA75%B50%C50%A,C50%Min. support 50%Min. confidence 50%關聯挖掘實例

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論