數據挖掘與決策支持_第1頁
數據挖掘與決策支持_第2頁
數據挖掘與決策支持_第3頁
數據挖掘與決策支持_第4頁
數據挖掘與決策支持_第5頁
已閱讀5頁,還剩52頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘與智能決策技術簡介

背景

二十世紀末以來,全球信息量以驚人的速度急劇增長—據估計,每二十個月將增加一倍。許多組織機構的IT系統中都收集了大量的數據(信息)。目前的數據庫系統雖然可以高效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。為了充分利用現有信息資源,從海量數據中找出隱藏的知識,數據挖掘技術應運而生并顯示出強大的生命力。

背景

數據挖掘是八十年代投資AI研究項目失敗后,AI轉入實際應用時提出的。它是一個新興的,面向商業應用的AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美國底特律召開的第11屆國際人工智能聯合會議的專題討論會上首次出現數據庫中的知識發現(KnowledgeDiscoveryinDatabase,KDD)這一術語。隨后,在1991年、1993年和1994年都舉行KDD專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算法、知識表示、知識運用等問題。最初,數據挖掘是作為KDD中利用算法處理數據的一個步驟,其后逐漸演變成KDD的同義詞。

數據挖掘定義技術角度的定義數據挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數據挖掘相近的同義詞包括:數據融合、數據分析和決策支持等。這一定義包括好幾層含義:數據源必須是真實的、海量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。

數據挖掘定義商業角度的定義數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性信息。簡言之,數據挖掘其實是一類深層次的數據分析方法。因此,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證己知的規律性,并進一步將其模型化的有效方法。

數據倉庫的定義

數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。此定義由最為權威的、被稱為“數據倉庫之父”的WilliamH.Inmon先生給出。

數據內容

數據庫名(數據庫內容描述)

注意:信息的完整性;相關業務人員達成共識。

業務人員確定

IT人員確定數據結構……...計算機內主題數據庫數據標準化決策支持:從數據庫到數據倉庫到數據集市到……數據倉庫的定義

數據倉庫是決策支持系統(DecisionSupportSystem,DSS,DSS)的基礎。在數據倉庫中只有單一集成的數據源,并且數據是可訪問的。所以與傳統數據庫相比,在數據倉庫環境中DSS分析員的工作將較為容易。

數據倉庫的組成一個數據倉庫的大小一般都是在100GB以上通常,數據倉庫系統應該包含下列程序:(1)抽取數據與加載數據(2)整理并轉換數據(采用一種數據倉庫適用的數據格式)(3)備份與備存數據(4)管理所有查詢(即將查詢導向適當的數據源)數據倉庫的組成OLAP的定義、特點點60年代,關系數數據庫之父提出了關系模模型,促進了了聯機事務處處理(OLTP)的發展(數據以表格的的形式而非文文件方式存儲儲)。1993年,提出了OLAP概念,認為OLTP已不能滿足終終端客戶對數數據庫查詢分分析的需要,,SQL對大型數據庫庫的簡單查詢詢也不能滿足足終端客戶分分析的要求。。客戶的決策策分析需要對對關系數據庫庫進行大量計計算才能獲得得結果,而查查詢的結果并并不能滿足決決策者提出的的需求。因此此,提出了多維數數據庫和多維維分析的概念念,即OLAP。OLAP的定義、特點點OLAP(On-LineAnalysisProcessing)定義是數據倉庫上上的分析展示示工具,它建建立在數據多多維視圖的基基礎上。OLAP的主要特點一是在線性(OnLine),體現為對用用戶請求的快快速響應和交交互式操作;;二是多維分析析(Multi_Analysis),這是OLAP技術的核心所所在。OLAP的定義和特點點OLAP與OLTP的區別(1)OLTP主要面向公司司職員;OLAP則主要面向公公司領導者。。(2)OLTP應用主要是用用來完成客戶戶的事務處理理,其數據基基礎是操作型型數據庫,如如民航訂票系系統、銀行儲儲蓄系統等等等,通常需要要進行大量的的更新操作,,同時對響應應時間要求較較高;而OLAP是以數據倉庫庫或數據多維維視圖為基礎礎的數據分析析處理,是針針對特定問題題的聯機數據據訪問和分析析,它一般不不對倉庫數據據作修改處理理,而只是查查詢,其應用用主要是對客客戶當前及歷歷史數據進行行分析,輔助助領導決策,,其典型的應應用有對銀行行信用卡風險險的分析與預預測、公司市市場營銷策略略的制定等,,主要是進行行大量的查詢詢操作,對時時間的要求不不太嚴格。多維數據Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay立方體實例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum數據立方體的的瀏覽VisualizationOLAPcapabilitiesInteractivemanipulation客戶保留目標營銷欺詐檢測購物籃分析客戶細分客戶忠誠度信用打分信用風險評估營銷組合管理和評估盈利能力分析價格優化客戶服務自動化銷售收入和需求預測利潤分析交叉銷售和增量銷售活動管理客戶流失分析客戶服務和問題解決業績和能力管理分銷渠道業績分析營業廳和服務商業績分析流程和質量控制稅收監控可能受益的商商業活動數據挖掘解決決方案歷史數據預測模型新申請者信用等級評價價預測模型::用過去的客客戶數據預測測未來理解商業問題題性別父親的教育程程度被訪者教育程程度工作類型城市當前收入水平平性別父親的教育育程度被訪者教育育程度工作類型城市當前收入水水平當前財政狀狀況未來信用風風險Time1Time2家庭收入銷售數量喜歡流行音音樂數據挖掘解解決方案PreprocessedDataDataTranslatedDataPatterns/ModelsResultsPreprocessingAnalysisInputOutput數據挖掘解解決方案主要數據挖挖掘技術分類Classification預測Prediction細分Segmentation關聯Association序列Sequence將您的顧客客和客戶分分類預測未來的的銷量和欺欺詐,流失失將市場、顧顧客細分發現那些商商品會在一一起銷售或或購買找出時間進進程中的模模式或趨勢勢決策樹規則偵測回歸分析聚類分析神經網絡序列模式DecisionTreesNeuralNetworksRuleInductionNearestNeighborGeneticAlgorithms數據挖掘主主要新技術術決策樹神經網絡規則偵測序列規則基因算法基于層次的的聚類方法法這類方法不不需要預先先給定參數數(聚類數數),但需需要終止條條件。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)CURE算法-DataPartitioningandClusterings=50p=2s/p=25xxxyyyyxyxs/pq=5CHAMELEON算法ConstructSparseGraphPartitiontheGraphMergePartitionFinalClustersDataSet客戶總列表30%VIP0-1孩子2-3孩子20%VIP4+孩子$50-75kincome15%VIP$75k+income70%VIP$50-75kincome$20-50kincome85%VIPAge:40-6080%VIPAge:20-4045%VIP分類決策樹樹Attributes={Outlook,Temperature,Humidity,Wind}OutlookHumidityWindsunnyrainovercastyesnoyeshighnormalnostrongweakyesPlayTennis={yes,no}打高爾夫球球的決策樹樹實例(自自頂向下))根據加薪百百分比、工工作時長、、法定節假假日、及醫醫療保險三三個屬性來來判斷一個個企業的福福利狀況(good或bad)。對象關系網絡網絡分析強弱路徑自我小群體缺失角色網絡分析神經網絡線性回歸Logistics回歸多層神經網網絡細胞繁殖神經網絡算算法人工神經網網(ArtificialNeuralNetwork,ANN)是20世紀80年代后期迅迅速發展起起來的人工工智能技術術,它對噪噪聲數據具具有很高的的承受能力力,對未經經訓練的數數據具有分分類模擬的的能力,因因此在網站站信息、生生物信息和和基因以及及文本的數數據挖掘等等領域得到到了越來越越廣泛的應應用。在多多種ANN模型中,反反向傳播((BackPropagation,BP)網絡是應應用最廣的的一種。神經元通過非線性性函數n維的輸入向向量x被映射為變變量ymk-fweightedsumInputvectorxoutputyActivationfunctionweightvectorw?w0w1wnx0x1xn神經網絡的的組成輸出節點輸入節點隱層節點輸入矢量輸入矢量:xiwij基本的BP網絡由輸入入層、輸出出層和隱層層組成。神經網絡的的拓撲結構構神經網絡訓訓練之前,,需要設計計網絡拓撲撲結構。設設計網絡拓拓撲的關鍵鍵是,確定定隱層的神神經元個數數及各神經經元初始權權值和閾值值(偏差))。理論上上講,隱層層的神經元元數越多,,逼近越精精確。但實實際上,隱隱層神經元元數不宜過過多;否則則會極大加加長訓練時時間,并造造成網絡容容錯能力下下降。經訓訓練后的神神經網絡若若其準確性性不能被接接受,則必必須重新進進行拓撲設設計或改用用不同的初初始權值和和閾值(偏偏差)。神經網絡的訓訓練訓練的終止條條件獲得一組權重重值,使得訓訓練集中幾乎乎所有樣本都都分類正確訓練步驟利用隨機值對對權值進行初初始化將訓練樣本逐逐一地輸入給給神經網絡,,進行訓練對于每個神經經元將其所有的輸輸入值進行線線性求和計算算得到總的輸輸入利用激勵函數數計算其輸出出值計算誤差修正網絡權值值和閾值(偏偏差)BP神經網絡BP神經網絡通過過迭代處理一一組訓練樣本本,將各樣本本的網絡預測測與實際已知知類標號進行行比較實現學學習訓練,反反向修改網絡絡的權值,使使得網絡預測測與實際類之之間的誤差平平方最小。BP神經網絡按照照最優訓練準準則反復迭代代,確定并不不斷調整神經經網絡結構,,通過迭代修修改,當誤差差收斂時學習習過程終止。。因此,具有分分類準確、收收斂性好、動動態性好和魯魯棒性強等優優點。BP神經網絡存在在的問題收斂速度問題題BP分類器最大的的弱點是其訓訓練速度非常常緩慢,難以以收斂。尤其其是當網絡的的訓練達到一一定程度后,,收斂更為緩緩慢。局部極小點問問題BP算法采用的是是梯度下降法法,對一個復復雜的網絡而而言,其誤差差曲面是一個個高維空間中中的曲面,其其中分布著許許多局部極小小點,一旦陷陷入了局部極極小點則算法法很難逃離出出來。BP神經網絡存在在的問題網絡癱瘓問題題在訓練過程中中,權值可能能變得很大,,這會使神經經元的網絡輸輸入變得更大大,從而使得得其激勵函數數的一階導函函數在此點上上的取值很小小。此時的訓訓練步長會變變得非常小,,最終導致網網絡停止收斂斂,這種現象象即是所謂的的網絡癱瘓現現象。關聯規則挖掘掘實例通過發現顧客客放入其購物物籃中不同商商品之間的聯聯系,分析顧顧客的購買習習慣。通過了了解哪些商品品頻繁地被顧顧客同時購買買,這種關聯聯的發現可以以幫助零售商商制定營銷策策略。例如,,在同一次購購物中,如果果顧客購買牛牛奶的同時,,也購買面包包(和什么類類型的面包))的可能性有有多大?這種信息可以以引導銷售,,可以幫助零零售商有選擇擇地經銷和安安排貨架。例例如,將牛奶奶和面包盡可可能放近一些些,可以進一一步刺激一次次去商店同時時購買這些商商品。關聯規則挖掘掘實例購物籃關聯分分析實例圖基本概念CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer“啤酒與尿布”的關聯規則ForruleACsupport=support({AC})=50%confidence=support({AC})/support({A})=66.6%ForCA(50%,100%)TheAprioriprinciple:AnysubsetofafrequentitemsetmustbefrequentMin.support50%Min.confidence50%關聯挖掘實例例3.5數據挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論