




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、主要內容主要內容1. 概述概述2. 數據倉庫與數據倉庫與OLAP技術技術3. 數據挖掘技術數據挖掘技術4. 數據挖掘應用數據挖掘應用5. 數據挖掘工具數據挖掘工具6. 數據挖掘實例數據挖掘實例1 概述概述1.1 背景背景1.2 數據挖掘定義數據挖掘定義1.3 基本概念基本概念1.4 主要功能主要功能1.5 數據挖掘模型數據挖掘模型1.6 實現流程實現流程1.7 數據挖掘的應用數據挖掘的應用1.8 未來趨勢未來趨勢1.1 背景背景 二十世紀末以來,全球信息量以驚人的速度急劇增長據估計,每二十個月將增加一倍。許多組織機構的IT系統中都收集了大量的數據(信息)。目前的數據庫系統雖然可以高效地實現數據
2、的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。為了充分利用現有信息資源,從海量數據中找出隱藏的知識,數據挖掘技術應運而生并顯示出強大的生命力。 1.1 背景背景 數據挖掘是八十年代投資AI研究項目失敗后,AI轉入實際應用時提出的。它是一個新興的,面向商業應用的AI研究。(AI(Artificial Intelligence,人工智能) ) 1989年8月,在美國底特律召開的第11屆國際人工智能聯合會議的專題討論會上首次出現數據庫中的知識發現(Knowledge Discovery in Database,KDD)這一術語。 隨后,在1991年
3、、1993年和1994年都舉行KDD專題討論會,匯集來自各個領域的研究人員和應用開發者,集中討論數據統計、海量數據分析算法、知識表示、知識運用等問題。最初,數據挖掘是作為KDD中利用算法處理數據的一個步驟,其后逐漸演變成KDD的同義詞。 1.1 背景背景 現在,人們往往不加區別地使用兩者。KDD常常被稱為數據挖掘(Data Mining),實際兩者是有區別的。一般將KDD中進行知識學習的階段稱為數據挖掘(Data Mining),數據挖掘是KDD中一個非常重要的處理步驟。 數據挖掘是近年來出現的客戶關系管理(Customer Relationship Management, CRM)、商業智能
4、(Business Intelligence, BI)等熱點領域的核心技術之一。 1.2 數據挖掘定義數據挖掘定義 技術角度的定義技術角度的定義 數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。與數據挖掘相近的同義詞包括:數據融合、數據分析和決策支持等。 這一定義包括好幾層含義:數據源必須是真實的、海量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。 1.2 數據挖掘定義數據挖掘定義 商業角度的定
5、義商業角度的定義 數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性信息。 簡言之,數據挖掘其實是一類深層次的數據分析方法。因此,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證己知的規律性,并進一步將其模型化的有效方法。 數據挖掘的演化數據挖掘的演化進化階段商業問題支持技術產品廠家產品特點數據搜集(60年代)“過去五年中我的總收入是多少?”計算機、磁帶和磁盤IBM,CDC提供歷史性的、靜態的數據信息數據訪問(80年代)“在新英格蘭的分部去年三月的銷售額是
6、多少?”關系數據庫(RDBMS),結構化查詢語言(SQL),ODBC Oracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態數據信息數據倉庫;決策支持(90年代)“在新英格蘭的分部去年三月的銷售額是多少?波士頓據此可得出什么結論?”聯機分析處理(OLAP)、多維數據庫、數據倉庫Pilot、Comshare、Arbor、Cognos、Microstrategy在各種層次上提供回溯的、動態的數據信息數據挖掘(正在流行)“下個月波士頓的銷售會怎么樣?為什么?”高級算法、多處理器計算機、
7、海量數據庫Pilot、Lockheed、IBM、SGI、其他初創公司提供預測性的信息數據挖掘與其他科學的關系數據挖掘與其他科學的關系Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearningVisualization數據挖掘與其他科學的關系數據挖掘與其他科學的關系 數據挖掘作為一門新興的交叉學科,涉及數據庫系統、數據倉庫、統計學、機器學習、可視化、信息檢索和高性能計算等諸多領域。 此外,還與神經網絡、模式識別、空間數據分析、圖像處理、信號處理、概率論、圖論和歸納邏輯等等領域關
8、系密切。 數據挖掘與統計學的關系數據挖掘與統計學的關系 近幾年,人們逐漸發現數據挖掘中有許多工作都是由統計方法來完成的。甚至有些人(尤其是統計學家)認為數據挖掘是統計學的一個分支,當然大多數人(包括絕大多數數據挖掘研究人員)并不這么認為。 但是,統計學和數據挖掘的目標非常相似,而且數據挖掘中的許多算法也源于數理統計,統計學對數據挖掘發展的貢獻功不可沒。數據挖掘與傳統數據分析方法區別數據挖掘與傳統數據分析方法區別(1)數據挖掘的數據源與以前相比有了顯著的改變; 數據是海量的; 數據有噪聲; 數據可能是非結構化的; (2)傳統的數據分析方法一般都是先給出一個假設然后通過數據驗證,在一定意義上是假設
9、驅動的;與之相反,數據挖掘在一定意義上是發現驅動的,模式都是通過大量的搜索工作從數據中自動提取出來 。即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。 在缺乏強有力的數據分析工具而不能分析這些資源的情況下,歷史數據庫也就變成了“數據墳墓”里面的數據幾乎不再被訪問。也就是說,極有價值的信息被“淹沒”在海量數據堆中,領導者決策時還只能憑自己的經驗和直覺。因此改進原有的數據分析方法,使之能夠智能地處理海量數據,即演化為數據挖掘。 數據挖掘與傳統數據分析方法區別數據挖掘與傳統數據分析方法區別國外數據挖掘的現狀國外數據挖掘的現狀 I
10、EEE的Knowledge and Data Engineering會刊率先在1993年出版了KDD技術專刊。并行計算、計算機網絡和信息工程等其他領域的國際學會、學刊也把數據挖掘和知識發現列為專題和專刊討論。數據挖掘已經成了國際學術研究的重要熱點之一。 此外,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discovery Nuggets最為權威(http:/ subscribe.html)。在網上還有許多自由論壇,如DM Email Club等。 國外數據挖掘的現狀國外數據挖掘的現狀 自1989年KDD術語出現以來,由美國人工智能協會主辦的KDD國際研討會已經
11、召開了10次以上,規模由原來的專題討論會發展到國際學術大會。而亞太地區也從1997開始舉行PAKDD年會。 國內數據挖掘研究現狀國內數據挖掘研究現狀 與國外相比,國內對數據挖掘的研究起步稍晚,但發展勢頭強勁。 1993年,國家自然科學基金首次資助復旦大學對該領域的研究項目。 目前,國內的許多科研單位和高等院校競相開展知識發現的基礎理論及其應用研究。數據挖掘的發展趨勢數據挖掘的發展趨勢 近年來,數據挖掘的研究重點逐漸從發現方法轉向系統應用,注重多種發現策略和技術的集成,以及多學科之間的相互滲透。 例如,1998年在美國紐約舉行的第四屆知識發現與數據挖掘國際學術會議不僅進行了學術討論,并且有30多
12、家軟件公司展示了他們的數據挖掘軟件產品,不少軟件已在北美、歐洲等國得到應用。 數據挖掘的本質數據挖掘的本質 一種深層次的數據分析方法。 數據分析本身已有多年的歷史,只不過在過去數據收集和分析的一般目的是用于科學研究;另外,由于當時計算能力的限制,很難實現大量數據的復雜分析。 現在,由于各行業業務自動化的實現,商業領域產生了大量的業務數據,這些數據并不是為了分析的目的而收集的,而是在商業運作過程中由于業務需要而自然產生的。實施數據挖掘的目的實施數據挖掘的目的 不再是單純為了研究,更主要的是為商業決策提供真正有價值的信息,進而獲得利潤。 所有企業面臨的一個共同問題是:企業數據量非常大,而其中真正有
13、價值的信息卻很少,因此需要從大量的數據中經過深層分析,獲得有利于商業運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也由此而得名。1.3 基本概念基本概念 信息信息 是事物運動的狀態和狀態變化的方式。 數據數據 指一個有關事實F的集合(如學生檔案數據庫中有關學生基本情況的各條記錄),用來描述事物有關方面的信息。一般而言,這些數據都是準確無誤的。 數據可能存儲在數據庫、數據倉庫和其他信息資料庫中。1.3 基本概念基本概念 知識知識 人們實踐經驗的結晶且為新的實踐所證實的;是關于事物運動的狀態和狀態變化的規律;是對信息加工提煉所獲得的抽象化產物。 知識的形式可能是模式、關聯、變化、異常以及其
14、他有意義的結構。1.3 基本概念基本概念 模式模式 對于集合F中的數據,我們可以用語言L來描述其中數據的特性,得出一個表達式E,E所描述的數據是集合F的一個子集FE。只有當表達式E比列舉所有FE中元素的描述方法更為簡單時,我們才可稱之為模式。如:“如果成績在81-90之間,則成績優良”可稱為一個模式,而“如果成績為81、82、83、84、85、86、87、88、89或90,則成績優良”則不能不能稱之為一個模式。 1.4 主要功能主要功能1. 概念概念/類別描述類別描述(Concept/Class Description) 概念/類別描述是指對數據集做一個簡潔的總體性描述并/或描述它與某一對照數
15、據集的差別。 例1:我們收集移動電話費月消費額超出1000元的客戶資料,然后利用數據挖掘進行分析,獲得這類客戶的總體性描述:3550歲,有工作,月收入5000元以上,擁有良好的信用度; 1.4 主要功能主要功能 例2:對比移動電話費月消費額超出1000元的客戶群與移動電話費月消費額低于100元的客戶群。 利用數據挖掘可作出如下描述:移動電話月消費額超出1000元的客戶80以上年齡在3550歲之間,且月收入5000元以上;而移動電話月消費額低于100元的客戶60以上要么年齡過大要么年齡過小,且月收入2000元以下。1.4 主要功能主要功能2. 關聯分析關聯分析(Association Analy
16、sis) 從一個項目集中發現關聯規則,該規則顯示了給定數據集中經常一起出現的屬性值條件元組。 例如:關聯規則X=Y所表達的含義是滿足X的數據庫元組很可能滿足Y。關聯分析在交易數據分析、支持定向市場、商品目錄設計和其他業務決策等方面有著廣泛的應用。 1.4 主要功能主要功能3. 分類與估值分類與估值(Classification and Estimation) 分類指通過分析一個類別已知的數據集的特征來建立一組模型,該模型可用以預測類別未知的數據項的類別。該分類模型可以表現為多種形式:分類規則(IF-THEN),決策樹或者數學公式,乃至神經網絡。 估值與分類類似,只不過它要預測的不是類別,而是一
17、個連續的數值。 1.4 主要功能主要功能4. 聚類分析聚類分析(Clustering Analysis) 聚類分析又稱為“同質分組”或者“無監督的分類”,指把一組數據分成不同的“簇”,每簇中的數據相似而不同簇間的數據則距離較遠。相似性可以由用戶或者專家定義的距離函數加以度量。 好的聚類方法應保證不同類間數據的相似性盡可能地小,而類內數據的相似性盡可能地大。 1.4 主要功能主要功能5. 時間序列分析時間序列分析(Time-Series Analysis) 時間序列分析即預測(Prediction),是指通過對大量時間序列數據的分析找到特定的規則和感興趣的特性,包括搜索相似序列或者子序列,挖掘序
18、列模式、周期性、趨勢和偏差。預測的目的是對未來的情況作出估計。 1.4 主要功能主要功能6. 其它功能其它功能 包括:偏差分析(Deviation Analysis)、孤立點分析(Outlier Analysis)等。 隨著數據挖掘技術的發展,可能還會繼續出現新的數據挖掘功能。 1.5 數據挖掘模型數據挖掘模型 為了使數據挖掘技術在產業界得到更好的應用,歐洲委員會聯合一些數據挖掘軟件廠商開發了CRISP-DM(Cross Industry Standard Process for Data Mining)模型,目的是把數據挖掘的過程標準化, 使數據挖掘項目的實施速度更快、成本更低、更可靠并且更
19、容易管理。 CRISP-DM模型最先在1996年被提出,當前的白皮書版本是1.0。CRISP-DM(Cross Industry Standard Process for Data Mining)模型 業務理解數據理解數據準備建立模型模型評估系統部署數據1.5 數據挖掘模型數據挖掘模型 CRISP-DM模型中,數據挖掘包括六個步驟: 1.1.業務理解(業務理解(Business UnderstandingBusiness Understanding)階段)階段 具體地,包括:I. 確定業務目標II. 項目可行性分析III.確定數據挖掘目標IV. 提出初步的項目計劃1.5 數據挖掘模型數據挖掘模
20、型 確定業務目標:分析項目的背景,從業務視點分析項目的目標和需求,確定業務角度的成功標準; 項目可行性分析:分析擁有的資源,條件和限制,風險估計,成本和效益估計; 確定數據挖掘目標:明確確定數據挖掘的目標和成功標準,數據挖掘的目標和業務目標是不一樣的,前者指技術上的,例如生成一棵決策樹等; 提出項目計劃:對整個項目做一個計劃,初步估計用到的工具和技術。 1.5 數據挖掘模型數據挖掘模型 2 2數據理解(數據理解(Data UnderstandingData Understanding)階段)階段 具體地,包括: 收集原始數據:收集本項目所涉及到的數據,如有必要,把數據裝入數據處理工具,并作一些
21、初步的數據集成的工作,生成相應報告; 描述數據:對數據做一些大致的描述,例如記錄數、屬性數等,給出相應報告; 探索數據:對數據做簡單的統計分析,例如關鍵屬性的分布等; 檢查數據質量:包括數據是否完整、數據是否有錯、是否有缺失值等問題。 1.5 數據挖掘模型數據挖掘模型3 3數據準備(數據準備(Data PreparationData Preparation)階段)階段 具體地,包括: 數據選擇:根據數據挖掘目標和數據質量選擇合適的數據,包括表的選擇、記錄選擇和屬性選擇; 數據清潔:提高選擇好的數據的質量,例如去除噪音,估計缺失值等; 數據創建:在原有數據的基礎上是生成新的屬性或記錄;1.5 數
22、據挖掘模型數據挖掘模型 數據合并:利用表連接等方式將幾個數據集合并在一起; 數據格式化:把數據轉換成適合數據挖掘處理的格式。1.5 數據挖掘模型數據挖掘模型4 4建立模型(建立模型(ModelingModeling)階段)階段 具體地,包括: 選擇建模技術:確定數據挖掘算法和參數,可能會利用多個算法; 測試方案設計:設計某種測試模型的質量和有效性的機制; 模型訓練:在準備好的數據集上運行數據挖掘算法,得出一個或者多個模型; 模型測試評估:根據測試方案進行測試,從數據挖掘技術的角度確定數據挖掘目標是否成功。 1.5 數據挖掘模型數據挖掘模型5模型評估(模型評估(EvaluationEvaluat
23、ion)階段)階段 具體地,包括: 結果評估:從商業角度評估得到的模型,甚至實際試用該模型測試其效果; 過程回顧:回顧項目的所有流程,確定每一個階段都沒有失誤; 確定下一步工作:根據結果評估和過程回顧得出的結論,確定是部署該挖掘模型還是從某個階段開始重新開始。 1.5 數據挖掘模型數據挖掘模型6 6部署(部署(DeploymentDeployment)階段)階段 具體地,包括: 部署計劃:對在業務運作中部署模型作出計劃; 監控和維護計劃:如何監控模型在實際業務中的使用情況,如何維護該模型; 作出最終報告:項目總結,項目經驗和項目結果; 項目回顧:回顧項目的實施過程,總結經驗教訓;對數據挖掘的運
24、行效果做一個預測。 1.5 數據挖掘模型數據挖掘模型 為保證項目的可靠性和可管理性,CRISP-DM規定一個數據挖掘項目應該產生11個報告: 業務理解報告業務理解報告 原始數據收集報告原始數據收集報告 數據描述報告數據描述報告 數據探索報告數據探索報告 數據質量報告數據質量報告 數據集描述報告數據集描述報告 模型訓練報告模型訓練報告 模型評估報告模型評估報告 部署計劃部署計劃 監控和維護計劃監控和維護計劃 總結報告總結報告 通過這些報告,可以有效地控制數據挖掘項目進程,減少開發風險。 1.6 實現流程實現流程原始數據數據模式知識應用準備挖掘解釋運用 各步驟之間互相影響、反復調整,形成一種螺旋式
25、上升過程。1.6 實現流程實現流程 數據準備數據準備 KDD的處理對象是大量的數據,這些數據一般存儲在數據庫系統中,是長期積累的結果。但往往不合適直接在這些數據上進行知識挖掘,需要做一些準備工作,也就數據的預處理。數據預處理包括數據的選擇(選擇相關數據)、凈化(消除噪音、冗余數據)、推測(推算缺值數據)、轉換(離散型數據與連續型數據之間的轉換)、數據縮減(減少數據量)等。 數據準備是KDD的第一個步驟,也是比較重要的一個步驟。數據準備得好壞將直接影響數據挖掘的效率和準確度以及最終模式的有效性。 1.6 實現流程實現流程 數據挖掘數據挖掘 數據挖掘是最為關鍵的步驟,它根據KDD的目標,選取相應算
26、法的參數,分析數據,得到可能形成知識的模式模型。目前采用較多的技術有決策樹、分類、聚類、粗糙集、關聯規則、神經網絡、遺傳算法等。 1.6 實現流程實現流程 模式的評估、解釋模式的評估、解釋 通過上面步驟所得到的模式,有可能是沒有意義或沒有實用價值的,因此需要評估,確定那些是有效的、有用的模式。此外,大部分模式是用數學手段描述的表達式,很難被人理解,還需要將其解釋成可理解的方式以呈現給用戶。 1.6 實現流程實現流程 知識運用知識運用 發現知識是為了運用,如何使知識能被運用也是KDD的步驟之一。運用知識有兩種方法:一種是只需看知識本身所描述的關系或結果,就可以對決策提供支持;另一種是要求對新的數
27、據運用知識,由此可能產生新的問題,而需要對知識做進一步的優化。 KDD過程可能需要多次的循環反復,每一個步驟一旦與預期目標不符,都要回到前面的步驟,重新調整,重新執行。1.6 實現流程實現流程 數據挖掘過程的分步實現,不同的步驟需要不同的專業人員參與完成,大體分為三類:1)業務分析人員:要求精通業務,能夠解釋業務對象,并根據各業務對象確定出用于數據定義和挖掘算法的業務需求。2)數據分析人員:精通數據分析技術,并對統計學有較熟練的掌握,有能力把業務需求轉化為數據挖掘的各步操作,并為每步操作選擇合適的技術。3)數據管理人員:精通數據管理技術,并從數據庫或數據倉庫中收集數據。1.6 實現流程實現流程
28、 從上可見,數據挖掘是一個多領域專家合作的過程,也是一個在資金上和技術上高投入的過程。這一過程要反復進行,在反復過程中,不斷地趨近事物的本質,不斷地優先問題的解決方案。 1.7 數據挖掘的應用數據挖掘的應用 數據挖掘技術的產生本身就有其強烈的應用需求背景,它從一開始就是面向應用的。數據挖掘技術在市場分析、業務管理、決策支持等方面有廣泛的應用,是實現CRM和BI的重要技術手段之一。具體涉及數據挖掘的商業問題有數據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analy
29、sis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失分析(Churn Analysis)、客戶信用評分(Credit Scoring)、欺詐甄別(Fraud Detection)等 。 當前數據挖掘應用主要集中在電信(客戶分析),零售(銷售預測),農業(行業數據預測),網絡日志(網頁定制),銀行(客戶欺詐),電力(客戶呼叫),生物(基因),天體(星體分類),化工,醫藥等方面。當前它能解決的問題典 型在于:數據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、 背景分析(P
30、rofile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發現(Fraud Detection)等等, 在許多領域得到了成功的應用。如果你訪問著名的亞馬遜網上書店(),會發現當你選中一本書后,會出現相關的推薦數目“Customers who bought this book also bought”,這背后就是數據挖掘技術在發揮作用。 1.7 數據挖掘的應用數據挖掘的應用1.7 數據挖掘的應用數據挖掘的應用 最近Gartner Group的一次高級技術調查將數據挖
31、掘和人工智能列為“未來三到五年內將對工業產生深遠影響的五大關鍵技術”之首,并且還將并行處理和數據挖掘列為未來五年內投資焦點的十大新興技術前兩位。根據最近Gartner的HPC研究表明,“隨著數據捕獲、傳輸和存儲技術的快速發展,大型系統用戶將更多地需要采用新技術來挖掘市場以外的價值,采用更為廣闊的并行處理系統來創建新的商業增長點。 1.8 就業領域 數據挖掘的對象是某一專業領域中積累的數據;挖掘過程是一個人機交互、多次反 復的過程;挖掘的結果要應用于該專業。因此數據挖掘的整個過程都離不開應用領域的專業知識。“Business First, technique second”是數據挖掘的特點。因此
32、學習數據挖掘不意味著丟棄原有專業知識和經驗。相反,有其它行業背景是從事數 據挖掘的一大優勢。如有銷售,財務,機械,制造,call center等工作經驗的,通過學習數據挖掘,可以提升個人職業層次,在不改變原專業的情況下,從原來的事務型角色向分析型角色 轉變。從80年代 末的初露頭角到90年 代末的廣泛應用,以數據挖掘為核心的商業智能(BI)已經成為IT及其它行業中的一個新寵。數據挖掘就業的途徑:A:做科研(在高校、科研單位以及大型企業,主要研究 算法、應用等) B:做程序開發設計(在企業做數據挖掘及其相關程序算法的實現等)C:數據分析師(在存在海 量數據的企事業單位做咨詢、分析等)2.數據挖掘
33、從業人員切入點:C,數據分析師:需要有深 厚的數理統計基礎,可以不知道人工智能和計算機編程等相關技術,但是需要熟練使用主流的數據挖掘(或統計分析)工具 。從這個方面切入數據挖掘領域需要學習數理統計、概率論、統計學習基礎:數據挖掘、 推理與預測 、金融數據挖掘,業務建模與數據挖掘、數據挖掘實踐 等,當然也少不了使用的工具的對應說明書了,如SPSS、SAS等廠商的SAS數據挖掘與分析、數據挖掘Clementine應用實務 、EXCEL 2007數據挖掘完全手冊等。B,程序設計開發:主要是實現數據挖掘現有的算法和研發 新的算法以及根據實際需要結合核心算法做一些程序開發實現工作。要想扮演好這個角色,你
34、不但需要熟悉至少一門編程語言如(C,C+,Java,Delphi等)和數據庫原理和操作,對數據挖掘基礎課程有所了 解,讀過數據挖掘概念與技術(韓家煒著)、人工智能及其應用。可以尋找一些開源的數據挖掘 軟件研究分析,也可以參考如數據挖掘:實用機器學習技術及Java實現等一些教程。A.做科研:這里的科研相 對來說比較概括,屬于技術型的相對高級級別,也是B,C的歸宿,那么相應的也就需要對B、C的必備基礎知識了。數據采集分析專員職位介紹:數據采集分析專員的主要職責是把公司運營的數據收集起來,再從中挖 掘出規律性的信息來指導公司的戰略方向。這個職位常被忽略,但相當重要。由于數據庫技術最先出現于計算機領域
35、,同時計算機數據庫具有海量存儲、查找迅速、 分析半自動化等特點,數據采集分析專員最先出現于計算機行業,后來隨著計算機應用的普及擴展到了各個行業。該職位一般提供給懂數據庫應用和具有一定統計分 析能力的人。有計算機特長的統計專業人員,或學過數據挖掘的計算機專業人員都可以勝任此工作,不過最好能夠對所在行業的市場情況具有一定的了解。求職建議:由于很多公司追求短期利益而不注重長期戰略的現狀,目前國內很多企 業對此職位的重視程度不夠。但大型公司、外企對此職位的重視程度較高,隨著時間的推移該職位會有升溫的趨勢。另外,數據采集分析專員很容易獲得行業經驗, 他們在分析過程中能夠很輕易地把握該行業的市場情況、客戶
36、習慣、渠道分布等關鍵情況,因此如果想在某行創業,從數據采集分析專員干起是一個不錯的選擇。市場/數據分析師1. 市場數據分析是現代市場營銷科學必不可少的關鍵環節: Marketing/Data Analyst從業最多的行業: Direct Marketing (直接面向客戶的市場營銷) 吧,自90年代以來, Direct Marketing越來越成為公司推銷其產品的主要手段。為什么Direct Marketing需要這么多Analyst呢? 舉個例子, 隨著商業競爭日益加劇,公司希望能最大限 度的從廣告中得到銷售回報, 他們希望能有更多的用戶來響應他們的廣告。所以他們就必需要在投放廣告之前做大量
37、的市場分析工作。例如,根據自己的產品結合目標市場顧客的家 庭收入,教育背景和消費趨向分析出哪些地區的住戶或居民最有可能響應公司的銷售廣告,購買自己的產品或成為客戶,從而廣告只針對這些特定的客戶群。這樣有 的放矢的篩選廣告的投放市場既節省開銷又提高了銷售回報率。但是所有的這些分析都是基于數據庫,通過數據處理,挖掘,建模得出的,其間,市場分析師的工作 是必不可少的。2. 行業適應性強: 幾乎所有的行業都會應用到數據, 所以作為一名數據/市場分析師可以在政府,銀行,零售,醫藥業,制造業和交通傳輸等領域服務。1.8 未來趨勢未來趨勢 未來的熱點應用領域未來的熱點應用領域 網站的數據挖掘(網站的數據挖掘
38、(Web site data miningWeb site data mining) 生物信息或基因的數據挖掘生物信息或基因的數據挖掘 文本挖掘(文本挖掘(Textual miningTextual mining) 多媒體挖掘多媒體挖掘 1.8 未來趨勢未來趨勢 網站的數據挖掘(網站的數據挖掘(Web site data miningWeb site data mining) 當前Internet上各類電子商務網站風起云涌,電子商務業務的競爭比傳統的業務競爭更加激烈。客戶從一個電子商務網站轉換到競爭對手那邊,只需點擊幾下鼠標即可,電子商務環境下客戶保持比傳統商業更加困難。若想在競爭中生存進而獲
39、勝,您必須比競爭對手更了解客戶。電子商務網站每天都可能有上百萬次的在線交易,生成大量的記錄文件(Log files)和登記表,如何對這些數據進行分析和挖掘,及時地了解客戶的喜好、購買模式,甚至是客戶一時的沖動,設計出滿足于不同客戶群體需要的個性化網站,進而增加競爭力,幾乎變得勢在必行。1.8 未來趨勢未來趨勢 網站的數據挖掘(網站的數據挖掘(Web site data miningWeb site data mining) 就分析和建立模型的技術和算法而言,網站的數據挖掘和原來的數據挖掘差別并不是特別大,很多方法和分析思想都可以運用。所不同的是網站的數據格式有很大一部分來自于點擊流,和傳統的數
40、據庫格式有區別。因而對電子商務網站進行數據挖掘所做的主要工作是數據準備。目前,有很多廠商正在致力于開發專門用于網站挖掘的軟件。 1.8 未來趨勢未來趨勢 生物信息或基因的挖掘生物信息或基因的挖掘 生物信息或基因數據挖掘則完全屬于另外一個領域,在商業上很難講有多大的價值,但對于人類卻受益非淺。例如,基因的組合千變萬化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。 對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法方面,都要復雜得多。從分析算法上講,
41、更需要一些新的和高效的算法。現在很多廠商正在致力于這方面的研究。但就技術和軟件而言,還遠沒有達到成熟的地步。 1.8 未來趨勢未來趨勢 文本挖掘(文本挖掘(Textual miningTextual mining) 文本挖掘是人們關心的另外一個話題。例如,在客戶服務中心,把同客戶的談話轉化為文本數據,再對這些數據進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。 無論是在數據結構還是在分析處理方法方面,文本數據挖掘和數據挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,還有很多需要研究的專題。目前市場上有一些類似的軟件,但大部分方法只是把文本移來移
42、去,或簡單地計算一下某些詞匯的出現頻率,并沒有真正實現語義上的分析功能。 1.8 未來趨勢未來趨勢 多媒體挖掘(多媒體挖掘(Multimeadia MiningMultimeadia Mining) 基于描述的檢索系統基于圖像的描述創建索引并實現對象檢索,如關鍵字、標題、尺寸和創建時間等; 人工實現則極為費時、費力 ; 自動實現則往往結果不理想。 基于內容的檢索系統支持基于圖像內容的檢索,例如顏色、質地、形狀、對象及小波變換 主要內容主要內容1. 概述概述2. 數據倉庫與數據倉庫與OLAP技術技術3. 數據挖掘技術數據挖掘技術4. 數據挖掘在電信領域的應用數據挖掘在電信領域的應用5. 數據挖掘
43、工具數據挖掘工具6. 數據挖掘實例數據挖掘實例2 數據倉庫與數據倉庫與OLAP技術技術2.1 數據倉庫數據倉庫2.2 ETL過程過程2.3 電信領域數據倉庫的設計與實現電信領域數據倉庫的設計與實現2.4 數據倉庫的應用數據倉庫的應用OLAP2.1 數據倉庫與數據庫的關系數據倉庫與數據庫的關系 到目前為止,數據倉庫在國外已經發展了十幾年的時間。在國內,雖然起步較晚,但發展較為迅速。 目前有很多的大公司或企業正在建或計劃建設不同規模的數據倉庫和數據集市。 2.1 數據倉庫與數據庫的關系數據倉庫與數據庫的關系 數據倉庫建立在傳統事務型數據庫的基礎之上,為企業決策支持系統、OLAP及數據挖掘系統提供數
44、據源。2.1 數據倉庫與數據庫的關系數據倉庫與數據庫的關系 數據庫的應用包括:事務型應用和分析型應用 物理數據庫實際存儲的數據包括: 事務型數據(或稱操作數據)和分析型數據(也可稱為匯總數據、信息數據)。 起初,兩類數據放到一起,即分散存儲在各底層的業務數據庫中。 后來,隨著企業規模的擴展、數據量的增加、以及希望在決策分析時得到更多支持需求的日益迫切,并且考慮保證原有事務數據庫的高效性與安全性。因此將分析型數據與事務型數據相分離,單獨存放,即形成了所謂的數據倉庫。 2.1 數據倉庫與數據庫的關系數據倉庫與數據庫的關系 數據倉庫只不過是因為用戶需求增加而對某一類數據庫應用的一個范圍的界定。單就其
45、是數據的存儲容器這一點而言,數據倉庫與數據庫并沒有本質的區別。 而且在更多的時候,我們是將數據倉庫作為一個數據庫應用系統來看待的。 因此,不應該說數據庫到數據倉庫是技術的進步。 數據倉庫與數據庫的區別數據倉庫與數據庫的區別數據倉庫的出現,并不是要取代數據庫。目前,大部分數據倉庫還是用關系數據庫管理系統來管理的。可以說,數據庫、數據倉庫相輔相成、各有千秋。 數據庫是面向事務的設計,數據倉庫是面向主題設計的。 數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。 數據庫設計是盡量避免冗余,一般采用符合范式的規則來設計,數據倉庫在設計是有意引入冗余,采用反范式的方式來設計。 數據庫是為捕獲數據
46、而設計,數據倉庫是為分析數據而設計,它的兩個基本的元素是維表和事實表。數據庫與數據倉庫的區別數據庫與數據倉庫的區別 業務數據庫數據倉庫內容與業務相關的數據與決策相關的信息數據模型關系、層次結構的關系的/多維的訪問經常是隨機的讀寫操作經常是只讀操作負載事務處理量大、但每個事務涉及的記錄數較少查詢量少,但每次要查詢大量的記錄事務輸出量一般很少可能非常大停機時間可能意味著災難性錯誤可能意味著延遲決策演變過程演變過程 60年代數據收集、數據庫創建、信息管理系統( IMS )和網絡數據庫管理系統(Network DBMS) 70年代 關系數據模型以及關系型DBMS演變過程演變過程 80年代至今高級數據模
47、型 (具有擴充關系的, 面向對象的, 演繹的等等) 和 面向應用的 DBMS (空間的, 科學的, 工程的等等) 90年代至今數據挖掘和數據倉庫,多媒體數據庫和Web數據庫。數據收集和數據庫創建數據收集和數據庫創建(20世紀60年代和更早)-原始文件處理數據庫管理系統數據庫管理系統(70年代)層次和網狀數據庫關系數據庫系統數據建模工具:實體-關系模型索引和數據組織技術:B樹,散列等查詢語言:SQL等用戶界面:表單、報告等查詢處理和優化事務管理:恢復和并發控制等聯機事務處理(OLTP)高級數據庫系統高級數據庫系統(80年代中期現在)高級數據模型: 擴充關系、面向對象、 對象關系、演繹面向應用:
48、空間的、時間的、多媒體 的、主動的、科學的、 知識庫基于WEB的數據庫系統基于WEB的數據庫系統(90年代現在)基于XML的數據庫系統Web挖掘數據倉庫和數據挖掘數據倉庫和數據挖掘(80年代后期現在)數據倉庫和OLAP技術數據挖掘和知識發現新一代綜合信息系統新一代綜合信息系統(2000年)演變過程演變過程 在20世紀70年代之前,數據一般存儲在文件中,由應用程序直接管理;之后有了簡單的數據收集和數據庫的構造;后來發展到對數據的管理,包括數據存儲、檢索以及數據庫事務處理;再后來發展到對數據的分析和理解,這時候出現了數據倉庫技術和數據挖掘技術。數據挖掘使數據庫技術進入了一個更高級的階段,它不僅能對
49、過去的數據進行查詢和遍歷,并且能夠找出過去數據之間的潛在聯系,并且能夠預測未來的數據。 數據庫的局限性數據庫的局限性 傳統數據庫所能做到的只是對已有的數據進行存取以及簡單的查詢統計,即使是一些流行的OLAP工具,也無非是另一種數據展示方式而已。人們仍然無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。這也直接導致了目前“數據爆炸但知識匱乏”的現狀。 2.2 ETL過程過程2.2.1 ETL的概念2.2.2 ETL的功能2.2.3 ETL的目標2.2.4 ETL的流程2.2.5 ETL的框架2.2.6 ETL的組成2.2.7 ETL的相關技術2.2.8 ETL的實現方法2.2
50、.9 ETL的工具2.2.10 ETL的應用2.2.1 ETL的概念的概念 將原來業務系統的數據經過抽取、轉換、加載到數據倉庫所在的中心存儲庫的過程稱為ETL (Extraction, Transformation and Loading)過程,制定這個過程的策略稱之為ETL策略,而完成ETL過程的工具則是ETL工具。相對于數據倉庫中的表而言,業務系統數據庫中的表稱為源表,業務系統數據庫稱為源數據庫,數據倉庫中所有的數據都來自于業務系統數據庫。在打造一個數據倉庫的過程中,ETL的實施是一項繁瑣、冗長而艱巨的任務,因為它關系到數據倉庫中數據的質量問題,如果導入的數據漏洞百出,對決策者來說無疑是個
51、噩耗。 ETL過程是搭建“數據倉庫”時最重要的最重要的和最最易誤解的易誤解的步驟之一。2.2.1 ETL的概念的概念 ETL過程不僅僅是數據的遷移遷移(Migration)或凈化凈化(Cleansing),也應該是企業數據管理策略企業數據管理策略中不可缺少的一部分。 ETL過程的功能是:發現發現數據倉庫需要的數據,將其從源系統中抽取抽取出來,并進行一定的處理處理,然后裝載裝載到數據倉庫中去。 2.2.2 ETL的功能的功能 提高數據質量 搭建數據倉庫 (Warehousing Processes)操作型活動 (Operational Activities)數據獲取 (Data Acquisit
52、ion)倉庫存儲 (Warehouse Storage) EAI的數據集成ETL功能提高數據質量功能提高數據質量 數據清潔補充缺失值,平滑噪聲數據,識別與刪除異常數據以及有效解決數據的一致性問題 數據集成多個數據庫、數據立方體或文件的數據整合 數據轉換實現數據的歸一化 數據簡化在不影響分析結果的前提下,縮減數據量 數據離散化對于數值型數據可通過取樣實現離散化以降低數據量2.2.3 ETL的目標的目標 提高數據質量 提供一種統一的、跨平臺的存取數據方法 將數據“信息化”,為企業決策者的經營分析提供信息來源2.2.4 ETL的流程的流程 抽取 轉換/清潔 裝載數據倉庫數據倉庫臨時存儲區 數據源數據
53、源抽取抽取轉換轉換/清潔清潔裝載裝載 All driven by metadata2.3 電信領域數據倉庫的設計與實現電信領域數據倉庫的設計與實現2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計2.3.2 電信領域數據倉庫的實現電信領域數據倉庫的實現2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計(1 1)確定數據倉庫的主題)確定數據倉庫的主題 根據電信業務和電信運營的需求,電信公司涉及的最主要的三個主題是: 客戶發展 收益分析 呼叫特性分析 2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計 客戶發展客戶發展 主要是對客戶群體進行分類后,從不同的角度展現電信公司提供服務
54、的客戶數量情況。劃分的角度可以按照客戶本身的自然屬性,例如客戶本身的自然屬性,例如客戶性別、年齡、客戶入網的時間、客戶的類型(公費、私人等)、客戶受教育的程度等。2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計 收益分析收益分析 收益分析主要是通過不同的角度對電信企業的收益情況進行分析。收益分析的角度可以按照客戶的自然屬性和擴展屬性劃分;也可以按照電信公司的業務運(品牌、交費方式)進行劃分;還可以按照機構設置、地理角度對收益進行劃分。 2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計 呼叫特性分析呼叫特性分析 呼叫特性分析即分析不同類型客戶在呼叫上所具有的特性,特性可能包括下列
55、衡量指標:2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計按照呼叫時間劃分為:成長呼叫、中呼叫和短呼叫按照呼叫類型可劃分為:本地通話、長途通話、漫游通話。(其中長途又可以劃分成國際長途、國內長途;漫游通話可劃分成省內、省際、國內漫游等等)按照呼叫金額可以劃分為:高額呼叫和非高額呼叫按照呼叫所在地區域考察呼叫的熱點區域2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計(2 2)數據倉庫模型的設計)數據倉庫模型的設計可用的數據可用的數據 例如,要完成客戶發展、收益分析、呼叫特性分析三個主題,下列三部分信息是必要的,即: 客戶的基本信息表 客戶的賬單信息表 客戶的呼叫信息表 客戶基本信
56、息表的常見字段客戶基本信息表的常見字段客戶基本信息表字段客戶識別碼客戶號碼客戶類別客戶信用度客戶姓名客戶通信地址客戶身份證號客戶聯系電話客戶郵編客戶歸屬局通信費支付方式開戶日期客戶帳單信息表的常見字段客戶帳單信息表的常見字段客戶賬單字段 客戶號碼月租費附加功能費本地話費省內漫游費省際漫游費國際漫游費賬單金額短信費滯納金金額總話費付款方式呼叫信息表的常見字段呼叫信息表的常見字段客戶呼叫信息表字段呼叫類型IMSI號主叫號碼被叫號碼通話開始時間通話時長基本通話費基本通話附加費長途費長度附加費通話位置漫游類型2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計(2 2)數據倉庫模型的設計)數據倉庫
57、模型的設計粒度的確定粒度的確定 在數據倉庫設計中,最重要的步驟是確定數據的粒度。 單一粒度單一粒度 對于客戶基本信息表,由于它屬于增長較為緩慢的信息(隨著客戶數量的增長,客戶業務信息的變更表會增長),可以使用單一的數據粒度。 數據倉庫模型的設計數據倉庫模型的設計粒度的確定粒度的確定 如果客戶數量很大,每個月生成一張客戶信息表將浪費大量的空間,因為只有客戶信息變化了或者新增加了客戶,才需要修改原先的客戶信息表。增加一個“當前標志”字段,用于表示客戶的當前信息,并選擇“數據變更日期”作為時間字段。 客戶識別碼客戶號碼客戶類別客戶信用度客戶姓名客戶通信地址客戶身份證號客戶聯系電話客戶郵編客戶歸屬局通
58、信費支付方式開戶日期客戶識別碼客戶識別碼數據變更日期數據變更日期當前標志當前標志客戶號碼客戶類別客戶信用度客戶姓名客戶通信地址客戶身份證號客戶聯系電話客戶郵編客戶歸屬局通信費支付方式開戶日期使用單一粒度的客戶基本信息表使用單一粒度的客戶基本信息表 數據倉庫模型的設計數據倉庫模型的設計粒度的確定粒度的確定 對于客戶的賬務信息表,每個月一個客戶號碼只在賬務信息中對應一條記錄,因此數據本身就帶有一定的綜合性,可以采用單一的數據粒度。 客戶賬單字段月份客戶號碼月租費附加功能費本地話費省內漫游費省際漫游費國際漫游費賬單金額短信費滯納金金額總話費付款方式客戶賬單字段月份月份客戶號碼月租費附加功能費本地話費
59、省內漫游費省際漫游費國際漫游費賬單金額短信費滯納金金額總話費付款方式使用單一粒度的客戶帳務信息表使用單一粒度的客戶帳務信息表 數據倉庫模型的設計數據倉庫模型的設計粒度的確定粒度的確定 雙重粒度雙重粒度 呼叫計費數據是電信公司中數據量最大的部分,對于一個客戶的一次通話(無論是主叫還是被叫,因為一次通話實際上將生成主叫、被叫兩條記錄),在呼叫表中都將出現一個通話記錄,因此對于一個大型電信公司,其呼叫計費數據的數據量非常大,所以采用雙重粒度來記載呼叫計費數據。 對于近34個月的細節呼叫計費數據,保留在數據倉庫中,并定期聚合成按月綜合的數據,然后將細節數據導出,另外保存,為新的細節數據騰出足夠的空間。
60、 呼叫類型IMSI號主叫號碼被叫號碼通話開始時間通話時長基本通話費基本通話附加費長途費長度附加費通話位置漫游類型IMSI號主叫號碼被叫號碼通話開始時間通話時長基本通話費基本通話附加費長途費長度附加費通話位置漫游類型客戶呼叫信息表字段呼叫類型IMSI號主叫號碼被叫號碼通話開始時間通話時長基本通話費基本通話附加費長途費長度附加費通話位置漫游類型按月綜合的數據按月綜合的數據 最近最近3個月的細節數據個月的細節數據 3個月之前的細節數據個月之前的細節數據 其它空間其它空間 使用雙重粒度的呼叫信息使用雙重粒度的呼叫信息 2.3.1 電信領域數據倉庫的設計電信領域數據倉庫的設計(2 2)數據倉庫模型的設計)數據倉庫模型的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 伊春市新青區2025屆數學五下期末考試模擬試題含答案
- 貨物買賣合同協議書范本
- 2025年度個人股權融資合同樣本
- 智慧農業農業物聯網技術革新與實踐
- 智慧農業技術創新與人才培養策略
- 企業法律顧問服務合同示范文本
- 連鎖藥房加盟經營合同
- 軟件公司與程序員勞動合同
- 房產抵債合同范文
- 2024-2025年濟南天橋區濼口實驗學校第二學期七年級地理期中考試試題(含答案)
- 單絨毛膜雙羊膜囊雙胎2022優秀課件
- 瀝青路面精細化施工質量控制及驗收標準課件
- XX縣“四好”農村公路提升工程可行性研究報告
- 高考數學你真的掌握了嗎(最新)
- 亞里士多德哲學課件
- DB32-T 4357-2022《建筑工程施工機械安裝質量檢驗規程》
- 發成果轉化項目可行性研究報告(定稿)
- (新版教材)粵教粵科版六年級下冊科學全冊教案(教學設計)
- 個人分期還款協議書模板(5篇)
- 儀表電氣專業安全檢查表
- 航空煤油MSDS安全技術說明書
評論
0/150
提交評論