《Python 數據挖掘實踐》課件-第1章 數據挖掘概述_第1頁
《Python 數據挖掘實踐》課件-第1章 數據挖掘概述_第2頁
《Python 數據挖掘實踐》課件-第1章 數據挖掘概述_第3頁
《Python 數據挖掘實踐》課件-第1章 數據挖掘概述_第4頁
《Python 數據挖掘實踐》課件-第1章 數據挖掘概述_第5頁
已閱讀5頁,還剩35頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據挖掘建模過程31什么是數據挖掘4數據挖掘的基本任務2常用數據挖掘工具目錄5數據挖掘現狀及應用前景數據挖掘在技術上是指從大量的、不完全的、有噪聲的、模糊的和隨機的數據中,提取隱含在其中的、事先不知道的,但又有潛在有用信息和知識的過程。如果有一套工具或系統,能夠從業務數據中自動或半自動地發現相關的知識和解決方案,這將極大地提高企業的決策水平和競爭能力。這種從數據中“淘金”,從大量數據(包括文本)中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程,就是數據挖掘。什么是數據挖掘?分析能力的八個等級分析能力的八個等級數據分析能力的演進分析和執行能力遠跟不上信息的增長數據挖掘建模過程31什么是數據挖掘4數據挖掘的基本任務2常用數據挖掘工具目錄5數據挖掘現狀及應用前景數據挖掘的基本任務包括利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智能推薦等方法,幫助企業提取數據中蘊含的商業價值,提高企業的競爭力。以大家熟悉的餐飲企業為例,數據挖掘的基本任務是從餐飲企業采集各類菜品銷量、成本單價、會員消費、促銷活動等內部數據,以及天氣、節假日、競爭對手以及周邊商業氛圍等外部數據;之后利用數據分析手段,實現菜品智能推薦、促銷效果分析、客戶價值分析、新店選點優化、熱銷/滯銷菜品分析和銷量趨勢預測;最后將這些分析結果推送給餐飲企業管理者及有關服務人員,為餐飲企業降低運營成本,增加盈利能力,實現精準營銷,策劃促銷活動等提供智能服務支持。數據挖掘的基本任務分類與預測有目標的對事物進行分類預測,如:客戶流失預測、偷竊電用戶識別等。教育程度非大學畢業大學畢業收入高收入低收入

數據挖掘的基本任務關聯規則關聯模式挖掘旨在從大量的數據當中發現特征之間或數據之間的相互依賴關系。這種存在于給定數據集中的頻繁出現的關聯模式,又稱為關聯規則。前項(Antecedent)后項(Consequent)蔬菜鮮魚紅酒?啤酒?前項(Antecedent)后項(Consequent)耳機?內存?手機配飾前提(1)&前提(2)&…&前提(m)

結論AntecedentsConsequentBuyingPattern

數據挖掘的基本任務聚類分析代墊學生高收入貿易文書高矮低收入Group1Group2Group3Groupn

聚類分析是根據數據本身結構特征對數據點進行分類的方法。實質是按照彼此距離的遠近將數據分為若干個類別,以使得類別內數據的“差異性”盡可能小(即“同質性”盡可能大),類別間“差異性”盡可能大。數據挖掘的基本任務時間序列

基于事物發展的延續性和隨機性預測事物未來的發展,如:銷售量預測、天氣預測等。時間

數據挖掘的基本任務數據挖掘建模過程31什么是數據挖掘4數據挖掘的基本任務2常用數據挖掘工具目錄5數據挖掘現狀及應用前景數據挖掘建模過程數據挖掘建模過程電子商務網站數據挖掘建模過程:針對具體的數據挖掘應用需求,首先要明確本次的挖掘目標是什么?系統完成后能達到什么樣的效果?因此我們必須分析應用領域,包括應用中的各種知識和應用目標,了解相關領域的有關情況,熟悉背景知識,弄清用戶需求。要想充分發揮數據挖掘的價值,必須要對目標有一個清晰明確的定義,即決定到底想干什么。第1步:定義挖掘目標數據挖掘建模過程針對法律類網站的數據挖掘應用,可定義如下挖掘目標:1.依據用戶訪問網站所產生的數據,按照地域研究用戶訪問網站時間,訪問內容,以及訪問次數等分析主題,深入地了解用戶對訪問網站的行為,目的與所關心的內容。2.借助大量的用戶對網站訪問記錄,發現用戶的訪問行為習慣,對不同需求的用戶進行相關服務頁面的推薦。第1步:定義挖掘目標數據挖掘建模過程在明確了需要進行數據挖掘的目標后,接下來就需要從業務系統中抽取出一個與挖掘目標相關的樣本數據子集。抽取數據的標準,一是相關性,二是可靠性,三是有效性,而不是動用全部企業數據。通過數據樣本的精選,不僅能減少數據處理量,節省系統資源,而且使我們想要尋找的規律性更加突顯出來。進行數據取樣,一定要嚴把質量關。因為數據挖掘是要探索企業運作的內在規律性,原始數據有誤,就很難從中探索規律性。若真的從中還探索出來了什么“規律性”,再依此去指導工作,則很可能會造成誤導。若從正在運行的系統中進行數據取樣,更要注意數據的完整性和有效性。第2步:數據取樣數據挖掘建模過程數據抽樣方法:隨機抽樣:在采用隨機抽樣方式時,數據集中的每一組觀測值都有相同的被抽樣的概率。等距抽樣:如按5%的比例對一個有100組觀測值的數據集進行等距抽樣,則有:100/5=20,等距抽樣方式是取第20、40、60、80和第100五組觀測值。分層抽樣:在這種抽樣操作時,首先將樣本總體分成若干個子集。在每個層次中的觀測值都具有相同的被選用的概率,但對不同的層次可設定不同的概率。這樣的抽樣結果通常具有更好的代表性,進而使模型具有更好的擬合精度。從起始順序抽樣:這種抽樣方式是從輸入數據集的起始處開始抽樣。抽樣的數量可以給定一個百分比,或者直接給定選取觀測值的組數。分類抽樣:在前述幾種抽樣方式中,并不考慮抽取樣本的具體取值。分類抽樣則依據某種屬性的取值來選擇數據子集。,如按客戶名稱分類、按地址區域分類等。分類抽樣的選取方式就是前面所述的幾種方式,只是抽樣以類為單位。第2步:數據取樣數據挖掘建模過程針對電子商務行業所采集和抽樣的數據如下所示:以用戶訪問時間為條件,選取2015-02-01到2015-04-29之間共3個月內用戶訪問網站數據:真實IP,地區編號,瀏覽器代理,用戶瀏覽器類型,用戶ID,客戶端ID,時間戳,標準化時間,路徑,年月日,網址,網址類型,源地址明,網頁標題,標題類型ID,標題類型名稱,標題類型關鍵字,入口源,入口網址,搜索關鍵字,搜索源。第2步:數據取樣數據挖掘建模過程數據取樣,多少是帶著人們對如何實現數據挖掘目的的先驗認識進行操作的。當我們拿到了一個樣本數據集后,它是否達到我們原來設想的要求;其中有沒有什么明顯的規律和趨勢;有沒有出現從未設想過的數據狀態;屬性之間有什么相關性;它們可區分成怎樣一些類別……對所抽取的樣本數據進行探索、審核和必要的加工處理,是保證最終的挖掘模型的質量所必需的。可以說,挖掘模型的質量不會超過抽取樣本的質量。數據探索和預處理的目的是為了保證樣本數據的質量,從而為保證模型質量打下基礎。數據探索主要包括:異常值分析、缺失值分析、相關分析、周期性分析等。第3步:數據探索數據挖掘建模過程由于采樣數據中常常包含許多含有噪聲、不完整、甚至不一致的數據,對數據挖掘所涉及的數據對象必須進行預處理。那么如何對數據進行預處理以改善數據質量,并最終達到完善最終的數據挖掘結果的目的呢?針對采集的用戶訪問數據,數據預處理主要包括:數據篩選、數據變量轉換、缺失值處理、壞數據處理、數據標準化、主成分分析、屬性選擇、數據規約等。第3步:數據預處理數據挖掘建模過程樣本抽取完成并經預處理后,接下來要考慮的問題是:本次建模屬于數據挖掘應用中的哪類問題(分類、聚類、關聯規則、時序模式或是智能推薦),選用哪種算法進行模型構建?針對電子商務的數據挖掘應用,挖掘建模主要包括基于協同過濾算法進行網頁智能推薦,旨在從海量數據中快速發現用戶所感興趣的網頁,并進行推薦。第4步:挖掘建模數據挖掘建模過程模型評價的目的之一就是從這些模型中自動找出一個最好的模型出來,另外就是要根據業務對模型進行解釋和應用。對分類與預測模型和聚類分析模型的評價方法是不同的。不管黑貓、白貓,抓到老鼠就是好貓。設定模型評測指標為準確率與召回率,然后對比多種推薦算法(個性化的推薦算法與非個性化的推薦算法),通過模型評價,得到最優智能推薦模型,然后通過模型對樣本數據進行預測,獲得推薦結果。第5步:模型評價數據挖掘建模過程數據挖掘建模過程31什么是數據挖掘4數據挖掘的基本任務2常用數據挖掘工具目錄5數據挖掘現狀及應用前景1.R語言R語言是屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一套完整的數據處理、計算和制圖軟件系統。2.PythonPython是一種計算機編程語言,而且是一種面向對象的解釋性腳本語言。它具有簡單,易學,速度快,免費開源,可移植性與可擴展性強,并含大量豐富的第三方庫等特點,因而收到廣大編程人員的青睞,稱為最受歡迎的程序設計語言。該語言可以應用于以下領域:Web和Internet開發,科學計算和統計,教育,桌面界面開發,軟件開發,后端開發等。3.WekaWEKA(WaikatoEnvironmentforKnowledgeAnalysis)是一款經典的數據挖掘工具,初始版本是非Java的,主要用于分析農業領域數據而開發。該工具基于Java版本,比較復雜,包括數據分析以及預測建模的可視化和算法。它支持多種標準數據挖掘任務,包括數據預處理、收集、分類、回歸分析、可視化和特征選取。常用數據挖掘建模工具數據挖掘建模過程31什么是數據挖掘4數據挖掘的基本任務2常用數據挖掘工具目錄5數據挖掘現狀及應用前景數據挖掘是目前人工智能和數據庫領域研究的熱點問題,主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析企業的數據,做出歸納性的整理,從中挖掘出潛在的模式,從而幫助決策者調整市場策略,減少風險。數據挖掘在現實生活中有著非常廣泛的應用,例如,金融、醫療、零售、電商、電信、交通、軍事與制造業等領域。數據挖掘應用現狀應用前景數據挖掘技術是一個充滿希望具有前途的研究領域,商業利益強大驅動力將會不停地促進它的發展。數據挖掘技術未來的發展方向主要體現在以下幾個方面:(1)新的專門用于知識發現的類似SQL那樣的形式化和標準化的數據挖掘語言將會出現。(2)可視化的數據挖掘過程,用戶易于理解,挖掘且能操縱它,它可使數據挖掘過程成為用戶業務流程的一部分。它包括數據用戶化呈現與交互操縱兩部分。(3)WEB下的網絡挖掘的應用技術的發展,數據挖掘服務器與數據庫服務器配合,實現數據挖掘。屆時可在因特網上建立強大的數據挖掘引擎與數據挖掘服務市場。融合各種異構數據的挖掘技術。從而既可以在數據外的文本、圖形、多媒體上,又可以在數據庫外的信息、新聞、廣播市場上實施挖掘。拓展思考根據商務部餐飲行業統計數據測算,2012年,全社會提供正餐服務、快餐服務、飲料及冷飲服務、其他餐飲服務的餐飲企業單位共計236.7萬個。上一定規模的餐飲管理軟件企業超過500家。拓展思考如果你是大數據實踐者,你想像的基于大數據的餐飲服務平臺是怎樣的?拓展思考—餐飲智能服務平臺餐飲智能服務平臺—主要界面餐飲智能服務平臺—主要界面餐飲智能服務平臺—主要界面餐飲智能服務平臺—主要界面餐飲智能服務平臺—主要界面菜品推薦的目的:1)幫助顧客快速發現自己感興趣的菜品;2)推薦給顧客的菜品最好也是餐飲企業期望的。

什么是餐飲企業期望的?實現餐飲消費者和餐飲企業的雙贏動態菜品智能推薦基于關聯規則挖掘的個性化菜品智能推薦設計:待點菜品與已選菜品

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論