




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于TipDM大數據挖掘建模平臺實現客戶流失預測1使用平臺實現客戶流失預測目錄平臺簡介2TipDM大數據挖掘建模平臺是由廣東泰迪智能科技股份有限公司自主研發,面向大數據挖掘項目的工具。平臺使用Java語言開發,采用B/S(Browser/Server,瀏覽器/服務器)結構,用戶不需要下載客戶端,可通過瀏覽器進行訪問。平臺具有支持多種語言、操作簡單、用戶無須具備編程語言基礎等特點,以流程化的方式將數據輸入/輸出、統計分析、數據預處理、挖掘與建模等環節進行連接,從而實現大數據挖掘。讀者可通過訪問平臺查看具體的界面情況,操作方法如下。微信搜索公眾號“泰迪學社”或“TipDataMining”,關注公眾號。關注公眾號后,回復“建模平臺”,獲取平臺訪問方式。平臺簡介平臺界面如圖所示。平臺簡介在介紹如何使用大數據挖掘建模平臺實現項目分析之前,需要引入平臺的幾個概念,其基本介紹如表所示。平臺簡介概念基本介紹組件將建模過程中涉及的輸入/輸出、數據探索、數據預處理、繪圖、建模等操作分別進行封裝,每一個封裝好的模塊稱為組件。組件分為系統組件和個人組件。(1)系統組件可供所有用戶使用(2)個人組件由個人用戶編輯,僅供個人用戶使用工程為實現某一數據挖掘目標,將各組件通過流程化的方式進行連接,整個數據流程稱為一個工程參數每個組件都有提供給用戶進行設置的內容,這部分內容稱為參數共享庫用戶可以將配置好的工程、數據集,分別公開到模型庫、數據集庫中作為模板,分享給其他用戶,其他用戶可以使用共享庫中的模板,創建一個無須配置組件便可運行的工程TipDM大數據挖掘建模平臺主要有以下幾個特點。平臺組件基于Python、R以及Hadoop/Spark分布式引擎,適用于數據分析。Python、R以及Hadoop/Spark是常見的用于數據分析的語言或工具,高度契合行業需求。用戶可在沒有Python、R或Hadoop/Spark編程基礎的情況下,使用直觀的拖曳式圖形界面構建數據分析流程,無須編程。平臺提供公開可用的數據分析示例工程,實現一鍵創建,快速運行。支持挖掘流程每個節點的結果在線預覽。平臺包含Python、Spark、R這3種工具的組件包,用戶可以根據實際需求靈活選擇不同的語言進行數據挖掘建模。下面將對平臺“共享庫”“數據連接”“數據集”“我的工程”“個人組件”這5個模塊進行介紹。平臺簡介登錄平臺后,用戶即可看到“共享庫”模塊提供的示例工程(模板),如圖所示。共享庫“共享庫”模塊主要用于標準大數據挖掘建模案例的快速創建和展示。通過“共享庫”模塊,用戶可以創建一個無須導入數據及配置參數就能夠快速運行的工程。用戶可以將自己創建的工程公開到“共享庫”模塊,作為工程模板,供其他用戶一鍵創建。同時,每一個模板的創建者都具有模板的所有權,能夠對模板進行管理。共享庫“數據連接”模塊支持從Db2、SQLServer、MySQL、Oracle、PostgreSQL等常用關系數據庫中導入數據,導入數據時的“新建連接”對話框如圖所示。數據連接“數據集”模塊主要用于數據挖掘建模工程中數據的導入與管理,支持從本地導入任意類型的數據。導入數據時的“新增數據集”對話框如圖所示。數據集“我的工程”模塊主要用于數據挖掘建模流程的創建與管理,工程示例流程如圖所示。通過單擊“工程”欄下的
(“新建工程”)按鈕,用戶可以創建空白工程并通過“組件”欄下的組件進行工程配置,將數據輸入/輸出、預處理、挖掘建模、模型評估等環節通過流程化的方式進行連接,達到數據挖掘與分析的目的。對于完成度高的工程,可以將其公開到“共享庫”中,作為模板讓其他使用者學習和借鑒。我的工程在“組件”欄下,平臺提供了輸入/輸出組件、Python組件、R語言組件、Spark組件等系統組件,如圖所示,用戶可直接使用。輸入/輸出組件包括輸入源、輸出源、輸出到數據庫等。下面將具體介紹Python組件、R語言組件和Spark組件。我的工程Python組件包含Python腳本、預處理、統計分析、時間序列、分類、模型評估、模型預測、回歸、聚類、關聯規則、文本分析、深度學習和繪圖,共13類。Python組件的類別介紹如表所示。我的工程1.Python組件類別介紹Python腳本“Python腳本”類提供一個Python代碼編輯框。用戶可以在代碼編輯框中粘貼已經編寫好的程序代碼并直接運行,無須額外配置組件預處理“預處理”類提供對數據進行預處理的組件,包括數據標準化、缺失值處理、表堆疊、數據篩選、行列轉置、修改列名、衍生變量、數據拆分、主鍵合并、新增序列、數據排序、記錄去重和分組聚合等統計分析“統計分析”類提供對數據整體情況進行統計的常用組件,包括因子分析、全表統計、正態性檢驗、相關性分析、卡方檢驗、主成分分析和頻數統計等時間序列“時間序列”類提供常用的時間序列組件,包括ARCH、AR模型、MA模型、灰色預測、模型定階和ARIMA等分類“分類”類提供常用的分類組件,包括樸素貝葉斯、支持向量機、CART分類樹、邏輯回歸、神經網絡和K最近鄰等Python組件的類別介紹如表所示(續表)。我的工程類別介紹模型評估“模型評估”類提供了用于模型評估的組件,包括模型評估模型預測“模型預測”類提供了用于模型預測的組件,包括模型預測回歸“回歸”類提供常用的回歸組件,包括CART回歸樹、線性回歸、支持向量回歸和K最近鄰回歸等聚類“聚類”類提供常用的聚類組件,包括層次聚類、DBSCAN密度聚類和KMeans等關聯規則“關聯規則”類提供常用的關聯規則組件,包括Apriori和FP-Growth等文本分析“文本分析”類提供對文本數據進行清洗、特征提取與分析的常用組件,包括情感分析、文本過濾、TF-IDF、Word2Vec等深度學習“深度學習”類提供常用的深度學習組件,包括循環神經網絡、impliciALS和卷積神經網絡繪圖“繪圖”類提供常用的畫圖組件,可以用于繪制柱形圖、折線圖、散點圖、餅圖和詞云圖等R語言組件包含R語言腳本、預處理、統計分析、分類、時間序列、聚類、回歸和關聯分析,共8類,R語言組件的類別介紹如表所示。我的工程2.R語言組件類別介紹R語言腳本“R語言腳本”類提供一個R語言代碼編輯框。用戶可以在代碼編輯框中粘貼已經編寫好的代碼并直接運行,無須額外配置組件預處理“預處理”類提供對數據進行預處理的組件,包括缺失值處理、異常值處理、表連接、表合并、數據標準化、記錄去重、數據離散化、排序、數據拆分、頻數統計、新增序列、字符串拆分、字符串拼接、修改列名等統計分析“統計分析”類提供對數據整體情況進行統計的常用組件,包括卡方檢驗、因子分析、主成分分析、相關性分析、正態性檢驗和全表統計等分類“分類”類提供常用的分類組件,包括樸素貝葉斯、CART分類樹、C4.5分類樹、BP神經網絡、KNN、SVM和邏輯回歸等R語言組件的類別介紹如表所示(續表)。我的工程類別介紹時間序列“時間序列”類提供常用的時間序列組件,包括ARIMA和指數平滑等聚類“聚類”類提供常用的聚類組件,包括KMeans、DBSCAN密度聚類和系統聚類等回歸“回歸”類提供常用的回歸組件,包括CART回歸樹、C4.5回歸樹、線性回歸、嶺回歸和KNN回歸等關聯分析“關聯分析”類提供常用的關聯規則組件,包括Apriori等Spark組件包含預處理、統計分析、分類、聚類、回歸、降維、協同過濾和頻繁模式挖掘,共8類,Spark組件的類別介紹如表所示。我的工程3.Spark組件類別介紹預處理“預處理”類提供對數據進行預處理的組件,包括數據去重、數據過濾、數據映射、數據反映射、數據拆分、數據排序、缺失值處理、數據標準化、衍生變量、表連接、表堆疊和數據離散化等統計分析“統計分析”類提供對數據整體情況進行統計的常用組件,包括行列統計、全表統計、相關性分析和重復值缺失值探索分類“分類”類提供常用的分類組件,包括邏輯回歸、決策樹、梯度提升樹、樸素貝葉斯、隨機森林、線性支持向量機和多層感知分類器等聚類“聚類”類提供常用的聚類組件,包括KMeans聚類、二分K均值聚類和混合高斯聚類等Spark組件的類別介紹如表所示(續表)。我的工程類別介紹回歸“回歸”類提供常用的回歸組件,包括線性回歸、廣義線性回歸、決策樹回歸、梯度提升樹回歸、隨機森林回歸和保序回歸等降維“降維”類提供常用的數據降維組件,包括PCA降維等協同過濾“協同過濾”類提供常用的智能推薦組件,包括ALS組件、ALS推薦和ALS模型預測頻繁模式挖掘“頻繁模式挖掘”類提供常用的頻繁項集挖掘組件,包括FP-Growth等“個人組件”模塊主要是為了滿足用戶的個性化需求。用戶在使用過程中,可根據自己的需求定制組件,方便使用。目前支持通過Python和R語言進行個人組件的定制,定制個人組件如圖所示。個人組件1使用平臺實現客戶流失預測目錄平臺簡介2在TipDM大數據挖掘建模平臺上配置客戶流失預測案例的總體流程如圖所示。使用平臺配置客戶流失預測案例的步驟和流程在TipDM大數據挖掘建模平臺上配置客戶流失預測案例主要包括以下4個步驟。數據源配置。在TipDM大數據挖掘建模平臺配置客戶信息表、訂單詳情表的輸入源組件。數據預處理。探索相關數據后,對數據進行查看缺失值、處理異常值、處理缺失值、構建特征等處理。模型構建與訓練。訓練決策樹和支持向量機模型。模型評價。使用混淆矩陣對訓練好的模型進行評價(注:平臺已設定在構建與訓練模型的同時進行模型評價操作)。使用平臺配置客戶流失預測案例的步驟和流程在平臺上配置案例得到的流程如圖所示。使用平臺配置客戶流失預測案例的步驟和流程本案例的數據為兩份CSV文件,一份為客戶信息表,一份為訂單詳情表。使用TipDM大數據挖掘建模平臺導入數據,具體步驟如下。新增數據集。單擊“數據集”模塊,單擊“新增”,如圖所示。數據源配置設置新增數據集參數。隨意選擇一張封面圖片,在“名稱”中填入“餐飲企業客戶流失預測”,在“有效期(天)”中選擇“永久”,在“描述”中填入對數據集的簡短描述,單擊“點擊上傳”選擇需要上傳的文件。等待顯示成功后,單擊“確定”按鈕,即可上傳,如圖所示。數據源配置數據上傳完成后,新建名為“客戶流失預測”的空白工程,配置“輸入源”組件,具體步驟如下。拖曳“輸入源”組件。在“我的工程”欄中找到“系統組件”模塊下的“輸入/輸出組件”類。拖曳“輸入/輸出組件”類中的“輸入源”組件至畫布中。配置“輸入源”組件。單擊畫布中的“輸入源”組件,然后單擊畫布右側“參數配置”欄中的“數據集”,輸入“餐飲企業客戶流失預測”,在彈出的下拉列表中選擇“餐飲企業客戶流失預測”,在“名稱”列表中勾選“user_loss.csv”。右擊畫布中的“輸入源”組件,選擇“重命名”并輸入“客戶信息表”,單擊“確定”按鈕,配置完成,如圖所示。數據源配置在開始正式的數據預處理操作前先對數據進行初步的探索,步驟如下。創建“數據探索”組件。選擇“個人組件”模塊,點擊“添加組件”。在“組件名稱”文本框輸入“數據探索”,在“計算引擎”下拉列表中選擇“Python”。把“數據探索.txt”文件的代碼粘貼到“組件代碼”。單擊“確定”按鈕即可創建成功,如圖所示。數據預處理1.數據探索連接“數據探索”組件。拖曳“個人組件”模塊下的“數據探索”組件至畫布中,并與“客戶信息表”“訂單詳情表”組件相連接,如圖所示。數據預處理運行“數據探索”組件。右擊“數據探索”組件,選擇“運行該節點”。運行成功后,再次右擊“數據探索”組件,選擇“查看日志”。查看日志的結果如圖所示。數據預處理由于重復記錄會對模型的精度造成影響,因此需要對數據進行處理重復值操作,查看訂單詳情表重復值步驟如下。連接“記錄去重”組件。拖曳“python組件”模塊下“預處理”類的“記錄去重”組件至畫布中,并與“數據探索”組件相連接。重命名“記錄去重”組件為“查看重復值”。數據預處理2.查看重復值配置“查看重復值”組件。在“字段設置”欄中,選擇“特征”的全部字段,選擇“去重主鍵”的“name”(由于數據字段較多,且通過滾動條進行選擇,所以該字段在圖中不顯示)和“use_start_time”字段,如圖所示。數據預處理運行“查看重復值”組件。右擊“查看重復值”組件,選擇“運行該節點”。運行成功后,再次右擊“查看重復值”組件,選擇“查看日志”。查看日志的結果如圖所示。數據預處理以相同的方式配置客戶信息表的“查看重復值”組件,選擇“去重主鍵”的字段為“USER_ID”。運行成功后,查看日志的結果如圖所示。數據預處理數據中往往存在一些不合常理的數據,這些數據需在建模之前進行去除,訂單詳情表處理異常值的步驟如下。連接“記錄去重”組件。拖曳“Python組件”模塊下“預處理”類的“記錄去重”組件至畫布中,并與“查看重復值”組件相連接。重命名“記錄去重”組件為“處理異常值”。數據預處理3.處理異常值配置“處理異常值”組件。在“字段設置”欄中,選擇“特征”的全部字段,選擇“去重主鍵”的“dining_table_id”和“use_start_time”字段,如圖所示。數據預處理運行“處理異常值”組件。右擊“處理異常值”組件,選擇“運行該節點”。運行成功后,再次右擊“處理異常值”組件,選擇“查看日志”。查看日志的結果如圖所示。數據預處理在數據的處理過程中,我們仍需要對一些數據進行特別處理,步驟如下。創建“數據處理”組件。選擇“個人組件”模塊,點擊“添加組件”。在“組件名稱”文本框輸入“數據處理”,在“計算引擎”下拉列表中選擇“Python”。把“數據處理.txt”文件的代碼粘貼到“組件代碼”。單擊“確定”按鈕即可創建成功,如圖所示。數據預處理4.數據處理連接“數據探索”組件。拖曳“個人組件”模塊下的“數據處理”組件至畫布中,并與“查看重復值”“處理異常值”組件相連接,如圖所示。數據預處理由于建模數據不允許存在缺失值,因此需要對數據進行處理缺失值操作,步驟如下。連接“主鍵合并”組件。拖曳“Python組件”模塊下“預處理”類的“主鍵合并”組件至畫布中,并與“數據處理”組件相連接。數據預處理5.處理缺失值配置“主鍵合并”組件。在“字段設置”欄中選擇“左表特征”的“USER_ID”“LAST_VISITS”“TYPE”字段,以及“右表特征”的“USER_ID”“number_consumers”“expenditure”。在“參數配置”欄中,選擇“連接方式”為“左連接”,選擇“left_on”的“USER_ID”字段,以及“right_on”的“USER_ID”字段,如圖所示。數據預處理運行“主鍵合并”組件。右擊“主鍵合并”組件,選擇“運行該節點”。連接“缺失值處理”組件。拖曳“Python組件”模塊下“預處理”類的“缺失值處理”組件至畫布中,并與“主鍵合并”組件相連接。數據預處理配置“缺失值處理”組件。在“字段設置”欄中,選擇“特征”的全部字段。如圖所示。數據預處理運行“缺失值處理”組件。右擊“缺失值處理”組件,選擇“運行該節點”。運行成功后,再次右擊“缺失值處理”組件,選擇“查看日志”。查看日志的結果如圖所示。數據預處理構建客戶流失特征,具體步驟如下。創建“構建特征”組件。選擇“個人組件”模塊,點擊“添加組件”。在“組件名稱”文本框輸入“構建特征”,在“計算引擎”下拉列表中選擇“Python”。把“構建特征.txt”文件的代碼粘貼到“組件代碼”。單擊“確定”按鈕即可創建成功,如圖所示。數據預處理6.構建特征連接“構建特征”組件。拖曳“個人組件”模塊下的“構建特征”組件至畫布中,并與“缺失值處理”組件相連接,如圖所示。運行“構建特征”組件。右擊“構建特征”組件,選擇“運行該節點”。數據預處理去除客戶狀態為已流失的數據,具體步驟如下。連接“數據篩選”組件。拖曳“Python組件”模塊下“預處理”類的“數據篩選”組件至畫布中,并與“構建特征”組件相連接。構建模型1.數據篩選配置“數據篩選”組件。在“參數設置”欄中,選擇“特征”的全部字段。在“篩選條件”欄中,選擇“與”“TYPE”“不等于”“已流失”,如圖所示。運行“數據篩選”組件。右擊“數據篩選”組件,選擇“運行該節點”。構建模型按照8∶2的比例將構建特征得到的數據劃分為訓練集和測試集,具體步驟如下。連接“數據拆分”組件。拖曳“Python組件”模塊下“預處理”類的“數據拆分”組件至畫布中,并與“數據篩選”組件相連接。構建模型2.數據劃分配置“數據拆分”組件。在“字段設置”欄中,選擇“特征”的全部字段,在“參數設置”欄中,選擇“測試及占比”為0.2,選擇“隨機種子”為12345。如圖所示。運行“數據拆分”組件。右擊“數據拆分”組件,選擇“運行該節點。構建模型構建并訓練決策樹模型,查看模型的分類結果,具體步驟如下。連接“CART分類樹”組件。拖曳“Python組件”模塊下“分類”類的“CART分類樹”組件至畫布中,并與“數據拆分”組件相連接。構建模型3.構建決策樹模型配置“CART分類樹”組件。在“參數設置”欄中,選擇“特征”的“frequence”“amount”“average”“recently”字段,選擇“標簽”為“TYPE”,如圖所示。運行“CART分類樹”組件。右擊“CART分類樹”組件,選擇“運行該節點”。構建模型連接“模型評估”組件。拖曳“Python組件”模塊下“模型評估”類的“模型評估”組件至畫布中,并分別與“CART分類樹”“數據拆分”算法相連接。配置“模型評估”組件。在“參數設置”欄中,選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度安徽省二級建造師之二建市政工程實務自我檢測試卷B卷附答案
- 物流運輸貨物損失風險免責條款協議
- 醫療廢物規范化管理培訓課件
- 食品行業直播帶貨話術流程優化
- 服務行業工商管理本科畢業論文范文
- 建筑行業采購員崗位職責與合同管理
- 眩暈中醫護理查房
- 四年級數學協作學習計劃
- 校外教育機構暑假培訓心得體會
- 互聯網行業股權激勵計劃實施指南
- 建筑智能化工程監理實施細則
- 停車場車棚鋼結構施工方案
- JGT491-2016 建筑用網格式金屬電纜橋架
- 森林撫育投標方案
- 市政工程管線保護專項施工方案
- 父子關系證明范本
- 電梯安裝危險源與危險評價表
- 衛生部手術分級分類目錄
- PLC灌裝機控制系統的設計
- 質量總監煉成記-秦邦福
- 2023年全國中學生生物學聯賽試題( 含答案解析 )
評論
0/150
提交評論