數據挖掘試驗報告超商品銷售分析及數據挖掘_第1頁
數據挖掘試驗報告超商品銷售分析及數據挖掘_第2頁
數據挖掘試驗報告超商品銷售分析及數據挖掘_第3頁
數據挖掘試驗報告超商品銷售分析及數據挖掘_第4頁
數據挖掘試驗報告超商品銷售分析及數據挖掘_第5頁
已閱讀5頁,還剩5頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

通信與信息工程學院課程設計說明書課程名題稱目課程名題稱目:專業/班級:組學/學長:號:號:〔理〕開始時間: 2023年12月29日完成時間: 2023年01月3日名目緒論 11.1工程背景.................... 11.2提出問題.................... 1數據倉庫與數據集市的概念介紹 12.1數據倉庫介紹.................. 12.2數據集市介紹.................. 23.數據倉庫...................... 33.1數據倉庫的設計................. 3數據倉庫的概念模型設計.............................. 4數據倉庫的規律模型設計.............................. 53.2數據倉庫的建立................. 53.2.1 數據倉庫數據集成53.2.2......................................................建立維表 84.OLAP操作....................... 105.數據預處理..................... 125.1描述性數據匯總................ 125.2數據清理與變換................ 136.數據挖掘操作..................... 136.1關聯規章挖掘................. 136.2分類和推想................... 176.3決策樹的建立................. 186.4聚類分析.................... 227.總結 258.任務安排....................... 26數據挖掘試驗報告緒論工程背景在商業領域中使用計算機科學與技術是當今商業的進展方向,而數據挖掘是商業領域與計算機領域的喬梁。在超市的經營中,應用數據挖掘技術分析顧客的購置習慣和不同商品之間的關聯,并借由陳設的手法,和適宜的促銷手段將商品有魅力的呈現在顧客的眼前,可以起到便利購置、節約空間、美化購物環境、激發顧客的購置欲等各種重要作用。提出問題那么超市應當對哪些銷售信息進展挖掘?怎樣挖掘?具體說,超市如何運用OLAP操作和關聯規章了解顧客購置習慣和商品之間的關聯,正確的擺放商品位置以及如何運用促銷手段對商品進展銷售呢?如何推斷一個顧客的銷售水平并進展推舉呢?本次試驗為解決這一問題提出了解決方案。數據倉庫與數據集市的概念介紹數據倉庫介紹數據倉庫,英文名稱為DataWarehouse,可簡寫為DW或DW,H是在數據庫已經大量存在的狀況下,為了進一步挖掘數據資源、為了決策需要而產生的,它并不是所謂的“大型數據庫”。數據集市介紹數據集市,也叫數據市場,是一個從操作的數據和其他的為某個特殊的專業人員團體效勞的數據源中收集數據的倉庫。數據倉庫數據倉庫的設計數據庫的概念模型數據倉庫的模型數據倉庫的模型主要包括數據倉庫的星型模型圖,我們創立了四個維表和一個事實表。四個維表為:item維表,time維表,branch維表,location維表。事實表為:sales事實表。其中,數據倉庫的建立數據倉庫數據集成我們小組粗略的統計了超市一年的銷售記錄,并建立了數據庫。其固然,這只是最初的表,后面還要進展數據清理與轉換,對其進一步改進,以便于數據挖掘。建立維表item維表branch維表location 維表sales事實表OLAP操作按時間上卷:切塊:按片查詢:整個數據立方體:數據預處理描述性數據匯總【saleID】S*:銷售號〔筆數〕【customerID】C*:顧客編號【productID】P*:購置的商品號【timeID】T*:時間號〔月〕數據清理與變換數據清理:〔1〕初始表格在前面已經給出,每筆交易中購置的商品不止一數據變換:對不同的數據類型做不同的變換。比方男女分別用1,0表示;高中檔商品用1,0表示;收入統一除以100006.數據挖掘操作關聯規章挖掘6.1.1頻繁一項集篩選I1支持度的代碼及結果為:輸出結果為:24其他一項候選集同理、頻繁二項集篩選頻繁二項集候選集為〔I1,I18〕,〔I1,I2〕,〔I1,,I3〕,〔I1,I4〕,〔I1,I5〕,〔I1,I7〕,〔I18,I2〕,〔I18,I3〕,〔I18,I4〕,〔I18,I5〕,〔I18,I7〕,〔I2,I3〕,〔I2,I4〕,〔I2,I5〕,〔I2,I7〕,〔I3,I4〕,〔I3,I4〕,〔I3,I5〕,〔I3,I7〕,〔I4,I5〕,〔I4,I7〕,〔I5,I7〕〔I1,I18〕的支持度代碼和結果為:輸出結果為:15I3和I18支持度的代碼和結果為:輸出結果為:14I1和I3支持度的代碼和結果為:輸出結果為:18同理可得:、頻繁三項集篩選頻繁三項集候選集為:〔I1,I3,I18〕〔I1,I3,I18〕的支持度代碼和結果為:輸出結果為:13綜上可得I1、I3I18的支持度和置信度為:xtranscation,buys(X,I1)buys(X,I3)xtranscation,buys(X,I1)buys(X,I18)

buys(X,I18)12%,93%buys(X,I3)12%,87%buys(X,I1)12%,72%xtranscation,buys(X,I3)buys(X,I18)由上可知:1.顧客習慣一起購置商品I1,I3,I18,即牛奶面包和電視機2.所以超市可以將牛奶面包電視機擺放在一起分類和推想OLAP的結果來說明。推想結果如下:依據OLAP從日到月上卷操作,1月為銷售旺季,商店可以在此期間加大供給量,以獲得更大利潤。顧客對牛奶的需求很大,且為蒙牛牛奶顧客對面包的需求也很大,且為安琪面包對步步高電視機的需求也很大。決策樹的建立:通過爭論顧客的屬性,分析這些屬性對顧客購置商品檔次的影響,建立決策樹,推想顧客購置商品的檔次。選擇最正確分裂點:1〕源數據:〔局部呈現〕數據轉換后數據:〔局部呈現〕選取過程具體操作:經比較gain〔〕的值得出,選取連續查找下一個分裂點:1〕源數據:〔局部呈現〕〔按sex分類〕F:〔49〕M:〔51條記錄〕2〕選取過程具體操作:F:M:M中找到的分裂點為income分裂的數據結果局部如圖:F:

sex。M的操作以此類推,得到的結果如下:由此可得出決策樹為:Sex數據〔2〕數據〔3〕中 高數據〔5〕數據〔4〕高數據6聚類分析原始數據:數據轉換:使用歐幾里得距離,K=3,K均值:第一次聚類分析:其次次聚類分析:第三次聚類分析:〔4〔4〕三次聚類分析結果:第一次聚類結果為:new1:C1,C3,C5,C8,C9,C10,C11,C15,C16,C18,C20new2:C2,C4,C6,C9,C14,C19new3:C7,C12,C13,C17平方誤差:8.82其次次聚類結果為:n1:C1,C7,C8,C10,C11,C15,C16,C20n2:C2,C3,C4,C5,C6,C9,C14,C18,C19n3:C1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論