




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數據挖掘基礎培訓浪潮通信 李文棟 2016年7月21日數據挖掘發展數據豐富和知識匱乏- 信息爆炸、混沌信息空間、數據過剩數據挖掘發展數據挖掘概念數據挖掘是啥?數據挖掘(Data Mining,DM),簡單的講就是從大量數據中挖掘或抽取出知識,其表示形式有規則、概念、模式等;又稱為KDD(Knowledge Discovery from Database),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的復雜過程。數據挖掘是多種學科交叉數據挖掘技術分類數據挖掘流程數據挖掘算法 常用算法回歸算法1、線性回歸2、邏輯回歸線性回歸假設要找一個y和x之間的規律,其中x是鞋子價錢,y是鞋子
2、的銷售量。已知一些往年的銷售數據(x0,y0), (x1, y1), . (xn, yn)做樣本集, 并假設它們滿足線性關系:y = a*x + b (其中a,b的具體取值還不確定),線性回歸即根據往年數據找出最佳的a, b取值,使 y = a * x + b 在所有樣本集上誤差最小。事實上一元變量的確很直觀,但如果是多元就難以直觀的看出來了。比如說除了鞋子的價格外,鞋 子的質量,廣告的投入,店鋪所在街區的人流量都會影響銷量,我們想得到這樣的公式:sell = a*x + b*y + c*z + d*zz + e。這個時候畫圖就畫不出來了,規律也十分難找,那么交給線性回歸去做就好。需要注意的是
3、,這里線性回歸能過獲得好效果的前提是y = a*x + b 至少從總體上是有道理的(因為我們認為鞋子越貴,賣的數量越少,越便宜賣的越多。另外鞋子質量、廣告投入、客流量等都有類似規律);但并不是所有類型的變 量都適合用線性回歸,前提是選好回歸公式。總之:如果我們的公如果我們的公式假設是錯的,任何回歸都得不到好結果。式假設是錯的,任何回歸都得不到好結果。邏輯回歸上面我們的sell是一個具體的實數值,然而很多情況下,我們需要回歸產生一個類似概率值的01之間的數值。比如某一雙鞋子今天能否賣出去?或者某一個廣告能否被用戶點擊?我們希望得到這個數值來幫助決策鞋子上不上架,以及廣告展不展示這個數值必須是01
4、之間,但sell顯然不滿足這個區間要求。于是引入了Logistic方程,來做歸一化。邏輯回歸就是被歸一化以后的線性回歸。邏輯回歸適用性可用于概率預測,概率最高的TOP-N僅能用于線性問題,聚類算法1、Kmeans2、LDA主題模型KmeansLDA主題模型算法主題在主題模型中,主題表示一個概念、一個方面,表現為一系列相關的單詞,是這些單詞的條件概率。形象來說,主題就是一個桶,里面裝了出現概率較高的單詞,這些單詞與這個主題有很強的相關性。LDA思想如果一篇文章10%和主題A有關,90%和主題B有關,那么和主題B相關的關鍵字出現的次數大概會是和主題A相關的關鍵字出現次數的9倍。主題模型試圖用數學框
5、架來體現文檔的這種特點,自動分析每個文檔,并對文檔內的詞語進行統計,根據統計的信息來斷定當前文檔含有哪些主題,以及每個主題所占的比例各為多少。LDA結果關聯規則算法AprioriFPGrowthApriori支持度:P(AB),既有A又有B的概率置信度:P(B|A),在A發生的事件中同時發生B的概率p(AB)/P(A)例如購物籃分析:牛奶面包例子:支持度:3%,置信度:40%支持度3%:意味著3%顧客同時購買牛奶和面包置信度40%:意味著購買牛奶的顧客40%也購買面包如果事件A中包含k個元素,那么稱這個事件A為k項集事件A滿足最小支持度閾值的事件稱為頻繁k項集。Apriori圖示FPGrowt
6、h優勢Apriori通過不斷的構造候選集、篩選候選集挖掘出頻繁項集,需要多次掃描原始數據,當原始數據較大時,磁盤I/O次數太多,效率比較低下。FPGrowth算法則只需掃描原始數據兩遍,通過FP-tree數據結構對原始數據進行壓縮,效率較高。FPGrowth推薦算法1、ALS2、協同過濾ALS對于一個users-products-rating的評分數據集,ALS會建立一個user*product的m*n的矩陣其中,m為users的數量,n為products的數量假設m*n的評分矩陣R,可以被近似分解成U*(V)TU為m*d的用戶特征向量矩陣V為n*d的產品特征向量矩陣d為user/produc
7、t的特征值的數量協同過濾核心思想:大家一般更傾向于從口味比較類似的朋友那里得到推薦。計算相似度基于用戶推薦基于物品推薦分類算法1、樸素貝葉斯2、決策樹3、隨機森林樸素貝葉斯判斷:X=(女性,年齡介于3145之間,不具學生身份,收入中等)會不會辦理信用卡。解:首先根據訓練樣本計算各屬性相對于不同分類結果的條件概率:P(辦卡)=7/10 P(不辦卡)=3/10P(女性|辦卡)=5/7 P(女性|不辦卡)=1/3P(年齡=3145|辦卡)=3/7P(年齡=3145|不辦卡)=1/3P(學生=否|辦卡)=5/7 P(學生=否|不辦卡)=0/3P(收入=中|辦卡)=2/7 P(收入=中|不辦卡)=2/3
8、 其次,再應用樸素貝氏分類器進行類別預測:計算P(辦卡)P(女性|辦卡)P(年齡3145|辦卡)P(不是學生|辦卡)P(收入中|辦卡) =15/3430.044P(不辦卡)P(女性|不辦卡)P(年齡3145|不辦卡)P(不是學生|不辦卡)P(收入中等|不辦卡)=00.0440決策樹生成規則判斷一個特征對于當前數據集的分類效果。也就是按照這個特征進行分類后,數據集是否更加有序。ID3 計算信息的增益率,然后選擇增益率最大的屬性進行分裂。隨機森林隨機森林顧名思義,是用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之后,當有一個新的輸 入樣本進
9、入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預測這個樣本 為那一類。按這種算法得到的隨機森林中的每一棵都是很弱的,但是大家組合起來就很厲害了。我覺得可以這樣比喻隨機森林算法:每一棵決策樹就是一個精通于某一個窄領域 的專家(因為我們從M個feature中選擇m讓每一棵決策樹進行學習),這樣在隨機森林中就有了很多個精通不同領域的專家,對一個新的問題(新的輸入數 據),可以用不同的角度去看待它,最終由各個專家,投票得到結果。神經網絡1、CNN卷積2、RNN循環3、DNN深度RNNRNN按照時間展開DNNCNN依然是一個分類器。黑盒Deep Lea
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學年高中歷史 第7單元 現代中國的對外關系 第23課 新中國初期的外交教學設計 新人教版必修1
- 2023八年級語文下冊 第六單元 22《禮記》二則教學設計 新人教版
- 2023九年級物理下冊 第二十章 電與磁第4節 電動機第1課時 磁場對通電導體的作用教學設計 (新版)新人教版
- 2023四年級數學上冊 6 除數是兩位數的除法第13課時 用商不變的規律簡便計算(練習十七)配套教學設計 新人教版
- 8 人之初 第二課時 教學設計-2024-2025學年語文一年級下冊統編版
- 蒙藥浴足療法課件
- 《玩冰》(教學設計)-2023-2024學年三年級上冊綜合實踐活動蒙滬版
- 框架完整·論文答辯
- 2023-2024學年八年級地理上冊 第一章 人口和民族 單元教學設計
- 老地基轉讓協議合同樣本6篇
- 2025年龍江森工集團權屬林業局有限公司招聘筆試參考題庫含答案解析
- 2025生豬購買合同范文
- 醫療器械經營質量管理制度及工作程序-完整版
- (二模)溫州市2025屆高三第二次適應性考試英語試卷(含答案)+聽力音頻+聽力原文
- DeepSeek+AI組合精準賦能教師教學能力進階實戰 課件 (圖片版)
- 行政事業單位固定資產培訓
- 6.1.2化學反應與電能 課件 2024-2025學年高一下學期化學人教版(2019)必修第二冊
- 建筑施工企業安全生產流程
- 河池市出租車駕駛員從業資格區域科目考試題庫(含答案)
- 淘汰賽賽對陣表
- 醫療糾紛中的病歷偽造篡改問題研究
評論
0/150
提交評論