




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、機器學習有三種主要類型的機器學習:監督學習、非監督學習和強化學習監督學習一組標記數據。計識別每種標記的新樣本。監督學習的兩種主要類型是分類和回歸。在分類中,機器被訓練成將一個組劃分為特定的類。分類的一個簡單例子是電子郵件帳戶上的垃圾郵件過濾器。在回歸中,機器使用先前的(標記的)數據來預測未來。天氣應用是回歸的好例子。使用氣象事件的歷史數據(即平均氣溫、濕度和降水量),你的手機天氣應用程序可以查看當前天氣,并在未來的時間內對天氣進行預測。無監督學習數據是無標簽的。由于大多數真實世界的數據都沒有標簽,這些算法特別有用。無監督學習分為聚類和降維。聚類用于根據屬性和行為對象進行分組。這與分類不同,因為
2、這些組不是你提供的。聚類的一個例子是將一個組劃分成不同的子組(例如,基于年齡和婚姻狀況),然后應用到有針對性的營銷方案中。降維通過找到共同點來減少數據集的變量。大多數大數據可視化使用降維來識別趨勢和規則。強化學習使用機器的個人歷史和經驗來做出決定。強化學習的經典應用是玩游戲。與監督和非監督學習不同,強化學習不涉及提供正確的答案或輸出。相反,它只關注性能。這反映了人類是如何根據積極和消極的結果學習的。很快就學會了不要重復這一動作。同樣的道理,一臺下棋的電腦可以學會不把它的國王移到對手的棋子可以進入的空間。然后,國際象棋的這一基本教訓就可以被擴展和推斷出來,直到機器能夠打(并最終擊敗)人類頂級玩家
3、為止。回歸算法這可能是最流行的機器學習算法,線性回歸算法是基于連續變量預測特定結果的監督學習算法。另一方面,Logistic回歸專門用來預測離散值。這兩種(以及所有其他回歸算法)都以它們的速度而聞名,它們一直是最快速的機器學習算法之一。心最近鄰算法(有監督算法,分類算法)也稱為KNN。KNN用于分類,比較數據點的距離,并將每個點分配給它最接近的組。給一個新的數據時,離它最近的k個點中,哪個類別多,這個數據就屬于哪一類。K表示K個鄰居,不表示距離,因為需要求所有鄰居的距離,所以效率低下。優點:可以用來填充缺失值,可以處理非線性問題調優方法:K值的選擇,k值太小,容易過擬合應用:樣本數少,特征個數
4、較少,kNN更適合處理一些分類規則相對復雜的問題,在推薦系統大量使用KNN(KNearestNeighbor);決策樹算法將一組弱學習器集合在一起,形成一種強算法,這些學習器組織在樹狀結構中,相互分支。一種流行的決策樹算法是隨機森林算法。在該算法中,弱學習器是隨機選擇的,這往往可以獲得一個強預測器。根據一些feature(特征)進行分類,每個節點提一個問題,通過判斷,將數據分為兩類,再繼續提問。這些問題是根據已有數據學習出來的,再投入新數據的時候,就可以根據這棵樹上的問題,將數據劃分到合適的葉子上。只接受離散特征,屬于分類決策樹。條件熵的計算H(Label|某個特征)這個條件熵反映了在知道該特
5、征時,標簽的混亂程度,可以幫助我們選擇特征,選擇下一步的決策樹的節點。Gini和entropy的效果沒有大的差別,在scikitlearn中默認用Gini是因為Gini指數不需要求對數,計算量少。把熵用到了集合上,把集合看成隨機變量。決策樹:貪心算法,無法從全局的觀點來觀察決策樹,從而難以調優。葉子節點上的最小樣本數,太少,缺乏統計意義。從葉子節點的情況,可以看出決策樹的質量,發現有問題也束手無策。優點:可解釋性強,可視化。缺點:容易過擬合(通過剪枝避免過擬合),很難調優,準確率不高二分類,正負樣本數目相差是否懸殊,投票機制決策樹算法可以看成是把多個邏輯回歸算法集成起來。根節點;表示有5個斯:
6、娥后我計算條件gini,我發現取第0個特征是離特征對于這第0個特征r祭件gini值是0.48貝葉斯算法,基于Bayes理論,最流行的算法是樸素Bayes,它經常用于文本分析。例如,大多數垃圾郵件過濾器使用貝葉斯算法,它們使用用戶輸入的類標記數據來比較新數據并對其進行適當分類。聚類算法的重點是發現元素之間的共性并對它們進行相應的分組,常用的聚類算法是k-means聚類算法(無監督算法,聚類算法,隨機算法)。在k-means中,分析人員選擇簇數(以變量k表示),并根據物理距離將元素分組為適當的聚類。每個都與三個初始值計算距離,然后歸類到離它最近的初始值所在類別。分好類后,計算每一類的平均值,作為新
7、一輪的中心點。最常用的無監督算法計算距離方法:歐式距離,曼哈頓距離應用:去除孤立點,離群點(只針對度量算法);可以離散化最常用歸一化預處理方法k-means設置超參數k時,只需要設置最大的k值。k-means算法最終肯定會得到穩定的k個中心點,可以用EM(ExpectationMaximum)算法解釋k-means算法k個隨機初始值怎么選?多選幾次,比較,找出最好的那個調優的方法:1.bi-kmeans方法(依次補刀)調優的方法:2.層次聚類(逐步聚攏法)k=5找到5個中心點,把中心點喂給k-means。初始中心點不同,收斂的結果也可能不一致。聚類效果怎么判斷?用SSE誤差平方和指標判斷,SS
8、E越小越好,也就是肘部法則的拐點處。也可以用輪廓系數法判斷,值越大,表示聚類效果越好,簇與簇之間距離越遠越好,簇內越緊越好。k-means算法最大弱點:只能處理球形的簇(理論)(spont)a*C9iq2=S寸2HUJ=百:事先確定常數常數儲味展牌的鑒類類另燉-首先隨機選定初!冶點為質心,并刪計算每一?祥本與6質心之間的榔蚯f這里為戲式距離)r將樣本點歸別晁榔口的裘中,按希r爭新計耳每2匸石U*IL:個類的質氓即為類中心),車缸這祥的過:幄,坯fl質心不再改變,磁就確宦了毎個樣本a所加的類別I宓每個芙的質心.由于每次都翌計所有的樣本與帶一個質心之間的相似度,故在尢覘橈的數上,匕血測血法飾收翎1度t腋慢*深度學習是一類機器學習,基于生物神經網絡的結構,目的是模仿人腦的思維過程,經常用于圖像和語音識別。深度學習采用神經網絡模型并對其進行更新。它們是大、且極其復雜的神經網絡,使用少量的標記數據和更多的未標記數據。神經網絡和深度學習有許多輸入,它們經過幾個隱藏層后才產生一個或多個輸出。這些連接形成一個特定的循環,模仿人腦處理信息和建立邏輯連接的方式。支持向量機要將兩類分開,想要得到一個超平面,最優的超平面是到兩類的margin達到最大,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工作簽定賠付協議書
- 宴會訂餐定金協議書
- 球場養護協議書
- 離婚調解協議書
- 寵物友好寄養協議書
- 公路隧道火災應急預案(3篇)
- 小額擔保合伙協議書
- 2025年羽毛球社會體育指導員中級模擬試卷:技術教學創新與賽事策劃挑戰題
- 小品藝人演出協議書
- 汽車交易協議書
- 語文五年級 【知識精講】7.閱讀(2)文言文閱讀
- 社會心理學8-人際關系課件
- QC-R 596-2017高速鐵路板式無砟軌道自密實混凝土高清-無水印
- 鄰補角、對頂角、同位角、內錯角、同旁內角經典習題-一對一專用
- 保密管理-保密教育培訓簽到簿
- 常見病媒生物分類鑒定
- 手術室剖宮產護理查房-課件
- 隧道工程隧道洞口臨建施工方案
- DBJ∕T13-374-2021 福建省鋼筋桁架疊合樓板技術標準
- 事故池管理的有關規定
- 高中語文部編版選擇性必修下冊第四單元 單元學習導航 課件 (8張PPT)
評論
0/150
提交評論