




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
論文匯報大數(shù)據(jù)技術(shù)軟件工程PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:
AFewUsefulThingstoKnowAboutMachineLearning本文簡介AFewUsefulThingstoKnowAboutMachineLearning
機器學(xué)習(xí)發(fā)展到現(xiàn)在日益成熟,運用的領(lǐng)域也越來越廣泛,本文主要通過研究人員的角度,然后結(jié)合機器學(xué)習(xí)從業(yè)者的一些“民間知識”,總結(jié)出機器學(xué)習(xí)使用過程中的各種問題已經(jīng)響應(yīng)的解決方法。列出了常見的12條開發(fā)經(jīng)驗。
本文將主要介紹其中最常用的類型:分類。在機器學(xué)習(xí)中,有兩種變量,一種是離散型,一種是連續(xù)型,分類主要涉及的是離散型變量。
機器學(xué)習(xí)分類的一般流程:收集數(shù)據(jù),根據(jù)要實現(xiàn)的功能來選取相應(yīng)的模型算法,從數(shù)據(jù)集中篩選出有用的特征,形成訓(xùn)練集,把訓(xùn)練集導(dǎo)入所選的模型中,這個模型我們稱之為學(xué)習(xí)機,學(xué)習(xí)過程由學(xué)習(xí)機來完成,最后學(xué)習(xí)機會訓(xùn)練出一個分類器,新數(shù)據(jù)輸入分類器進行準(zhǔn)確的分類。01學(xué)習(xí)=表示
+
評價+
優(yōu)化02機器學(xué)習(xí)是一種泛化計算03僅僅靠數(shù)據(jù)是不夠的04過擬合的多種形式0506080709101112人類直覺不適用于高維度理論保證與看上去的不一樣特征工程是關(guān)鍵更多數(shù)據(jù)勝過聰明算法學(xué)習(xí)更多模型簡單并不意味著準(zhǔn)確相關(guān)并不意味著因果可表示并不意味著可學(xué)習(xí)
面對不同的任務(wù),不同的需求,運用到的算法也不一樣,如何選取最有效的算法是一個難題,這里主要總結(jié)出三個方面:表示(Representation)一個分類器以某種計算機語言來表示,為學(xué)習(xí)機選擇一種模型表示,通過這個模型來訓(xùn)練學(xué)習(xí)機,最終形成一個有效的分類器,其中分類模型可以看作是一個集合,所有分類的模型都可以從這個集合中選取,那么這個集合就被稱之為學(xué)習(xí)機的假設(shè)空間。評價(Evaluation)
我們需要一個評價函數(shù),來評判分類器的優(yōu)劣性。優(yōu)化(Optimization)
我們需要一種搜索方式,來找到評價函數(shù)最高的那個模型表示,訓(xùn)練處評價函數(shù)得分最高的分類器。當(dāng)評價函數(shù)有多個最優(yōu)結(jié)果時,優(yōu)化也能有助我們從中選取最合適的一個。學(xué)習(xí)=表示+評價+優(yōu)化AFewUsefulThingstoKnowAboutMachineLearning01學(xué)習(xí)=表示+評價+優(yōu)化AFewUsefulThingstoKnowAboutMachineLearning01
表2,舉了一個簡單的決策樹的例子。一個決策樹的機器學(xué)習(xí)函數(shù),第一個if判斷是否所有樣例都屬于同一個分類,第二個if判斷特征值xj與分類結(jié)果y之間的關(guān)聯(lián)性,一般用信息熵來把這種關(guān)聯(lián)性數(shù)值化表示然后通過將選取出當(dāng)前信息熵最大的特征xj,當(dāng)xj=0分成TS0集合,當(dāng)xj=1分成TS1集合,然后除去特征xj,把分好的集合運用遞歸算法的思想,再次調(diào)用learnDT這個函數(shù)。學(xué)習(xí)=表示+評價+優(yōu)化AFewUsefulThingstoKnowAboutMachineLearning01機器學(xué)習(xí)的基本任務(wù)是對訓(xùn)練集合中的樣例進行泛化。在訓(xùn)練學(xué)習(xí)機時,應(yīng)該將樣例分成訓(xùn)練集和測試集,在訓(xùn)練出一個分類器之后,應(yīng)該用測試集要檢驗分類器的性能。
保留一部分樣例會被減少訓(xùn)練集樣例的數(shù)量,可能會導(dǎo)致欠擬合的情況出現(xiàn),面對這種情況,可以使用交叉檢驗的方法來解決,將數(shù)據(jù)集分成k份,訓(xùn)練集取k-1分和測試集取一份,使得每份樣例都能成為測試集,迭代k次,檢驗完成之后,取k次的均值就能得出分類器具體的性能,這種檢驗方法又稱之為k折交叉檢驗。機器學(xué)習(xí)是一種泛化計算AFewUsefulThingstoKnowAboutMachineLearning02
將泛化作為目標(biāo)帶來的另外一個重要結(jié)果是,僅有數(shù)據(jù)還不夠,無論你有多少。
每個學(xué)習(xí)器都必須包含一些數(shù)據(jù)之外的領(lǐng)域?qū)I(yè)知識或假設(shè)(assumption),才能夠?qū)?shù)據(jù)泛化。在真實世界中,我們要學(xué)習(xí)的函數(shù)并非均勻地來自所有可能的函數(shù)!實際上,一些非常泛泛的假設(shè)——比如平滑(smoothness),相似的樣例有相似的類別,有限依賴,或者有限復(fù)雜度——通常足夠起很大作用,這也是機器學(xué)習(xí)能夠如此成功的重要原因。
機器學(xué)習(xí)不是魔術(shù),它無法憑空變出東西。它所做的是由少變多。編程就像所有的工程技術(shù)那樣,意味著大量的工作,必須從頭開始建造一切。而機器學(xué)習(xí)更像是種田,它讓大自然做大部分工作。農(nóng)夫?qū)⒎N子與肥料混合種出莊稼。學(xué)習(xí)器將知識和數(shù)據(jù)結(jié)合“種出”程序。僅僅靠數(shù)據(jù)是不夠的AFewUsefulThingstoKnowAboutMachineLearning03一般來說學(xué)習(xí)機通過訓(xùn)練集,訓(xùn)練處分類器,將訓(xùn)練集和測試集同時利用分類器進行分類,如果訓(xùn)練集準(zhǔn)確率要遠遠高于測試集準(zhǔn)確率,則可以稱之為過擬合。
在機器學(xué)習(xí)中的誤差分為方差和偏差,方差是由于學(xué)習(xí)機過度學(xué)習(xí)了一些關(guān)聯(lián)性不大的特征,導(dǎo)致的誤差,而偏差是學(xué)習(xí)機沒有充分學(xué)習(xí)關(guān)聯(lián)性大的特征產(chǎn)生的誤差。通常,一個強錯誤假設(shè)比那些弱正確假設(shè)更好,這是因為后者需要更多的數(shù)據(jù)才能避免過擬合。
過擬合的解決方法:交叉檢驗法,另一個是代價函數(shù)增加一個正則化項。代價函數(shù),是由真實值與預(yù)測值之間的誤差平方和組成的一個十字,在這個式子中添加一個正則化項,通過不斷地調(diào)整正則化項,可以適當(dāng)?shù)販p少誤差。
過擬合的多種形式AFewUsefulThingstoKnowAboutMachineLearning04。
過擬合的多種形式AFewUsefulThingstoKnowAboutMachineLearning04Regression算法:
梯度下降法求解Regression算法最佳擬合參數(shù):
。
過擬合的多種形式AFewUsefulThingstoKnowAboutMachineLearning04正則化后的Regression算法:
維數(shù)災(zāi)難是目前機器學(xué)習(xí)面臨的困難之一,機器學(xué)習(xí)算法無論是預(yù)測還是分類,他的準(zhǔn)確性很大程度上依賴特征的選擇,所以很多人為了能訓(xùn)練出更好的分類器同時面對越來越高的需求,不斷提取更多的特征值來進行訓(xùn)練,這樣樣例的維度就會上升,整個系統(tǒng)學(xué)習(xí)難度會上升,泛化能力直線下降,反而不能取得太好的效果
。
人類的大腦思維模式局限于三維,面對更高緯度的時候很難去想象一個算法在高緯度中運作原理。在二維或三維空間構(gòu)建分類器很簡單,我們可以僅通過肉眼觀察發(fā)現(xiàn)不同類別樣例的分界線,再往上映射到高緯度,人類的大腦將很難理解這樣的現(xiàn)象。
解決維數(shù)災(zāi)難的常用降維方法:PCA人類直覺不適用于高維度AFewUsefulThingstoKnowAboutMachineLearning05
人類直覺不適用于高維度AFewUsefulThingstoKnowAboutMachineLearning05第一步先求出特征的平均值,然后對于所有的樣例,都減去對應(yīng)的均值
。第二步,求特征協(xié)方差矩陣。第三步,求協(xié)方差的特征值和特征向量。第四步,將特征值按照從大到小的順序排序,選擇其中最大的k個,然后將其對應(yīng)的k個特征向量分別作為列向量組成特征向量矩陣。
第五步,將樣本點投影到選取的特征向量上。假設(shè)樣例數(shù)為m,特征數(shù)為n,減去均值
后的樣本矩陣,協(xié)方差矩陣是n*n,選取的k個特征向量組成的矩陣。
機器學(xué)習(xí)論文充滿了理論保證。最常見的類型是能保證泛化所需樣例數(shù)目的邊界(bound)。對于分類任務(wù)來說,會存在一個分類邊界,由學(xué)習(xí)機來訓(xùn)練得到,這個邊界劃分了數(shù)據(jù)集,邊界的意思是,給定一個足夠大的訓(xùn)練集,告訴你在很大的概率上你的學(xué)習(xí)機會返回一個成功泛化的假設(shè),還是無法找到一個保持正確的假設(shè)。這個邊界也無法告訴我們?nèi)绾芜x擇好的假設(shè)空間。它只能告訴我們,如果這個假設(shè)空間包含真實分類器,那么學(xué)習(xí)器輸出一個壞分類器的概率隨著訓(xùn)練數(shù)據(jù)規(guī)模的增長而降低,如果我們縮小假設(shè)空間,邊界就會得到改善,但是空間包含真實分類器的幾率也降低了。
機器學(xué)習(xí)中理論保證的主要作用并不是在實踐中作為決策的標(biāo)準(zhǔn),而是在算法設(shè)計中作為理解和驅(qū)動的來源。在這方面,它們作用巨大;實際上,理論與實踐的緊密結(jié)合是機器學(xué)習(xí)在過去幾年中取得重大進展的重要原因。但是使用者需要謹(jǐn)慎:學(xué)習(xí)是一個復(fù)雜現(xiàn)象,因為一個學(xué)習(xí)器既有理論證明又有實際應(yīng)用,而前者并未成為后者的依據(jù)。理論保證與看上去的不一樣AFewUsefulThingstoKnowAboutMachineLearning06有的機器學(xué)習(xí)項目成功了而有的則失敗了,其中最重要的一個原因在于特征值的選取,如果你有很多類似非常相關(guān)的獨立特征,那么學(xué)習(xí)機學(xué)習(xí)將會很容易,準(zhǔn)確率很高。但是,如果是一些原始數(shù)據(jù),學(xué)習(xí)機就很難從中選擇有用的信息進行學(xué)習(xí),學(xué)習(xí)難度會提高很多。所以最原始的數(shù)據(jù)是不能學(xué)習(xí)的,必須構(gòu)建出可以學(xué)習(xí)的特征。
對數(shù)據(jù)的收集,整合,清理和預(yù)處理是非常耗時的事情。特征工程則會比這些更難,特征工程還需要涉及到相關(guān)的領(lǐng)域知識,不同領(lǐng)域規(guī)則不一樣,而學(xué)習(xí)機則是通用的,一個比較成功的學(xué)習(xí)機往往能融入了領(lǐng)域知識。
機器學(xué)習(xí)的一個終極目標(biāo)就是將特征工程過程越來越多地自動化,經(jīng)常采用的一種方式是先自動產(chǎn)生大量的候選特征,然后根據(jù)它們與分類類別的信息增益等方法來選取最好的特征。特征工程是關(guān)鍵AFewUsefulThingstoKnowAboutMachineLearning07
設(shè)計一個好算法,還是收集更多數(shù)據(jù)?很多機器學(xué)習(xí)研究人員更傾向選擇前者,但是從實用性來看,收集更多的數(shù)據(jù)往往更簡單。作為一條經(jīng)驗,大量數(shù)據(jù)的笨算法,要勝過數(shù)據(jù)較少的聰明算法。
計算機資源中,時間和存儲空間都是有限的。在機器學(xué)習(xí)中,還有數(shù)據(jù)集。數(shù)據(jù)越多,那么學(xué)習(xí)機經(jīng)過不斷地學(xué)習(xí),得到的分類器能力就越強。學(xué)習(xí)機可以分為兩大類:一類的表示是大小不變的,比如線性分類器;另一類的表示會隨著數(shù)據(jù)而增長,比如決策樹。對于大小不變的學(xué)習(xí)機來說,數(shù)據(jù)超過一定數(shù)量之后就不再獲益。對于大小可變的學(xué)習(xí)機,如果有充足的的數(shù)據(jù),就可以一直變得更好,這個時候會被計算機中時間和存儲空間資源所限制。所以只要那些充分利用已有數(shù)據(jù)的算法,往往能取得不錯的效果。因為任何知識都要么可以編碼進學(xué)習(xí)機,要么可以從數(shù)據(jù)中學(xué)習(xí)得到,所以機器學(xué)習(xí)項目通常會有學(xué)習(xí)機設(shè)計這一部分,機器學(xué)習(xí)的使用者也要擁有部分領(lǐng)域知識。
最大的瓶頸既不是數(shù)據(jù),也不是
CPU速度,而是人力。更多數(shù)據(jù)勝過聰明算法AFewUsefulThingstoKnowAboutMachineLearning08
早期的學(xué)習(xí)機,人們花費大量的精力來嘗試他的各種變化,從中選取最好的。后來系統(tǒng)的實驗表明在不同應(yīng)用上,最佳學(xué)習(xí)機表現(xiàn)并不一樣,因此為了使系統(tǒng)能更廣泛得到使用,出現(xiàn)了很多學(xué)習(xí)機集成的系統(tǒng)。后來人們注意到,如果將多個一般效果的學(xué)習(xí)機結(jié)合,會比最好的那一個學(xué)習(xí)機得到的結(jié)果更令人滿意。
模型集成與貝葉斯模型平均不一樣。相比于貝葉斯模型,集成方法改變了假設(shè)空間(例如從單獨的決策樹變成了決策樹的線性組合),而且可以采用多種多樣的形式。已經(jīng)成為了機器學(xué)習(xí)工具的重要成分。
常見的元算法:bagging(基于數(shù)據(jù)隨機抽樣的分類器構(gòu)建方法),隨機森林(更先進的bagging),boosting,AdaBoost(boosting中最流行的版本)學(xué)習(xí)更多模型AFewUsefulThingstoKnowAboutMachineLearning09
在機器學(xué)習(xí)中有這樣的結(jié)論:對于有相同訓(xùn)練誤差的兩個分類器,比較簡單的那個更可能有較低的測試誤差。但是很多反例證明了這個結(jié)論并不是完全正確的。
我們前面已經(jīng)看到了一個反例:模集成型。集成模型的泛化誤差會一直隨著增加新的分類器而改進,甚至可以優(yōu)于訓(xùn)練誤差。另一個反例是支持向量機,它實際上可以有無限個參數(shù)而不至于過擬合。
很多人都用準(zhǔn)確(accuracy)和簡單(simplicity)之間權(quán)衡來證明那個結(jié)論,那就變成循環(huán)論證了——我們將所偏好的假設(shè)設(shè)計得更加簡單,而如果結(jié)果是準(zhǔn)確的是因為我們的偏好是準(zhǔn)確的,而不是因為這些假設(shè)在我們選擇的表示方法中是“簡單的”。根據(jù)著名的著名的奧坎姆剃刀原理稱:若無必要,勿增實體,在面對這樣的問題時,我們可以得出這樣的結(jié)論:應(yīng)當(dāng)先選擇簡單假設(shè),這是因為簡單本身就是一個優(yōu)點,而不是因為所假設(shè)的與準(zhǔn)確率有什么聯(lián)系。簡單并不意味著準(zhǔn)確AFewUsefulThingstoKnowAboutMachineLearning10
僅僅因為一個實際問題可以被表示,并不意
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 智慧斷路器合同協(xié)議書
- 聯(lián)合拍地協(xié)議書
- 花唄升級協(xié)議書
- 繳費平臺協(xié)議書
- 退房定金協(xié)議書
- 英文贈予協(xié)議書
- 混凝土開票個人協(xié)議書
- 簽署保密協(xié)議書
- 自愿分房協(xié)議書
- 聯(lián)營單位協(xié)議書
- 內(nèi)蒙古自治區(qū)通遼市2025屆高三下學(xué)期三模生物試題 含解析
- 浙江省麗水市2023-2024學(xué)年高一數(shù)學(xué)下學(xué)期6月期末教學(xué)質(zhì)量監(jiān)控試題含答案
- 權(quán)益維護課件
- 29.液化天然氣加氣站特種設(shè)備事故應(yīng)急預(yù)案
- 浙江省金華市2025屆六年級下學(xué)期5月模擬預(yù)測數(shù)學(xué)試題含解析
- 關(guān)節(jié)科考試試題及答案
- 2025新高考地理復(fù)習(xí)十大時事熱點及命題預(yù)測(學(xué)生版+解析版)
- 診所應(yīng)急知識培訓(xùn)課件
- 央行MPA考核細則
- 2025-2030全球及中國自動入侵與攻擊模擬行業(yè)市場現(xiàn)狀供需分析及市場深度研究發(fā)展前景及規(guī)劃可行性分析研究報告
- 大數(shù)據(jù)時代統(tǒng)計信息安全挑戰(zhàn)與應(yīng)對策略研究
評論
0/150
提交評論