




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器學習的導學匯報人:顧松敏導師:王琢2016.10.12目錄1引言2基本概念與學習系統3機器學習主要策略及R演示機器學習(ML)4發展與展望1引言隨著信息技術的發展,互聯網數據及資源呈現海量特征。為了有效地管理和利用這些分布的海量信息,如何使機器具有認識問題和解決問題的能力,就是讓機器如何更聰明、更具有人的智能,這就是機器學習。ML基本概念機器學習的核心是學習。學習是一種多方面、綜合性的心理活動,它與記憶、思維、知覺、感覺等多種心理行為都有著密切的聯系2基本概念與學習系統
目前在機器學習研究領域影響較大的是H.Simon的觀點:學習是系統中的任何改進,這種改進使得系統在重復同樣的工作或進行類似的工作時,能完成得更好。機器學習研究的就是如何使機器通過識別和利用現有知識來獲取新知識和新技能。機器學習是一門多領域交叉學科機器學習的一個形象描述基本概念研究一種算法:1)提高它的性能(P)2)在某項任務中(T)3)利用一些經驗(E)well-definedlearningtask:<P,T,E>目前在眾多涉及計算機處理的技術應用中,機器學習在許多領域都取得了很大的進步,如用于人工智能、數據挖掘、自然語言處理、漢字識別、機器翻譯、專家系統以及商業領域等。機器學習應用學習系統學習系統為了使計算機系統具有某種程度的學習能力,使它能通過學習增長知識,改善性能,提高智能水平,需要為它建立相應的學習系統。一個學習系統一般應該由環境、學習、知識庫、執行與評價四個基本部分組成。環境學習知識庫執行與評價學習、學習、再學習!機器學習的發展極為迅速,應用也亦日益廣泛,其中有很多優秀的機器學習算法。算法基本上可以分為基于有監督、無監督、半監督和強化學習這四大類。
3機器學習主要策略及R演示
有監督學習分為學習和預測兩個過程,對具有標記的訓練樣本進行學習,學習到一種模型后以盡可能對訓練樣本集外的數據進行標記預測。這里,所有的標記是已知的。因此,訓練樣本的岐義性低。有監督學習
有監督學習X1X2X3X4Y0.100.010.930.2500.740.870.910.2710.130.210.870.250...............0.120.210.880.1500.840.12...0.210.12...0.430.12...0.340.12...10...0.700.050.930.281訓練集測試集原始數據集預測集0.110.070.920.15?0.850.450.560.01?.....
無監督學習無監督學習對沒有概念標記的訓練樣本進行學習,以發現訓練樣本集中的結構性知識。這里,所有的標記是未知的。因此,訓練樣本的岐義性高。關聯規則和聚類就是典型的無監督學習。最近鄰神經網絡回歸樹模型樹分類器線性回歸
主要學習策略ML主要策略支持向量機關聯規則樸素貝葉斯決策樹k均值聚類雙重用處支持向量機神經網絡分類決策樹最近鄰樸素貝葉斯數值預測回歸樹按學習任務分類——有監督分類器模型樹線性回歸模式識別關聯規則按學習任務分類——無監督聚類K均值聚類R語言簡介R是用于統計分析、繪圖的語言和操作環境。R是屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用于統計計算和統計制圖的優秀工具。R語言的優缺
最近鄰算法(KNN)就是將待分類樣本點決策為距離它最近的已知類別樣本點所屬的類別。K近鄰算法步奏如下描述:(1)計算已知類別數據集中的點與當前點的距離(2)按距離遞增次序排序(3)選取與當前點距離最小的k個點(4)確定前K個點所在類別出現的頻率(5)返回頻率最高的類別作為當前類別的預測
最近鄰算法最近鄰算法蛋白質水果蔬菜最近鄰算法種類甜度脆度食物類型蘋果109水果培根14蛋白質芹菜310蔬菜香蕉101水果奶酪11蛋白質............甜度脆度蘋果葡萄培根胡蘿卜香蕉橙子梨奶酪魚芹菜豌豆生菜黃瓜蝦西紅柿最近鄰算法如何選擇一個合適的K?K近鄰算法步奏如下描述:(1)計算已知類別數據集中的點與當前點的距離(2)按距離遞增次序排序(3)選取與當前點距離最小的k個點(4)確定前K個點所在類別出現的頻率(5)返回頻率最高的類別作為當前類別的預測
最近鄰算法最近鄰算法
距離的度量:
特征空間中兩個例點的距離是它們相似程度的反映。K近鄰模型的特征空間一般是n維實數向量空間,可以使用歐氏距離,但也可以使用更一般的LP距離。最近鄰算法最近鄰算法
最近鄰算法是一種基于實例的算法,也是一種懶惰學習算法。在訓練階段比渴望學習算法(如決策樹,神經網絡等)有更少的計算時間,簡單有效,對數據的分布沒有要求,訓練階段很快。但在分類過程中需要更多的計算時間,需要大量的內存,不產生模型并且在發現特征之間關系上能力有限。該我表演啦!R樸素貝葉斯樸素貝葉斯;發現屬性變量之間的依賴相對于屬性變量與類變量之間的依賴是可以忽略的。樸素貝葉斯具有如下三個特點:(1)樸素貝葉斯并不把一個對象絕對地指派給某一類,而是通過計算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類;(2)一般情況下在樸素貝葉斯中所有的屬性都潛在的起作用,即并不是一個或幾個屬性決定分類,而是所有的屬性都參與分類;(3)樸素貝葉斯的對象的屬性可以是離散的、連續的、也可以是混合的。樸素貝葉斯決策樹
決策樹就是根據特征值對實例進行分類。決定樹中的每個節點代表待分類實例的一個特征,每個分支代表該節點可以假設的一個值。
決策樹模型決策樹決策樹可看作一個樹狀預測模型,它通過把實例從根節點排列到某個葉子節點來分類實例,葉子節點即為實例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹的算法有很多,有ID3、C4.5、CART等等。這些算法均采用自頂向下的貪婪算法,每個節點選擇分類效果最好的屬性將節點分裂為2個或多個子結點,繼續這一過程直到這棵樹能準確地分類訓練集,或所有屬性都已被使用過。
決定樹最有用的特性之一是其可理解性。人們可以很容易地理解為什么一顆決策樹把一個實例分類歸類到一個特定的類。決策樹原理及優點
一個連接模型(神經網絡)是由一些簡單的類似神經元的單元以及單元間帶權的連接組成。每個單元具有一個狀態,這個狀態是由與這個單元相連接的其他單元的輸入決定的。連接學習通過使用各類例子來訓練網絡,產生網絡的內部表示,并用來識別其他輸入例子。學習主要表現在調整網絡中的連接權,這種學習是非符號的,并且具有高度并行分布式處理的能力。
一個人工神經網絡是由大量神經元節點經廣泛互連而組成的復雜網絡拓撲,用于模擬人類進行知識和信息表示、存儲和計算行為。人工神經網絡學習的工作原理是:一個人工神經網絡的工作由學習和使用兩個非線性的過程組成。從本質上講,人工神經網絡學習是一種歸納學習,它通過對大量實例的反復運行,經過內部自適應過程不斷修改權值分布,將網絡穩定在一定的狀態下。
比較出名的網絡模型和學習算法有單層感知器(Perceptron)、Hopfield網絡、Boltzmann機和反向傳播算法(BackPropagation,BP)。人工神經網絡ANN原理人工神經網絡
是一個正數(為學習率),它決定梯度下降搜索的步長。一個較大的值使反向傳播以更快的速度向目標權重配置移動,但同時也增加了不能達到這個目標的幾率。對于輸出神元,
是第j個神經元的期望輸出對于內部(隱藏)神經元,更新權重的一般規則是:其中:是第i個神經元的計算輸出反向傳播ANN權重計算在神經網絡中,因為缺乏問題的先驗知識,往往需要經過大量費力費時的試驗摸索才能確定合適的神經網絡模型、算法以及參數設置,其應用效果完全取決于使用者的經驗?;诖嗽颍?990年,Hansen和Salamon開創性地提出了神經網絡集成(NeuralNetworkEnsemble)方法。該技術來源于機器學習界目前極熱門的Boosting方法,也已成為當前研究的熱點。神經網絡的另一大缺陷就是其典型的“黑箱性”,即訓練好的神經網絡學到的知識難以被人理解,神經網絡集成又加深了這一缺陷。神經網絡是基于經驗風險最小化原則的學習算法,有一些固有的缺陷,比如層數和神經元個數難以確定,容易陷入局部極小,還有過學習現象,這些本身的缺陷在SVM算法中可以得到很好的解決。人工神經網絡ANN缺陷
支持向量機是Vapnik等人提出的一類新型的機器學習算法。SVM算法的目的在于尋找一個超平面H(d),該超平面可以將訓練集中的數據分開,且與類域邊界的沿垂直于該超平面方向的距離最大,故SVM法亦被稱為最大邊緣(MaximumMargin)算法。所謂最優超平面就是要求超平面不但能將兩類正確分開,而且使分類間隔最大;使分類間隔最大實際上就是對模型推廣能力的控制,這正是SVM的核心思想所在??偟膩碚f,支持向量機就是首先通過用核函數定義的非線性變換將輸入空間變換到一個高維空間,在這個空間中求(廣義)最優分類面。SVMs分類函數形式上類似于一個神經網絡,輸出是中間節點的線性組合,每個中間節點對應一個支持向量,如圖所示。選擇不同的核函數就可以生成不同的支持向量機。常用的核包括:多項式核、高斯(徑向基函數)核、二層神經網絡核等。目前支持向量機的訓練算法是以序貫最小最優化(SMO)為代表的,其中工作集的選擇是實現SMO算法的關鍵。支持向量機SVM算法實現基于統計學習理論的支持向量機(SVM)方法,與傳統的基于經驗風險最小化原則的學習方法不同,SVM基于結構風險最小化,能在訓練誤差和分類器容量之間達到一個較好的平衡,它具有全局最優、適應性強、推廣能力強等優點。但是直到目前為止,支持向量機方法還存在一些問題,例如訓練時間過長、核參數的選擇等,成為限制支持向量機應用的瓶頸。支持向量機SVM模型及優缺點機器學習算法的拓展在人工智能、數據挖掘、模式識別和機器學習中有許多的應用都要進行模型的參數估計,也就是要進行極大似然估計或極大后驗似然估計。一種非常流行的極大似然估計方法是EM算法。算法的命名,是因為算法的每一迭代包括兩步:第一步求期望(ExpectationStep),稱為E步;第二步求極大值(MaximizationStep),稱為M步。EM算法主要用來計算基于不完全數據的極大似然估計。EM算法的特點是簡單和穩定,
特別是每一次迭代能保證觀察數據對數后驗似然是單調不減的。EM算法EM算法遺傳算法
遺傳算法(GA)是建立在自然選擇和群體遺傳學機理基礎上的隨機迭代和進化,具有廣泛適用性的搜索方法,具有很強的全局優化搜索能力。它模擬了自然選擇和自然遺傳過程中發生的繁殖、交配和變異現象,根據適者生存、優勝劣汰的自然法則,利用遺傳算子選擇、交叉和變異逐代產生優選個體(即候選解),最終搜索到較優的個體。遺傳算法本質上是基于自然進化原理提出的一種優化策略,在求解過程中,通過最好解的選擇和彼此組合,則可以期望解的集合將會愈來愈好。遺傳算法受到研究人員廣泛重視是由于它采用隨機搜索方法,其特點是幾乎不需要所求問題的任何信息而僅需要目標函數的信息,不受搜索空間是否連續或可微的限制就可找到最優解,具有強的適應能力和便于并行計算。遺傳算法介紹遺傳算法遺傳算法是一種種群型操作,該操作以種群中的所有個體為對象。具體求解步驟如下:(1)創建初始種群(2)循環:產生下一代(3)評價種群中的個體適應度(4)定義選擇的適應度函數(5)改變該種群(交叉和變異)(6)返回第二步(7)滿足終止條件結束GA適用于解決復雜的非線性和多維空間尋優問題。經典遺傳算法的缺點是:有時計算時間過長,不能保證解是全局最優的。遺傳算法步驟及優缺點初始種群產生下一代自然選擇個體適應度交叉和變異終止適應度函數繁殖滿足終止條件集成學習集成學習提出
集成學習(EnsembleLearning)始于Hansen和Salamon的開創性工作。他們研究發現,通過訓練多個神經網絡并將其結果按照一定的規則進行組合,就能顯著提高整個學習系統的泛化性能。之后有人通過構造性方法提出Boosting算法,證明了這一點。集成學習通過訓練和組合多個準確而有差異的分類器,提高了分類系統的泛化能力,成為近十年來機器學習領域最主要的研究方向之一。目前,國內外以神經網絡、決策樹等為基分類器的集成學習研究已經取得了很大的進展。在分類時,采用投票的方式決定新樣本屬于哪一類。
集成學習示意圖集成學習由于每個分類器的分類能力不同,在集成時,需要對所有分類器加權均,以決定分哪類。集成學習構造集成學習基分類器的構造方法:1)采用不同訓練樣本集2)采用不同輸入特征子集3)輸出編碼分解方法4)引入隨機性5)多種方法相結合分類器的輸出信息可以分為抽象層、排序層和度量層三個層次?;诸惼鞯慕M合方法有:a)排序層組合方法b)抽象層組合方法c)度量層組合方法根據基分類器是否屬于相同類型,可以分為同類分類器集成和異類分類器集成。根據基分類器是否由集
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廣東南方職業學院高職單招語文2019-2024歷年真題考點試卷含答案解析
- 2025年山東鋁業職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年山東職業學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年安徽郵電職業技術學院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年安徽揚子職業技術學院高職單招職業適應性測試歷年(2019-2024年)真題考點試卷含答案解析
- 2025年安慶職業技術學院高職單招(數學)歷年真題考點含答案解析
- 高端石材裝修工程承包合同模板
- CNC基礎知識培訓課件
- 教師說課計劃教學匯報
- 右肩胛區皮膚鱗癌護理查房
- 借用品牌合同范本
- 噴灑除草劑安全協議書(2篇)
- 2025年浙江省初中名校發展共同體中考語文一模試卷附參考答案
- LTE-V2X系統性能要求及測試規范
- 2025年食安食品考試題及答案
- 2025年租賃料場協議
- 2025年北森題庫測試題及答案
- 2025年必考保安證試題及答案
- 中國大唐集團有限公司陸上風電工程標桿造價指標(2023年)
- 2025年美容師初級技能水平測試卷:美容師美容護膚實操技能試題匯編
- 茶館里的政治:揭秘《茶館》背后的歷史
評論
0/150
提交評論