人工神經網絡ppt_第1頁
人工神經網絡ppt_第2頁
人工神經網絡ppt_第3頁
人工神經網絡ppt_第4頁
人工神經網絡ppt_第5頁
已閱讀5頁,還剩74頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工神經網絡ppt人工神經網絡ppt第1頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬2概述人工神經網絡提供了一個普遍且實用方法從樣例中學習值為實數、離散值或向量函數反向傳輸算法,使用梯度下降來調整網絡參數以最正確擬合由輸入-輸出對組成訓練集合人工神經網絡對于訓練數據中錯誤健壯性很好人工神經網絡已被成功應用到很多領域,比如視覺場景分析,語音識別,機器人控制人工神經網絡ppt第2頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬3介紹神經網絡學習對于迫近實數值、離散值或向量值目標函數提供了一個健壯性很強方法對于一些類型問題,如學習解釋復雜現實世界中傳感器數據,人工神經網絡是當前知道最有效學習方法反向傳輸算法成功例子,學習識別手寫字符,學習識別口語,學習識他人臉人工神經網絡ppt第3頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬4生物學動機ANN受到生物學啟發,生物學習系統是由相互連接神經元組成異常復雜網絡。ANN由一系列簡單單元相互密集連接組成,其中每一個單元有一定數量實值輸入,并產生單一實數值輸出人腦組成,大約有1011個神經元,平均每一個與其它104個相連神經元活性通常被通向其它神經元連接激活或抑制最快神經元轉換時間比計算機慢很多,然而人腦能夠以驚人速度做出復雜度驚人決議很多人推測,生物神經系統信息處理能力一定得益于對分布在大量神經元上信息表示高度并行處理人工神經網絡ppt第4頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬5生物學動機(2)ANN系統一個動機就是取得這種基于分布表示高度并行算法ANN并未模擬生物神經系統中很多復雜特征ANN研究分為兩個團體使用ANN研究和模擬生物學習過程取得高效機器學習算法,不論這種算法是否反應了生物過程本書屬于后一個研究團體人工神經網絡ppt第5頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬6神經網絡表示ALVINN系統Pomerleau1993使用一個學習到ANN以正常速度在高速公路上駕駛汽車ANN輸入是一個30x32像素網格,輸出是車輛行進方向每個節點對應一個網絡單元輸出,而從下方進入節點實線為其輸入隱藏單元,輸出僅在網絡內部,不是整個網絡輸出一個別每個輸出單元對應一個特定駕駛方向,這些單元輸出決定哪一個方向是被最強烈推薦人工神經網絡ppt第6頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬7神經網絡表示(2)ALVINN是很多ANN經典結構,全部單元分層互連形成一個有向無環圖通常,ANN圖結構能夠有很各種類型無環或有環有向或無向本章討論以反向傳輸算法為基礎ANN方法反向傳輸算法假定網絡是一個固定結構,對應一個有向圖,可能包含環ANN學習就是為圖中每一條邊選取權值大多數實際應用與ALVINN相同人工神經網絡ppt第7頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬8適合神經網絡學習問題訓練集合為含有噪聲復雜傳感器數據,比如來自攝像機和麥克風需要較多符號表示問題,比如決議樹學習任務,能夠取得和決議樹學習大致相當結果反向傳輸算法是最常見ANN學習技術人工神經網絡ppt第8頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬9反向傳輸算法適合問題特征實例是用很多“屬性-值”對表示目標函數輸出可能是離散值、實數值或者由若干實數屬性或離散屬性組成向量訓練數據可能包含錯誤可容忍長時間訓練可能需要快速求出目標函數值人類能否了解學到目標函數是不主要人工神經網絡ppt第9頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬10本章余后個別提要討論訓練單個單元學習算法介紹組成神經網絡幾個主要單元感知器(perceptron)線性單元(linerunit)sigmoid單元(sigmoidunit)給出訓練多層網絡反向傳輸算法考慮幾個普通性問題ANN表征能力假設空間搜索本質特征過分擬合問題反向傳輸算法變體例子,利用反向傳輸算法訓練識他人臉ANN人工神經網絡ppt第10頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬11感知器一個類型ANN系統是以感知器為基礎感知器以一個實數值向量作為輸入,計算這些輸入線性組合,假如結果大于某個閾值,就輸出1,不然輸出-1

其中每個wi是一個實數常量,或叫做權值,用來決定輸入xi對感知器輸出貢獻率。尤其地,-w0是閾值。人工神經網絡ppt第11頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬12感知器(2)兩種簡化形式,附加一個常量輸入x0=1,前面不等式寫成

或寫成向量形式

為了簡短起見,把感知器函數寫為 其中,人工神經網絡ppt第12頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬13感知器(3)學習一個感知器意味著選擇權w0,…,wn值。所以感知器學習要考慮候選假設空間H就是全部可能實數值權向量集合

人工神經網絡ppt第13頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬14感知器表征能力能夠把感知器看作是n維實例空間(即點空間)中超平面決議面對于超平面一側實例,感知器輸出1,對于另一側實例,輸出-1這個決議超平面方程是能夠被某個超平面分割樣例集合,稱為線性可分樣例集合人工神經網絡ppt第14頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬15感知器表征能力(2)單獨感知器能夠用來表示很多布爾函數表示m-of-n函數感知器能夠表示全部原子布爾函數:與、或、與非、或非然而,一些布爾函數無法用單一感知器表示,比如異或人工神經網絡ppt第15頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬16感知器表征能力(3)因為全部布爾函數都可表示為基于原子函數互連單元某個網絡,所以感知器網絡能夠表示全部布爾函數。實際上,只需要兩層深度網絡,比如表示析取范式注意,要把一個AND感知器輸入求反只要簡單地改變對應輸入權符號因為感知器網絡能夠表示大量函數,而單獨單元不能做到這一點,所以咱們感興趣是學習感知器組成多層網絡人工神經網絡ppt第16頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬17感知器訓練法則即使咱們目標是學習由多個單元互連網絡,但咱們還是要從怎樣學習單個感知器權值開始單個感知器學習任務,決定一個權向量,它能夠使感知器對于給定訓練樣例輸出正確1或-1咱們主要考慮兩種算法感知器法則delta法則這兩種算法確保收斂到可接收假設,在不一樣條件下收斂到假設略有不一樣這兩種算法提供了學習多個單元組成網絡基礎人工神經網絡ppt第17頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬18感知器法則算法過程從隨機權值開始重復應用這個感知器到每個訓練樣例,只要它誤分類樣例就修改感知器權值重復這個過程,直到感知器正確分類全部訓練樣例感知器訓練法則

其中

人工神經網絡ppt第18頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬19感知器法則(2)為何這個更新法則會成功收斂到正確權值呢?一些例子能夠證實(Minskey&Papert1969)假如訓練樣例線性可分,而且使用了充分小不然,不能確保人工神經網絡ppt第19頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬20梯度下降和delta法則delta法則克服感應器法則不足,在線性不可分訓練樣本上,收斂到目標概念最正確近似delta法則關鍵思想是,使用梯度下降來搜索可能權向量假設空間,以找到最正確擬合訓練樣例權向量delta法則為反向傳輸算法提供了基礎,而反向傳輸算法能夠學習多個單元互連網絡對于包含各種不一樣類型連續參數化假設假設空間,梯度下降是必須遍歷這么空間全部算法基礎人工神經網絡ppt第20頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬21梯度下降和delta法則(2)把delta訓練法則了解為訓練一個無閾值感知器

指定一個度量標準來衡量假設相對于訓練樣例訓練誤差

第6章給出了選擇這種E定義一個貝葉斯論證,在一定條件下,使E最小化假設就是H中最可能假設人工神經網絡ppt第21頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬22可視化假設空間圖4-4依據E定義,誤差曲面是一個拋物面,存在一個單一全局最小值梯度下降搜索從一個任意初始權向量開始,然后沿誤差曲面最陡峭下降方向,以很小步伐重復修改這個向量,直到得到全局最小誤差點人工神經網絡ppt第22頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬23梯度下降法則推導怎樣發覺沿誤差曲面最陡峭下降方向?經過計算E相對向量每個分量導數,這個向量導數被稱為E對于梯度,記作當梯度被解釋為權空間一個向量時,它確定了使E最陡峭上升方向,所以這個向量反方向給出了最陡峭下降方向梯度訓練法則

其中,

人工神經網絡ppt第23頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬24梯度下降法則推導(2)需要一個高效方法在每一步都計算這個梯度

梯度下降權值更新法則

人工神經網絡ppt第24頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬25梯度下降法則推導(3)表4-1,訓練線性單元梯度下降算法Gradient-Descent(training_examples,)training_examples中每個訓練樣例形式為序偶<,t>,是輸入值向量,t是目標輸出值,是學習速率初始化每個wi為某個小隨機值碰到終止條件之前,做以下操作初始化每個wi為0對于訓練樣例training_examples中每個<,t>,做把實例輸入到此單元,計算輸出o對于線性單元每個權增量wi,做wiwi+(t-o)xi對于線性單元每個權wi,做

wiwi+wi人工神經網絡ppt第25頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬26梯度下降法則推導(4)梯度下降算法以下選取一個初始隨機權向量應用線性單元到全部訓練樣例,依據公式4.7計算每個權值更新權值因為誤差曲面僅包含一個全局最小值,所以不論訓練樣例是否線性可分,算法都會收斂到含有最小誤差權向量,條件是使用足夠小學習速率算法一個常見改進方法是伴隨梯度下降步數增加逐步減小學習速率人工神經網絡ppt第26頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬27梯度下降隨機近似梯度下降是一個主要通用學習范型,它是搜索龐大假設空間或無限假設空間一個策略梯度下降應用于滿足以下條件任何情況假設空間包含連續參數化假設誤差對于這些假設參數可微梯度下降主要實踐問題有時收斂過程可能非常慢假如在誤差曲面上有多個局部極小值,那么不能確保找到全局最小值人工神經網絡ppt第27頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬28梯度下降隨機近似(2)隨機梯度下降(或稱增量梯度下降)依據某個單獨樣例誤差增量計算權值更新,得到近似梯度下降搜索(隨機取一個樣例)對表4-1算法修改能夠看作為每個單獨訓練樣例定義不一樣誤差函數在迭代全部訓練樣例時,這些權值更新序列給出了對于原來誤差函數梯度下降一個合理近似經過使下降速率值足夠小,能夠使隨機梯度下降以任意程度靠近于真實梯度下降人工神經網絡ppt第28頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬29梯度下降隨機近似(2)標準梯度下降和隨機梯度下降之間關鍵區分標準梯度下降是在權值更新前對全部樣例匯總誤差,而隨機梯度下降權值是經過考查每個訓練樣例來更新在標準梯度下降中,權值更新每一步對多個樣例求和,需要更多計算(?)標準梯度下降,因為使用真正梯度,標準梯度下降對于每一次權值更新經常使用比隨機梯度下降大步長假如標準誤差曲面有多個局部極小值,隨機梯度下降有時可能防止陷入這些局部極小值中實踐中,標準和隨機梯度下降方法都被廣泛應用人工神經網絡ppt第29頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬30梯度下降隨機近似(3)delta法則(增量法則),又稱LMS法則、Adaline法則、Windrow-Hoff法則公式4.10與4.4.2節感知器法則相同和區分delta法則能夠學習非閾值線性單元權,也能夠用來訓練有閾值感知器單元。假如非閾值輸出能夠被訓練到完美擬合這些值,那么閾值輸出也會完美擬合它們即使不能完美地擬合目標值,只要線性單元輸出含有正確符號,閾值輸出就會正確擬合目標值盡管這個過程會得到使線性單元輸出誤差最小化權值,但這些權值不能確保閾值輸出誤差最小化(?)人工神經網絡ppt第30頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬31感知器學習小結感知器法則和delta法則關鍵差異前者依據閾值化感知器輸出誤差更新權值后者依據輸入非閾值化線性組合誤差來更新權值這個差異帶來不一樣收斂特征前者經過有限次迭代收斂到一個能理想分類訓練數據假設,條件是訓練樣例線性可分后者可能經過極長時間,漸近收斂到最小誤差假設,但不論訓練樣例是否線性可分都會收斂人工神經網絡ppt第31頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬32感知器學習小結(2)學習權向量第3種方法是線性規劃線性規劃是解線性不等式方程組一個通用有效方法這種方法僅當訓練樣例線性可分時有解Duda和Hart給出了一個更巧妙適合非線性可分情況方法更大問題是,無法擴展到訓練多層網絡,而delta法則能夠很輕易擴展到多層網絡人工神經網絡ppt第32頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬33多層網絡和反向傳輸算法多層網絡能夠表示種類繁多非線性曲面圖4-5描述了一個經典多層網絡和它決議曲面人工神經網絡ppt第33頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬34可微閾值單元使用什么類型單元來構建多層網絡?多個線性單元連接仍產生線性函數,而咱們希望構建表征非線性函數網絡感知器單元能夠構建非線性函數,但它不連續閾值使它不可微,不適合梯度下降算法咱們需要單元滿足條件輸出是輸入非線性函數輸出是輸入可微函數Sigmoid單元,類似于感知器單元,但基于一個平滑可微閾值函數人工神經網絡ppt第34頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬35可微閾值單元(2)圖4-6sigmoid單元先計算它輸入線性組合,然后應用到一個閾值上,閾值輸出是輸入連續函數

其中

人工神經網絡ppt第35頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬36可微閾值單元(3)sigmoid函數也稱logistic函數擠壓函數輸出范圍是0到1單調遞增導數很輕易用函數本身表示sigmoid函數變型其它易計算導數可微函數增加陡峭性雙曲正切函數人工神經網絡ppt第36頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬37反向傳輸算法用來學習多層網絡權值采取梯度下降方法試圖最小化網絡輸出值和目標值之間誤差平方網絡誤差定義公式,對全部網絡輸出誤差求和

人工神經網絡ppt第37頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬38反向傳輸算法(2)反向傳輸算法面臨學習任務搜索一個巨大假設空間,這個空間由網絡中全部單元全部可能權值定義,得到類似圖4-4誤差曲面在多層網絡中,誤差曲面可能有多個局部極小值,梯度下降僅能確保收斂到局部極小值盡管有這個障礙,已經發覺對于實踐中很多應用,反向傳輸算法都產生了出眾結果人工神經網絡ppt第38頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬39反向傳輸算法(3)表4-2包含兩層sigmoid單元前饋網絡反向傳輸算法BackPropagation(training_examples,,nin,nout,nhidden)training_examples是序偶<,>集合,是網絡輸入值向量,是目標輸出值。是學習速率,nin是網絡輸入數量,nhidden是隱藏層單元數,nout是輸出單元數,從單元i到單元j輸入表示為xji,單元i到單元j權值表示為wji。創建含有nin個輸入,nhidden個隱藏,nout個輸出單元網絡初始化全部網絡權值為小隨機值在碰到終止條件前對于訓練樣例training_examples中每個<,>:把輸入沿網絡前向傳輸把實例輸入網絡,并計算網絡中每個單元u輸出ou使誤差沿網絡反向傳輸對于網絡每個輸出單元k,計算它誤差項kok(1-ok)(tk-ok)對于網絡每個隱藏單元h,計算它誤差項hoh(1-oh)更新每個網絡權值wjiwji+wji,其中wji=jxji人工神經網絡ppt第39頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬40反向傳輸算法(4)表4-2給出反向傳輸算法適合用于包含兩層sigmoid單元分層前饋網絡,而且每一層單元與前一層全部單元相連。表4-2是反向傳輸算法增量梯度下降(或隨機梯度下降)版本使用符號做了以下擴展網絡中每個節點被賦予一個序號,這里節點要么是網絡輸入,要么是網絡中某個單元輸出xji表示節點i到單元j輸入,wji表示對應權值n表示與單元n相關聯誤差項。人工神經網絡ppt第40頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬41表4-2算法解釋從建立一個含有期望數量隱藏單元和輸出單元網絡并初始化全部網絡權值為小隨機數開始給定一個固定網絡結構,算法主循環就對訓練樣例進行重復迭代對于每一個訓練樣例,它應用當前網絡到這個樣例,計算出對這個樣例網絡輸出誤差,然后更新網絡中全部權值對這么梯度下降步驟進行迭代,直到網絡性能到達可接收精度為止人工神經網絡ppt第41頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬42反向傳輸算法梯度下降法則表4-2梯度下降權更新法則與delta訓練法則相同類似delta法則,依照以下三者來更新每一個權學習速率該權值包括輸入值xji該單元輸出誤差不一樣于delta法則地方delta法則中誤差項被替換成一個更復雜誤差項j人工神經網絡ppt第42頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬43反向傳輸算法誤差項輸出單元k誤差項k與delta法則中(tk-ok)相同,但乘上了sigmoid擠壓函數導數ok(1-ok)。隱藏單元h誤差項因為訓練樣例僅對網絡輸出提供了目標值tk,所以缺乏直接目標值來計算隱藏單元誤差值采取以下間接方法計算隱藏單元誤差項:對受隱藏單元h影響每一個單元誤差k進行加權求和,每個誤差k權值為wkh,wkh就是從隱藏單元h到輸出單元k權值。這個權值刻畫了隱藏單元h對于輸出單元k誤差應負責程度。人工神經網絡ppt第43頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬44表4-2算法解釋(2)表4-2算法伴隨每個訓練樣例出現而遞增地更新權,這一點與梯度下降隨機近似算法一致要取得誤差E真實梯度,需要在修改權值之前對全部訓練樣例jxji值求和在經典應用中,權值更新迭代會被重復上千次有很多終止條件能夠用來停頓這個過程迭代次數到了一個固定值時停頓當在訓練樣例上誤差降到某個閾值以下在分離驗證樣例集合上誤差符合某個標準終止條件很主要,太少迭代無法有效地降低誤差,太多迭代會造成對訓練數據過分擬合人工神經網絡ppt第44頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬45增加沖量項因為反向傳輸算法應用如此廣泛,所以已經開發出了很多反向傳輸算法變體修改權值更新法則,使第n次迭代時權值更新個別地依賴于發生在第n-1次迭代時更新,比如wji(n)=jxji+wji(n-1)右側第一項就是表4-2中權值更新法則,第二項被稱為沖量項梯度下降搜索軌跡就像一個球沿誤差曲面滾下,沖量使球從一次迭代到下一次迭代時以一樣方向滾動沖量有時會使這個球滾過誤差曲面局部極小值或平坦區域沖量也含有在梯度不變區域逐步增大搜索步長效果,從而加緊收斂人工神經網絡ppt第45頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬46學習任意無環網絡表4-2算法能夠簡單地推廣到任意深度前饋網絡第m層單元rr值由更深第m+1層值依據下式計算將這個算法推廣到任何有向無環結構也一樣簡單,而不論網絡中單元是否被排列在統一層上,計算任意內部單元法則是:,Downstream(r)是在網絡中單元r直接下游單元集合,即輸入中包含r輸出全部單元人工神經網絡ppt第46頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬47反向傳輸法則推導隨機梯度下降算法迭代處理訓練樣例,每次處理一個,對于每個訓練樣例d,利用關于這個樣例誤差Ed梯度修改權值人工神經網絡ppt第47頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬48符號說明xji,單元j第i個輸入wji,與xji相關聯權值netj,單元j輸入加權和oj,單元j計算出輸出tj,單元j目標輸出,sigmoid函數outputs,網絡最終一層輸出單元集合Downstream(j),單元j輸出抵達單元集合人工神經網絡ppt第48頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬49隨機梯度下降法則推導,分情況討論推導輸出單元人工神經網絡ppt第49頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬50隨機梯度下降法則推導(2)隱藏單元人工神經網絡ppt第50頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬51收斂性和局部極小值對于多層網絡,誤差曲面可能含有多個不一樣局部極小值,梯度下降可能陷入這些局部極小值中任何一個對于多層網絡,反向傳輸算法僅能確保收斂到誤差E某個局部極小值,不一定收斂到全局最小誤差盡管缺乏對收斂到全局最小誤差確保,反向傳輸算法在實踐中仍是非常有效函數迫近算法人工神經網絡ppt第51頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬52收斂性和局部極小值(2)網絡權越多,誤差曲面維數越多,也就越可能為梯度下降提供更多逃逸路線考慮伴隨訓練中迭代次數增加網絡權值演化方式假如把網絡權值初始化為靠近于0值,那么在早期梯度下降步驟中,網絡將表現為一個非常平滑函數,近似為輸入線性函數,這是因為sigmoid函數本身在權值靠近0時靠近線性僅當權值增加一定時間后,它們才會抵達能夠表示高度非線性網絡函數程度,能夠預期在這個能表示更復雜函數權空間區域存在更多局部極小值不過當權抵達這一點時,它們已經足夠靠近全局最小值,即便它是這個區域局部最小值也是能夠接收人工神經網絡ppt第52頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬53收斂性和局部極小值(3)用來緩解局部極小值問題啟發式規則為梯度更新法則加一個沖量,能夠帶動梯度下降過程,沖過狹窄局部極小值(標準上,也可能沖過狹窄全局最小值)使用隨機梯度下降而不是真正梯度下降。隨機近似對于每個訓練樣例沿一個不一樣誤差曲面有效下降,這些不一樣誤差曲面通常有不一樣局部極小值,這使得下降過程不太可能陷入一個局部極小值使用一樣數據訓練多個網絡,但用不一樣隨機權值初始化每個網絡。假如不一樣訓練產生不一樣局部極小值,那么對分離驗證集合性能最好那個網絡將被選中,或者保留全部網絡,輸出是全部網絡輸出平均值人工神經網絡ppt第53頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬54前饋網絡表征能力布爾函數:任何布爾函數能夠被含有兩層單元網絡準確表示,盡管在最壞情況下所需隱藏單元數量伴隨網絡輸入數量增加成指數級增加??紤]下面通用方案:對于每一個可能輸入向量,創建不一樣隱藏單元,并設置它權值使當且僅當這個特定向量輸入到網絡時該單元被激活,這么就產生了一個對于任意輸入僅有一個單元被激活隱藏層,然后把輸出單元實現為一個僅由所希望輸入模式激活或門。人工神經網絡ppt第54頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬55前饋網絡表征能力(2)連續函數:每個有界連續函數能夠由一個兩層網絡以任意小誤差迫近。這個結論適合用于在隱藏層使用sigmoid單元、在輸出層使用(非閾值)線性單元網絡。所需隱藏單元數量依賴于要迫近函數。任意函數:任意函數能夠被一個有三層單元網絡以任意精度迫近。兩個隱藏層使用sigmoid單元,輸出層使用線性單元,每層所需單元數不確定。證實方法:首先說明任意函數能夠被許多局部化函數線性組合迫近,這些局部化函數值除了某個小范圍外都為0;然后說明兩層sigmoid單元足以產生良好局部迫近注意:梯度下降從一個初始值開始,所以搜索范圍里網絡權向量可能不包含全部權向量人工神經網絡ppt第55頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬56假設空間搜索和歸納偏置反向傳輸算法假設空間是n個網絡權值形成n維歐氏空間。這個空間是連續,與決議樹學習和其它基于離散表示方法假設空間不一樣假設空間連續性以及誤差E關于假設連續參數可微,造成了一個定義良好誤差梯度,為最正確假設搜索提供了一個非常有用結構。準確地刻畫出反向傳輸學習歸納偏置是有難度,它依賴于梯度下降搜索和權空間覆蓋可表征函數空間方式相互作用性把這一偏置粗略地刻畫為在數據點之間平滑插值。假如給定兩個正例,它們之間沒有反例,反向傳輸算法會傾向于把這兩點之間點也標識為正例人工神經網絡ppt第56頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬57隱藏層表示反向傳輸算法一個迷人特征是:它能夠在網絡內部隱藏層發覺有用中間表示訓練樣例僅包含網絡輸入和輸出,權值調整過程能夠自由地設置權值,來定義任何隱藏單元表示,這些隱藏單元表示在使誤差E到達最小時最有效。引導反向傳輸算法定義新隱藏層特征,這些特征在輸入中沒有明確表示出來,但能捕捉輸入實例中與學習目標函數最相關特征多層網絡在隱藏層自動發覺有用表示能力是ANN學習一個關鍵特征。允許學習器創造出設計者沒有明確引入特征。網絡中使用單元層越多,就能夠創造出越復雜特征人工神經網絡ppt第57頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬58泛化、過分擬合和停頓判據權值更新算法終止條件一個選擇是,對訓練樣例誤差降低至某個預先定義閾值之下這不是一個好策略,因為反向傳輸算法輕易過分擬合訓練樣例,降低對于其它未見實例泛化精度泛化精度:網絡擬合訓練數據外實例精度圖4-9,盡管在訓練樣例上誤差連續下降,但在驗證樣例上測量到誤差先下降,后上升。因為這些權值擬合了訓練樣例“特異性”,而這個特異性對于樣例普通分布沒有代表性。ANN中大量權值參數為擬合這么“特異性”提供了很大自由度人工神經網絡ppt第58頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬59過分擬合為何過分擬合發生在迭代后期,而不是早期?構想網絡權值是被初始化為小隨機值,使用這些幾乎一樣權值僅能描述非常平滑決議面伴隨訓練進行,一些權值開始增加,以降低在訓練數據上誤差,同時學習到決議面復雜度也在增加假如權值調整迭代次數足夠多,反向傳輸算法可能會產生過分復雜決議面,擬合了訓練數據中噪聲和訓練樣例中沒有代表性特征人工神經網絡ppt第59頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬60過分擬合處理方法權值衰減它在每次迭代過程中以某個小因子降低每個權值,這等效于修改E定義,加入一個與網絡權值總量對應處罰項,此方法動機是保持權值較小,從而使學習過程向著復雜決議面反方向偏置驗證數據一個最成功方法是在訓練數據外再為算法提供一套驗證數據,應該使用在驗證集合上產生最小誤差迭代次數,不是總能顯著地確定驗證集合何時到達最小誤差人工神經網絡ppt第60頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬61過分擬合處理方法(2)普通而言,過分擬合是一個棘手問題交叉驗證方法在可取得額外數據提供驗證集合時工作得很好,不過小訓練集合過分擬合問題更為嚴重k-fold交叉方法把訓練樣例分成k份,然后進行k次交叉驗證過程,每次使用不一樣一份作為驗證集合,其余k-1份合并作為訓練集合。每個樣例會在一次試驗中被用作驗證樣例,在k-1次試驗中被用作訓練樣例每次試驗中,使用上面討論交叉驗證過程來決定在驗證集合上取得最正確性能迭代次數,然后計算這些迭代次數均值最終,運行一次反向傳輸算法,訓練全部m個實例并迭代次人工神經網絡ppt第61頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬62舉例:人臉識別訓練樣例20個不一樣人攝影圖像每個人大約32張圖像不一樣表情高興、沮喪、憤恨、中性不一樣方向左、右、正前、上不一樣穿戴是否帶眼鏡共624幅灰度圖像分辨率為120x128,每個像素使用0(黑)到255(白)灰度值描述任務:學習圖像中人臉朝向人工神經網絡ppt第62頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬63人臉識別——設計要素輸入編碼ANN輸入必定是圖像某種表示,那么設計關鍵是怎樣編碼這幅圖像比如,能夠對圖像進行預處理,分解出邊緣、亮度一致區域或其它局部圖像特征,然后把這些特征輸入網絡,問題是造成每幅圖像有不一樣數量特征參數,而ANN含有固定數量輸入單元把圖像編碼成固定30x32像素亮度值,每個像素對應一個網絡輸入,把范圍是0到255亮度值按百分比線性縮放到0到1區間內,以使網絡輸入和隱藏單元、輸出單元在一樣區間取值。人工神經網絡ppt第63頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬64人臉識別——設計要素(2)輸出編碼ANN必須輸出4個值中一個來表示輸入圖像中人臉朝向能夠使用單一輸出單元來編碼這4種情況這里使用4個不一樣輸出單元,每一個對應4種可能朝向中一個,取含有最高值輸出作為網絡預測值。稱為1-of-n輸出編碼選擇1-of-n原因為網絡表示目標函數提供了更大自由度最高值輸出和次高值輸出間差異能夠作為對網絡預測置信度人工神經網絡ppt第64頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬65人臉識別——設計要素(3)輸出單元目標值一個顯而易見方法,<1,0,0,0>...這里使用方法,<0.9,0.1,0.1,0.1>...防止使用0和1作為目標值原因sigmoid單元對于有限權值不能產生這么輸出假如企圖訓練網絡來準確匹配目標值0和1,梯度下降將會迫使權值無限增加0.1和0.9是sigmoid單元在有限權值情況下能夠完成人工神經網絡ppt第65頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬66人臉識別——設計要素(4)網絡結構圖網絡包含多少個單元以及怎樣互連?最普遍結構是分層網絡,一層每個單元向前連接到下一層每一個單元當前采取了包含兩層sigmoid單元標準結構隱藏單元數量3個,到達90%精度,訓練時間約5分鐘30個,提升1~2個百分點,訓練時間約1個小時實踐發覺,需要某個最小數量隱藏單元來準確地學習目標函數,而且超出這個數量多出隱藏單元不會顯著地提升泛化精度假如沒有使用交叉驗證,那么增加隱藏單元數量經常會增加過分擬合訓練數據傾向,從而降低泛化精度人工神經網絡ppt第66頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬67人臉識別——設計要素(5)學習算法其它參數學習速率設定為0.3,沖量設定為0.3賦予這兩個參數更低值會產生大致相當泛化精度,但需要更長訓練時間假如賦予更高值,訓練將不能收斂到一個含有可接收誤差網絡適用完全梯度下降輸出單元權值被初始化為小隨機值輸入單元權值被初始化為0訓練迭代次數選擇能夠經過分割可用數據為訓練集合和驗證集合來實現最終選擇網絡是對驗證集合精度最高網絡最終匯報精度是在沒有對訓練產生任何影響第三個集合——測試集合上測量得到人工神經網絡ppt第67頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬68學習到隱藏層表示圖中緊挨人臉圖像下4個矩形,每個矩形描繪了網絡中4個輸出單元中一個權值,每個矩形中4個小方形表示和這個輸出單元關聯4個權值隱藏單元權值顯示在輸出單元下邊,每個隱藏單元接收全部30x32個像素輸入。與這些輸入關聯30x32個權值被顯示在它們對應像素位置針對每一個訓練樣例,梯度下降迭代100次后網絡權值顯示在圖下部。假如一個人臉是轉向他右面,那么他亮度高皮膚會大致與這個隱藏單元中較大正值對齊,同時他亮度低頭發會大致與負權值對齊,這造成此單元輸出一個較大值,一樣圖像會使第3個隱藏單元輸出一個靠近0值。人工神經網絡ppt第68頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬69其它可選誤差函數為權值增加一個處罰項把一個伴隨權向量幅度增加項加入到E中,這造成梯度下降搜尋較小權值向量,從而減小過分擬合風險,等價于使用權衰減策略

對誤差增加一項目標函數斜率或導數一些情況下,訓練信息中不但有目標值,而且還相關于目標函數導數

人工神經網絡ppt第69頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬70其它可選誤差函數(2)使網絡對目標值交叉熵最小化比如依據借貸申請者年紀和存款余額,預測他是否會還貸,目標函數最好以申請者還貸概率形式輸出,而不是輸出明確0和1。在這種情況下,能夠證實最小化交叉熵網絡能夠給出最好概率預計。交叉熵定義以下:

第6章討論了何時及為何最可能網絡假設就是使交叉熵最小化假設,并推導了對應sigmoid單元梯度下降權值調整法則,還描述了在什么條件下最可能假設就是使誤差平方和最小化假設。人工神經網絡ppt第70頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬71其它可選誤差函數(3)經過權值共享改變有效誤差函數把與不一樣單元或輸入相關聯權“捆綁在一起”,強迫不一樣網絡權值取一致值,通常是為了實施人類設計者事先知道某個約束約束了假設潛在空間,減小了過分擬合風險實現方法,首先在共享權值每個單元分別更新各個權值,然后取這些權值平均,再用這個平均值替換每個需要共享權值。被共享權值比沒有共享權值更有效地適應一個不一樣誤差函數人工神經網絡ppt第71頁.12.18機器學習-人工神經網絡作者:Mitchell譯者:曾華軍等講者:陶曉鵬72其它可選誤差最小化過程梯度下降是搜尋使誤差函數最小化假設最通用方法之一,但不是最高效不妨把權值更新方法看作是要決定這么兩個問題:選擇一個改變當前權值向量方向(梯度負值)選擇要移動距離(學習速率)線搜索,每當選定了一條確定權值更新方向路線,那么權更新距離是經過沿這條線尋找誤差函數最小值來選擇共軛梯度,進行一系列線搜索來搜索誤差曲面最小值,這一系列搜索第一步依然使用梯度反方向,在以后每一步中,選擇使誤差梯度分量剛好為0并保持為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論