神經網絡-周志華西瓜書_第1頁
神經網絡-周志華西瓜書_第2頁
神經網絡-周志華西瓜書_第3頁
神經網絡-周志華西瓜書_第4頁
神經網絡-周志華西瓜書_第5頁
已閱讀5頁,還剩48頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

高斌斌第五章神經網絡神經網絡發展史第一階段1943年,McCulloch和Pitts提出第一個神經元數學模型,即M-P模型,并從原理上證明了人工神經網絡能夠計算任何算數和邏輯函數1949年,Hebb發表《TheOrganizationofBehavior》一書,提出生物神經元學習的機理,即Hebb學習規則1958年,Rosenblatt提出感知機網絡(Perceptron)模型和其學習規則1960年,Widrow和Hoff提出自適應線性神經元(Adaline)模型和最小均方學習算法1969年,Minsky和Papert發表《Perceptrons》一書,指出單層神經網路不能解決非線性問題,多層網絡的訓練算法尚無希望.這個論斷導致神經網絡進入低谷神經網絡發展史第二階段1982年,物理學家Hopfield提出了一種具有聯想記憶、優化計算能力的遞歸網絡模型,即Hopfield網絡1986年,Rumelhart等編輯的著作《ParallelDistributedProceesing:ExplorationsintheMicrostructuresofCognition》報告了反向傳播算法1987年,IEEE在美國加州圣地亞哥召開第一屆神經網絡國際會議(ICNN)90年代初,伴隨統計學習理論和SVM的興起,神經網絡由于理論不夠清楚,試錯性強,難以訓練,再次進入低谷神經網絡發展史第三階段2006年,Hinton提出了深度信念網絡(DBN),通過“預訓練+微調”使得深度模型的最優化變得相對容易2012年,Hinton組參加ImageNet競賽,使用CNN模型以超過第二名10個百分點的成績奪得當年競賽的冠軍伴隨云計算、大數據時代的到來,計算能力的大幅提升,使得深度學習模型在計算機視覺、自然語言處理、語音識別等眾多領域都取得了較大的成功神經網絡發展史第五章神經網絡主要內容5.1神經元模型5.2感知機與多層網絡5.3

誤差逆傳播算法5.4全局最小與局部最小5.5其他常見神經網絡5.6深度學習第五章神經網絡主要內容5.1神經元模型5.2感知機與多層網絡5.3

誤差逆傳播算法5.4全局最小與局部最小5.5其他常見神經網絡5.6深度學習5.1神經元模型神經網絡的定義“神經網絡是由具有適應性的簡單單元組成的廣泛并行互聯的網絡,它的組織能夠模擬生物神經系統對真實世界物體所作出的反應”

[Kohonen,1988]機器學習中的神經網絡通常是指“神經網絡學習”

或者機器學習與神經網絡兩個學科的交叉部分神經元模型即上述定義中的“簡單單元”是神經網絡的基本成分生物神經網絡:每個神經元與其他神經元相連,當它“興奮”時,就會向相連的神經云發送化學物質,從而改變這些神經元內的電位;如果某神經元的電位超過一個“閾值”,那么它就會被激活,即“興奮”起來,向其它神經元發送化學物質

M-P神經元模型[McCullochandPitts,1943]輸入:來自其他

個神經云傳遞過來的輸入信號處理:輸入信號通過帶權重的連接進行傳遞,神經元接受到總輸入值將與神經元的閾值進行比較輸出:通過激活函數的處理以得到輸出5.1神經元模型5.1神經元模型激活函數理想激活函數是階躍函數,0表示抑制神經元而1表示激活神經元階躍函數具有不連續、不光滑等不好的性質,常用的是Sigmoid函數

第五章神經網絡主要內容5.1神經元模型5.2感知機與多層網絡5.3

誤差逆傳播算法5.4全局最小與局部最小5.5其他常見神經網絡5.6深度學習5.2感知機與多層網絡感知機感知機由兩層神經元組成,輸入層接受外界輸入信號傳遞給輸出層,輸出層是M-P神經元(閾值邏輯單元)

感知機能夠容易地實現邏輯與、或、非運算

“與”:令,則,僅在時,

.“或”:令,則

,僅在或者

時,

.“非”:令

,

當時,;當,

.5.2感知機與多層網絡感知機學習給定訓練數據集,權重與閾值可以通過學習得到感知機學習規則

對訓練樣例,若當前感知機的輸出為

,則感知機權重調整規則為:其中稱為學習率

若感知機對訓練樣例預測正確,則感知機不發生變化;否則根據錯誤程度進行權重的調整.5.2感知機與多層網絡感知機求解異、或、非問題5.2感知機與多層網絡感知機求解異、或、非問題5.2感知機與多層網絡感知機學習能力若兩類模式線性可分,則感知機的學習過程一定會收斂;否感知機的學習過程將會發生震蕩

[MinskyandPapert,1969]單層感知機的學習能力非常有限,只能解決線性可分問題事實上,與、或、非問題是線性可分的,因此感知機學習過程能夠求得適當的權值向量.而異或問題不是線性可分的,感知機學習不能求得合適解

對于非線性可分問題,如何求解?

多層感知機5.2感知機與多層網絡多層感知機解決異或問題的兩層感知機輸出層與輸入層之間的一層神經元,被稱之為隱層或隱含層,隱含層和輸出層神經元都是具有激活函數的功能神經元5.2感知機與多層網絡多層前饋神經網絡定義:每層神經元與下一層神經元全互聯,神經元之間不存在同層連接也不存在跨層連接前饋:輸入層接受外界輸入,隱含層與輸出層神經元對信號進行加工,最終結果由輸出層神經元輸出學習:根據訓練數據來調整神經元之間的“連接權”以及每個功能神經元的“閾值”多層網絡:包含隱層的網絡

第五章神經網絡主要內容5.1神經元模型5.2感知機與多層網絡5.3

誤差逆傳播算法5.4全局最小與局部最小5.5其他常見神經網絡5.6深度學習5.3誤差逆傳播算法誤差逆傳播算法(ErrorBackPropagation,簡稱BP)是最成功的訓練多層前饋神經網絡的學習算法.給定訓練集 ,即輸入示例由

個屬性描述,輸出

維實值向量. 為方便討論,給定一個擁有

個輸入神經元,個輸出神經元,個隱層神經元的多層前向前饋網絡結構.記號:

:輸出層第

個神經元閾值;

:隱含層第

個神經元閾值;

:輸入層與隱層神經元之間的連接權重;

:隱層與輸出層神經元之間的連接權重;

5.3誤差逆傳播算法

對于樣例,假設網絡的實際輸出為前向計算

step1:step2:

step3:參數數目權重:,閾值:,

因此網絡中需要個參數需要優化參數優化

BP是一個迭代學習算法,在迭代的每一輪中采用廣義的感知機學習規則對參數進行更新估計,任意的參數的更新估計式為5.3誤差逆傳播算法BP學習算法

BP算法基于梯度下降策略,以目標的負梯度方向對參數進行調整.對誤差,給定學習率5.3誤差逆傳播算法BP學習算法類似的可以推導出:其中學習率控制著算法每一輪迭代中的更新步長,若太長則讓容易震蕩,太小則收斂速度又會過慢.5.3誤差逆傳播算法BP學習算法5.3誤差逆傳播算法BP算法實驗5.3誤差逆傳播算法標準BP算法每次針對單個訓練樣例更新權值與閾值.參數更新頻繁,不同樣例可能抵消,需要多次迭代.累計BP算法其優化的目標是最小化整個訓練集上的累計誤差讀取整個訓練集一遍才對參數進行更新,參數更新頻率較低.實際應用但在很多任務中,累計誤差下降到一定程度后,進一步下降會非常緩慢,這時標準BP算法往往會獲得較好的解,尤其當訓練集非常大時效果更明顯.5.3誤差逆傳播算法多層前饋網絡表示能力只需要一個包含足夠多神經元的隱層,多層前饋神經網絡就能以任意精度逼近任意復雜度的連續函數

[Horniketal.,1989]多層前饋網絡局限神經網絡由于強大的表示能力,經常遭遇過擬合.表現為:訓練誤差持續降低,但測試誤差卻可能上升如何設置隱層神經元的個數仍然是個未決問題.實際應用中通常使用“試錯法”調整緩解過擬合的策略早停:在訓練過程中,若訓練誤差降低,但驗證誤差升高,則停止訓練

正則化:在誤差目標函數中增加一項描述網絡復雜程度的部分,例如連接權值與閾值的平方和第五章神經網絡主要內容5.1神經元模型5.2感知機與多層網絡5.3

誤差逆傳播算法5.4全局最小與局部最小5.5其他常見神經網絡5.6深度學習5.4全局最小與局部極小對和,若存在使得都有成立,則為局部極小解;若度參數空間中任意的,都有,則為全局最小解.兩者對應的

分別稱為誤差函數的局部最小解和全局最小值.顯然參數空間梯度為零的點,只要氣誤差函數值小于鄰點的誤差函數值,就是局部極小點可能存在多個局部極小值,但卻只會有一個全局極最小值5.4全局最小與局部極小“跳出”局部最小的策略基于梯度的搜索是使用最為廣泛的參數尋優方法.如果誤差函數僅有一個局部極小,那么此時找到的局部極小就是全局最小;然而,如果誤差函數具有多個局部極小,則不能保證找到的解是全局最小.在現實任務中,通常采用以下策略“跳出”局部極小,從而進一步達到全局最小.多組不同的初始參數優化神經網絡,選取誤差最小的解作為最終參數.模擬退火技術[AartsandKorst,1989].每一步都以一定的概率接受比當前解更差的結果,從而有助于跳出局部極小.隨機梯度下降.與標準梯度下降法精確計算梯度不同,隨機梯度下降法在計算梯度時加入了隨機因素.遺傳算法[Goldberg,1989].遺傳算法也常用來訓練神經網絡以更好地逼近全局極小.第五章神經網絡主要內容5.1神經元模型5.2感知機與多層網絡5.3

誤差逆傳播算法5.4全局最小與局部最小5.5其他常見神經網絡5.6深度學習5.5其他常見神經網絡RBF網絡[BroomheadandLowe,1988]RBF網絡是一種單隱層前饋神經網絡,它使用徑向基函數作為隱層神經元激活函數,而輸出層則是隱層神經元輸出的線性組合.RBF網絡模型假定輸入為維的向量,輸出為實值,則RBF網絡可以表示為其中為隱層神經元的個數,和分別是第神經元對應的中心和權重,是徑向基函數.常用的高斯徑向基函數形如5.5其他常見神經網絡RBF網絡RBF網絡性質具有足夠多隱層神經元RBF神經網絡能以任意精度逼近任意連續函數.

[ParkandSandberg,1991]RBF網絡訓練Step1:確定神經元中心,常用的方式包括隨機采樣、聚類等

Step2:利用BP算法等確定參數5.5其他常見神經網絡ART網絡競爭學習競爭學習是神經網絡中一種常用的無監督學習策略,在使用該策略時,網絡的輸出神經元相互競爭,每一時刻僅有一個神經元被激活,其他神經元的狀態被抑制.ART網絡[CarpenterandGrossberg,1987]ART網絡是競爭學習的重要代表ART網絡由比較層、識別層、識別閾值和重置模塊構成

比較層負責接收輸入樣本,并將其傳送給識別層神經元識別層每個神經元對應一個模式類,神經元的數目可在訓練過程中動態增長以增加新的模式類5.5其他常見神經網絡ART網絡ART網絡性能依賴于識別閾值識別閾值高時,輸入樣本將會分成比較多、得到較精細分類識別閾值低時,輸入樣本將會分成比較少、產生較粗略分類ART網絡的優勢ART較好的解決了競爭學習中的“可塑性-穩定性窘境”,可塑性是指神經網絡要有學習新知識的能力;穩定性是指神經網絡在學習新知識時要保持對舊知識的記憶.ART網絡可以增量學習或在線學習ART網絡的發展

ART2網絡、FuzzyART網絡、ARTMAP網絡5.5其他常見神經網絡SOM網絡[Kohonen,1982]SOM網絡是一種競爭型的無監督神經網絡,它能將高維數據映射到低維空間(通常為2維),同時保持輸入數據在高維空間的拓撲結構,即將高維空間中相似的樣本點映射到網絡輸出層中鄰近神經元.如圖,SOM網絡中的輸出層神經元以矩陣方式排列在二維空間中,每個神經元都擁有一個權值向量,網絡在接收輸入向量后,將會確定輸出層獲勝神經元,它決定了該輸入向量在低維空間中的位置.5.5其他常見神經網絡SOM網絡[Kohonen,1982]SOM網絡訓練Step1:接受到一個訓練樣本后,每個輸出層神經元計算該樣本與自身攜帶的權向量之間的距離,距離最近的神經元成為競爭獲勝者Step2:最佳匹配單元及其近鄰神經元的權值將被調整,使得這些權向量與當前輸入樣本的距離縮小5.5其他常見神經網絡級聯相關網絡[FahlmanandLebiere1990]級聯相關網絡不僅利用訓練樣本優化連接權值,閾值參數,將網絡的結構也當做學習的目標之一,希望在訓練過程中找到適合數據的網絡結構.級聯與相關級聯:建立層次連接的層級結構相關:最大化神經元的輸出與網絡誤差時間的相關性來訓練相關參數網絡優化演示5.5其他常見神經網絡Elman網絡[Elman1990]遞歸神經網絡允許網絡中出現環形結構,使得神經元的輸出反饋回來作為輸入信號t

時刻網絡的輸出狀態:由

t

時刻的輸入狀態和t-1時刻的網絡狀態決定Elman網絡Elamn網絡是最常用的遞歸神經網絡之一,結構如圖所示,這種結構與前饋神經網絡很相似,但是隱層神經元的輸出被反饋回來,與下一時刻輸入層神經元提供的信號一起,作為隱層神經元在下一時刻的輸入訓練算法推廣的BP算法.

[Pineda,1987]5.5其他常見神經網絡Boltzmann機能量模型神經網絡中有一類模型為網絡定義一個“能量”,能量最小化時網絡達到理想狀態,而網絡的訓練就是在最小化這個能量函數.Boltzmann機Boltzmann

機就是一種基于能量的模型結構:顯層與隱層顯層:數據的輸入輸出隱層:數據的內在表達神經元布爾型,即只能取0和1兩種狀態,其中1表示激活,0表示抑制.5.5其他常見神經網絡Boltzmann機[Ackleyetal.,1985]Boltzmann機能量令狀態向量,則其對應的Boltzmann機能量定義為其中表示兩個神經元之間的連接權值,表示神經元的閾值.Boltzmann分布網絡中的神經元以任意不依賴與輸入值得順序進行更新,則網絡最終將達到

Boltzmann分布,此時狀態向量出現的概率將僅由其能量與所有可能狀態向量的能量確定:5.5其他常見神經網絡Boltzmann機[Ackleyetal.,1985]Boltzmann

機訓練將每個訓練樣本視為一個狀態向量,使其出現的概率盡可能大

標準的Boltzmann

機是一個全連接圖,訓練網絡的復雜度很高,這使其難以用于解決現實任務現實中常用受限Boltzmann

機,簡稱RBM.RBM僅保留顯層與隱層之間的連接,從而將Boltzmann機結構有完全圖簡化為二部圖

5.5其他常見神經網絡受限Boltzmann機[Ackleyetal.,1985]受限Boltzmann機常用“對比散度”(簡稱:CD)算法

[Hinton,2010]來進行訓練

假定網絡中有個顯層神經元個隱層神經元,令和分別是顯層與隱層的狀態向量,由于同一層內不存在連接,有CD算法對每個訓練樣本,先計算出隱層神經元狀態的概率分布,然后根據這個概率分布采樣得到;類似的方法從中產生,再從

中產生;連接權重的更新公式為:第五章神經網絡主要內容5.1神經元模型5.2感知機與多層網絡5.3

誤差逆傳播算法5.4全局最小與局部最小5.5其他常見神經網絡5.6深度學習5.6深度學習深度學習模型典型的深度學習模型就是很深層的神經網絡.模型復雜度增加隱層神經元的數目(模型寬度)增加隱層數目(模型深度)從增加模型復雜度的角度看,增加隱層的數目比增加隱層神經元的數目更有效.這是因為增加隱層數不僅增加額擁有激活函數的神經元數目,還增加了激活函數嵌套的層數.復雜模型難點多隱層網絡難以直接用經典算法(例如標準BP算法)進行訓練,因為誤差在多隱層內逆傳播時,往往會”發散”而不能收斂到穩定狀態.5.6深度學習復雜模型訓練方法預訓練+微調預訓練:監督逐層訓練是多隱層網絡訓練的有效手段,每次訓練一層隱層結點,訓練時將上一層隱層結點的輸出作為輸入,而本層隱結點的輸出作為下一層隱結點的輸入,這稱為”預訓練”.微調:在預訓練全部完成后,再對整個網絡進行微調訓練.微調一般使用BP算法.例子:深度信念網絡[Hintonetal.,2006]結構:每一層都是一個受限Boltzmann機訓練方法:無監督預訓練+BP微調分析預訓練+微調的做法可以視為將大量參數分組,對每組先找到局部看起來比較好的設置,然后再基于這些局部較優的結果聯合起來進行全局尋優.5.6深度學習復雜模型訓練方法權共享一組神經元使用相同的連接權值.權共享策略在卷積神經網絡(CNN)[Le

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論