




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、深度學習(Deep Learning)及其優化方法1/25報告人:胡海根報告人:胡海根E-mail: 浙江工業大學計算機學院Outline 深度學習基本介紹Loss Function一般形式及數學概念一般形式及數學概念深度學習梯度優化方法深度學習梯度優化方法深度學習優化方法深度學習優化方法2/25深度學習的概念深度學習的概念3/25u什么是deep learning? 深度學習:一種基于無監督特征學習和特征層次結構的學習方法。 本質:通過構建多隱層的模型和海量訓練數據,來學習更有用的特征,從而最終提升分類或預測的準確性。u含多隱層的多層感知器就是一種深度學習結構。DL訓練過程訓練過程4/25u
2、深度學習的基本思想: 對于Deep Learning,需要自動地學習特征,假設有一堆輸入I,輸出是O,設計一個系統S(有n層),形象地表示為: I =S1=S2=.=Sn = O,通過調整系統中參數,使得它的輸出仍然是輸入I,那么就可以自動地獲取得到輸入I的一系列層次特征,即S1,., Sn。u用自下而上的無監督學習 1)逐層構建單層神經元。 2)每層采用wake-sleep算法進行調優。每次僅調整一層,逐層調整。5/25u第二步:自頂向下的監督學習 這一步是在第一步學習獲得各層參數進的基礎上,在最頂的編碼層添加一個分類器(如,SVM等),而后通過帶標簽數據的監督學習,利用梯度下降法去微調整個
3、網絡參數。DL訓練過程訓練過程6/25u深度學習的具體模型及方法:u1、自動編碼器( AutoEncoder )u2、稀疏自動編碼器(Sparse AutoEncoder)u3、限制波爾茲曼機(Restricted Boltzmann Machine)u4、深信度網絡(Deep Belief Networks)u5、卷積神經網絡(Convolutional Neural Networks)DL訓練過程訓練過程自動編碼器自動編碼器7/25u1、自動編碼器( AutoEncoder )通過調整encoder和decoder的參數,使得重構誤差最小,就得到了輸入input信號的第一個表示了,也就是編
4、碼code了。u因為是無標簽數據,所以誤差的來源就是直接重構后與原輸入相比得到。稀疏自動編碼器稀疏自動編碼器8/25u如上圖,其實就是限制每次得到的表達code盡量稀疏。因為稀疏的表達往往比其他的表達要有效。u2、稀疏自動編碼器(Sparse AutoEncoder)AutoEncoder的基礎上加上L1的Regularity限制(L1主要是約束每一層中的節點中大部分都要為0,只有少數不為0),就可以得到Sparse AutoEncoder法。RBM9/25u3、限制波爾茲曼機(RBM) 定義:假設有一個二部圖,同層節點之間沒有鏈接,一層是可視層,即輸入數據層(v),一層是隱藏層(h),如果假
5、設所有的節點都是隨機二值(0,1)變量節點,同時假設全概率分布p(v,h)滿足Boltzmann分布,稱這個模型是RBM。RBM10/25u給定隱層h的基礎上,可視層的概率確定:(可視層節點之間是條件獨立的)u給定可視層v的基礎上,隱層的概率確定:u給定一個滿足獨立同分布的樣本集:D=v(1), v(2), v(N),我們需要學習參數=W,a,b。 最大似然估計:對最大對數似然函數求導,就可以得到L最大時對應的參數W了。DBN11/25uDBNs由多個限制玻爾茲曼機(RBM)層組成,一個典型的神經網絡類型如下圖所示。CNN12/25u5、卷積神經網絡(Convolutional Neural
6、Networks)卷積神經網絡是一個多層的神經網絡,每層由多個二維平面組成,而每個平面由多個獨立神經元組成。CNNs是第一個真正成功訓練多層網絡結構的學習算法。核心思想:局部感受野、權值共享以及時間或空間子采樣這三種結構思想結合起來獲得某種程度的位移、尺度、形變不變性。Loss Function一般形式一般形式13/25Loss Function一般形式一般形式14/25u回歸函數及目標函數u以均方誤差作為目標函數(損失函數),目的是使其值最小化,用于優化上式。數學概念數學概念15/251、梯度(一階導數)u某一點的梯度方向是在該點坡度最陡的方向,而梯度的大小告訴我們坡度到底有多陡;u對于一個
7、含有 n 個變量的標量函數,即函數輸入一個 n 維 的向量,輸出一個數值,梯度可以定義為:數學概念數學概念16/252、Hesse 矩陣(二階導數)uHesse 矩陣常被應用于牛頓法解決的大規模優化問題,主要形式如下:u當 f(x) 是下列形式:其中 x為列向量,A 是 n 階對稱矩陣,b 是 n 維列向量, c 是常數。f(x) 梯度是 Ax+b, Hesse 矩陣等于 A。數學概念數學概念17/253、Jacobian 矩陣uJacobian 矩陣實際上是向量值函數的梯度矩陣,假設F:RnRm 是一個從n維歐氏空間轉換到m維歐氏空間的函數。這個函數由m個實函數組成: u這些函數的偏導數(如
8、果存在)可以組成一個m行n列的矩陣(m by n),這就是所謂的雅可比矩陣:優化方法優化方法18/251、Gradient DescentuGradient descent(steepest descent),也叫批量梯度下降法Batch Gradient Descent,BSD,利用一階的梯度信息找到函數局部最優解的一種方法,主要迭代公式如下: 其中, 是第 k 次迭代我們選擇移動的方向, 是第 k 次迭代用 line search 方法選擇移動的距離,每次移動的距離系數可以相同,也可以不同,有時候我們也叫學習率(learning rate)。kkkkpxx1kpk優化方法優化方法19/25
9、1、Gradient Descentu該方法利用目標函數的局部性質,得到局部最優解,具有一定的“盲目性”,如果目標函數是一個凸優化問題,那么局部最優解就是全局最優解;u每一次迭代的移動方向都與出發點的等高線垂直,此外,鋸齒現象( zig-zagging)將會導致收斂速度變慢:優化方法優化方法20/252、Newtons methodu牛頓法則是利用局部的一階和二階偏導信息,推測整個目標函數的形狀;u進而可以求得出近似函數的全局最小值,然后將當前的最小值設定近似函數的最小值;u相比最速下降法,牛頓法帶有一定對全局的預測性,收斂性質也更優良。優化方法優化方法21/252、Newtons metho
10、du推導過程如下: u利用 Taylor 級數求得原目標函數的二階近似:u把 x 看做自變量,所有帶有 xk 的項看做常量,令一階導數為 0 ,即可求近似函數的最小值:即:u 將當前的最小值設定近似函數的最小值(或者乘以步長)。優化方法優化方法22/252、Newtons methodu牛頓法主要存在的問題是:uHesse 矩陣不可逆時無法計算;u矩陣的逆計算復雜為 n 的立方,當問題規模比較大時,計算量很大;u解決的辦法是采用擬牛頓法如 BFGS, L-BFGS, DFP, Broydens Algorithm 進行近似;u如果初始值離局部極小值太遠,Taylor 展開并不能對原函數進行良好
11、的近似。優化方法優化方法23/252、Newtons methodu在牛頓法的迭代中,需要計算海賽矩陣的逆矩陣H-1這一計算比較復雜,考慮用一個n階矩陣來近似代替H-1,這就是擬牛頓法的基本思路。uDFP(Davidon-Fletcher-Powell)使用一個n階矩陣Gk+1來近似H-1uBFGS(Broyden-Fletcher-Goldfarb-Shanno)使用一個n階矩陣Bk來逼近HuL-BFGS(Limited -BFGS ):由于上述兩種擬牛頓法都要保存一個n階矩陣,對于內存消耗非常大,因此在此基礎上提出了一種節約內存的方法L-BFGS。優化方法優化方法24/253、Conjug
12、ate Gradientsu共軛梯度法是介于最速下降法與牛頓法之間的一個方法;u它僅需利用一階導數信息,u但克服了最速下降法收斂慢的缺點;u避免牛頓法需要存儲和計算Hesse矩陣并求逆的缺點.u共軛梯度法不僅是解決大型線性方程組最有用的方法之一,也是解大型非線性最優化最有效的算法之一。u與最速梯度下降的不同,共軛梯度的優點主要體現在選擇搜索方向上:優化方法優化方法25/253、Conjugate Gradientsu共軛方向:u如上圖,d(1) 方向與二次函數的等值線相切, d(1) 的共軛方向 d(2) 則指向橢圓的中心。對于二維二次函數,若在兩個共軛方向上進行一維搜索,經過兩次迭代必然達到
13、最小點。優化方法優化方法26/253、Conjugate Gradientsu確定了移動方向(GD:垂直于等值線,CG:共軛方向),并在該方向上搜索極小值點(恰好與該處的等值線相切),然后移動到最小值點,重復以上過程,過程如下圖:優化方法優化方法27/254、隨機梯度下降算法(SGD)優化方法優化方法28/254、隨機梯度下降算法(SGD)uSGD是最速梯度下降法的變種,每次只使用一個樣本,迭代一次計算量為n2,當m很大的時候,隨機梯度下降迭代一次的速度要遠高于梯度下降:u梯度下降需要把m個樣本全部帶入計算,迭代一次計算量為m*n2優化方法優化方法29/255、 Mini-batch Grad
14、ient Descentu介于BSD和SGD之間的一種優化算法,每次選取一定量的訓練樣本進行迭代;u速度比BSD快,比SGD慢;精度比BSD低,比SGD高。u選擇n個訓練樣本(nm,m為總訓練集樣本數)u在這n個樣本中進行n次迭代,每次使用1個樣本u對n次迭代得出的n個gradient進行加權平均再并求和,作為這一次mini-batch下降梯度;u不斷在訓練集中重復以上步驟,直到收斂。優化方法優化方法30/255、 Mini-batch Gradient Descentu其思想是:SGD就是每一次迭代計算mini-batch的梯度,然后對參數進行更新;u其中,是學習率, 是梯度,SGD完全依賴
15、于當前batch的梯度,可理解為允許當前batch的梯度多大程度影響參數更新。tg優化方法優化方法31/255、 Mini-batch Gradient Descentu面臨的挑戰:ulearning rate選取比較困難u對于稀疏數據或者特征,有時我們可能想更新快一些;u對于常出現的特征更新慢一些,這時候SGD就不太能滿足要求了;uSGD容易收斂到局部最優,并且在某些情況下可能被困在鞍點優化方法優化方法-Momentum32/25umomentum是模擬物理里動量的概念,積累之前的動量來替代真正的梯度:其中, 是動量因子。優化方法優化方法-Momentum33/25SGD without m
16、omentumSGD with momentum優化方法優化方法-Momentum34/25u特點:u下降初期時,使用上一次參數更新,下降方向一致,乘上較大的 能夠進行很好的加速;u下降中后期時,在局部最小值來回震蕩的時候, , 使得更新幅度增大,跳出陷阱;u在梯度改變方向的時候, 能夠減少更新;u總之,momentum項能夠在相關方向加速SGD,抑制振蕩,從而加快收斂。優化方法優化方法-Nesterov35/25unesterov項在梯度更新時做一個校正,避免前進太快,同時提高靈敏度:u 并沒有直接改變當前梯度 ,所以Nesterov的改進就是讓之前的動量直接影響當前的梯度。即:u 因此,加
17、上nesterov項后,梯度在大的跳躍后,進行計算對當前梯度進行校正。 優化方法優化方法-Nesterov36/25umomentum首先計算一個梯度(短的藍色向量),然后在加速更新梯度的方向進行一個大的跳躍(長的藍色向量),nesterov項首先在之前加速的梯度方向進行一個大的跳躍(棕色向量),計算梯度然后進行校正(綠色梯向量):u momentum項和nesterov項都是為了使梯度更新更加靈活,對不同情況有針對性。優化方法優化方法-Adagrad37/25uAdagrad其實是對學習率進行了一個約束,即:u 對 從1到 進行一個遞推形成一個約束項regularizer優化方法優化方法-A
18、dagrad38/25u特點:特點:u前期 較小時候,regularizer較大,能夠放大梯度 ;u后期 較大的時候,regularizer較小,能夠約束梯度; u適合處理稀疏梯度。 u缺點:缺點:u仍依賴于人工設置一個全局學習率; u 設置過大的話,會使regularizer過于敏感,對梯度的調節太大; u中后期,分母上梯度平方的累加將會越來越大,使 ,訓練提前結束。優化方法優化方法-Adadelta39/25uAdadelta是對Adagrad的擴展, Adagrad會累加之前所有的梯度平方,而Adadelta只累加固定大小的項,并且也不直接存儲這些項,僅僅是近似計算對應的平均值。即: u
19、其實Adadelta還是依賴于全局學習率的,但作者做了一定處理,經過近似牛頓迭代法之后: 此時Adadelta已經不用依賴于全局學習率了優化方法優化方法-Adadelta40/25u特點:特點: u訓練初中期,加速效果不錯,很快;u訓練后期,反復在局部最小值附近抖動。優化方法優化方法-RMSprop41/25uRMSprop可以算作Adadelta的一個特例:u當 時, 就變為了求梯度平方和的平均數;u如果再求根的話,就變成了RMS(均方根):u此時,這個RMS就可以作為學習率的一個約束:優化方法優化方法-RMSprop42/25uRMSprop:u其實RMSprop依然依賴于全局學習率;uR
20、MSprop算是Adagrad的一種發展,和Adadelta的變體,效果趨于二者之間;u適合處理非平穩目標 - 對于RNN效果很好。優化方法優化方法-Adam43/25uAdam(Adaptive Moment Estimation)本質上是帶有動量項的RMSprop,u它利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率;uAdam的優點主要在于經過偏置校正后,每一次迭代學習率都有個確定范圍,使得參數比較平穩。優化方法優化方法-Adam44/25u公式如下:其中, 、 分別是對梯度的一階矩估計和二階矩估計,可以看作對期望 、 的估計; 、 是對 、 的校正,這樣可以近似為對期望的無偏估
21、計。 u 對學習率形成一個動態約束,而且有明確的范圍。優化方法優化方法-Adam45/25u特點:u結合了Adagrad善于處理稀疏梯度和RMSprop善于處理非平穩目標的優點;u對內存需求較小;u為不同的參數計算不同的自適應學習率;u也適用于大多非凸優化 - 適用于大數據集和高維空間優化方法優化方法-Adamax46/25uAdamax是Adam的一種變體,此方法對學習率的上限提供了一個更簡單的范圍:u可以看出,Adamax學習率的邊界范圍更簡單優化方法優化方法-Nadam47/25uNadam類似于帶有Nesterov動量項的Adam :優化方法優化方法-Nadam48/25u可以看出,Nadam對學習率有了更強的約束,同時對梯度的更新也有更直接的影響;u一般而言,在想使用帶動量的RMSprop,或者Adam的地方,大多可以使用Nadam取得更好的效果。優化方法優化方法-Visualization of algorithms49/25優化方法優化方法-Visualization of algorithms50/25Adagrad, Adadelta, RMSprop, 和 Adam效果明顯優化方法優化方法-建議建議51/25u對于稀疏數
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025高校學生國防獎學金合同書
- 2025合同期屆滿前解除勞動合同工資發放規定
- 2025年私人住宅翻新合同
- 公司介紹模板-PART ONE
- 2024年雅安市級事業單位選調工作人員真題
- 2024年七臺河市市屬事業單位考試真題
- 2024年寧波市慈溪市招聘中學教師真題
- 2024年涼山州會東縣招聘教育系統事業單位工作人員真題
- 2024年安徽生物工程學校專任教師招聘真題
- 軟件銷售退稅合同范本
- 2025屆遼寧省名校聯盟高三一模地理試題(原卷版+解析版)
- 國家之間的合作發展-以“一帶一路”為例 課件 2024-2025學年高二下學期 地理 魯教版(2019)選擇性必修2
- Premiere視頻編輯案例教程(PremierePro2021)課件 第 6 章 字幕與字幕特效
- ESC急慢性心力衰竭診斷和治療指南
- 周日值班制度
- 2025保安證考試模擬試卷及答案
- 湖南水泥倉施工方案
- 肺栓塞的護理診斷及護理措施
- 老人預防電信詐騙
- 2024年11月-礦山隱蔽致災因素普查
- 【2025新教材】教科版一年級科學下冊全冊教案【含反思】
評論
0/150
提交評論