《深度學習 》課件 第4章-循環神經網絡_第1頁
《深度學習 》課件 第4章-循環神經網絡_第2頁
《深度學習 》課件 第4章-循環神經網絡_第3頁
《深度學習 》課件 第4章-循環神經網絡_第4頁
《深度學習 》課件 第4章-循環神經網絡_第5頁
已閱讀5頁,還剩30頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

4循環神經網絡目錄

|

CONTENTS循環神經網絡結構1循環神經網絡的訓練2雙向循環神經網絡與深度循環神經網絡3長短期記憶網絡4門控循環單元567遞歸神經網絡雙向長短期記憶網絡與雙向門控循環單元循環神經網絡(recurrentneuralnetworks,RNN)是深度學習中的一個重要分支,它處理歷史數據和對記憶進行建模,并隨時間動態調整自身的狀態,通常適用于處理時間、空間序列上有強關聯的信息。從生物神經學角度,循環神經網絡可以認為是對生物神經系統環式鏈接(recurrentconnection)的簡單模擬,而這種環式鏈接在新大腦皮質中是普遍存在的。循環神經網絡求解損失函數的參數梯度有很多種算法,其中常用的是時間反向傳播算法(backpropagationthroughtime,BPTT)。梯度傳遞過程會引起梯度消失(gradientvanish)或者梯度爆炸(gradientexplosion)的問題。針對循環神經網絡模型基本結構對長序列數據的記憶能力不強,并且當序列信號在網絡中多次傳遞后,有可能引起梯度問題。學者們提出了長短期記憶(longshort-termmemory,LSTM)網絡、門控循環單元(gatedrecurrentunit,GRU)等更加復雜的循環神經網絡和記憶單元,使得循環神經網絡模型可以更加有效地處理更長的序列信號。此外,本章還將對循環神經網絡的一種擴展——遞歸神經網絡(RecursiveNeuralNetwork)進行介紹。最后,本章還將介紹循環神經網絡的具體應用實例。循環神經網絡結構14.1循環神經網絡結構

4.1循環神經網絡結構

4.1循環神經網絡結構單輸入單輸出的循環神經網絡模型是一種一對一(onetoone)方式,適用于詞性分類、時序回歸或者圖像分類問題,例如輸出該單詞的詞性。單輸入序列輸出的循環神經網絡模型是一種一對多(onetomany)方式,適用于圖像標題預測等問題,如輸入一張圖像后輸出一段文字序列;也可以作為解碼器,如先訓練好網絡中的權重參數,給出一個單詞解碼一個句子。序列輸入單輸出的循環神經網絡模型是一種多對一(manytoone)方式,適用于文字情感分析等問題,如輸入一段文字,然后將其分為積極或者消極情緒,也可以作為的句子編碼過程。序列輸入序列輸出的循環神經網絡模型是一種多對多(manytomany)方式,適用于機器翻譯等問題,如讀入英文,語句然后將其以法語形式輸出。同步序列輸入序列輸出的循環神經網絡模型是一種多對多(manytomany)方式,適用于機器翻譯模型、視頻字幕翻譯工具、自動問答系統等場合。循環神經網絡的訓練24.2.1損失函數

4.2.2時間反向傳播算法

4.2.2時間反向傳播算法

權重V的梯度014.2.2時間反向傳播算法

權重W的梯度024.2.2時間反向傳播算法

4.2.3梯度消失與梯度爆炸

4.2.3梯度消失與梯度爆炸使用BPTT訓練循環神經網絡,即使是最簡單的模型,在遇到梯度消失和梯度爆炸的問題時,都難以解決時序上長距離依賴問題。以下5種方法常用來解決這些問題。1.截斷梯度:在循環神經網絡更新參數時,只利用較近時刻的序列信息,而忽略歷史久遠的信息。2.設置梯度閾值:程序可以檢測梯度數值很大,所以,可以設置梯度閾值,在梯度爆炸時,直接截斷超過閾值的部分3.合理初始化權重值:盡可能避開可能導致梯度消失的區域,讓每個神經元盡量不要取極值。例如,可以對利用高斯概率分布得到的權重進行修正,使其更加集中在分布中心,或者使用預訓練的網絡。4.使用ReLU作為激活函數:使用ReLU代替sigmoid和tanh作為激活函數。ReLU的導數限制為0和1,從而更能應對梯度擴散或者梯度消失問題5.使用LSTM或者GRU作為記憶單元:解決梯度擴散和長期依賴的問題可以將原循環神經網絡模型中的記憶單元進行替換,LSTM和GRU結構是目前普遍采用的替換結構。雙向循環神經網絡與深度循環神經網絡

34.3雙向循環神經網絡與深度循環神經網絡雙向循環神經網絡(bi-directionalrecurrentneuralnetwork,Bi-RNN)不僅利用序列前面的信息,還會利用將要輸入的信息。雙向循環神經網絡014.3雙向循環神經網絡與深度循環神經網絡深度循環神經網絡(deeprecurrentneuralnetworks,DRNN)在基本循環神經網絡結構的基礎上進行改進,每一個時刻t對應多個隱含層狀態。該模型結構能夠帶來更好的學習能力,缺點在于難以對網絡進行控制,并且隨著網絡層數的增多而引入更多的數學問題(例如梯度消失或者梯度爆炸等問題)。深度循環神經網絡02長短期記憶網絡44.4長短期記憶網絡循環神經網絡模型根據時間序列信息來訓練網絡參數,使得循環神經網絡模型學習到序列數據之間的關聯信息,進而預測未來的序列信息,但它存在梯度消失和梯度爆炸問題。普通循環神經網絡模型很難學習和保存長期序列信息。在序列信息短、預測單詞間的間隔短的語境中,該類型數據稱為短期序列,循環神經網絡模型處理短期序列的過程稱為“短期記憶”。循環神經網絡模型可以很好地學習短期序列信息,并且能夠輕易地達到70%以上的預測精度。可當序列數據信息很長、預測間隔大時,涉及到循環神經網絡模型的長期記憶問題。隨著預測序列間隔增大,循環神經網絡模型就會引起BPTT時間反向傳播算法中的梯度消失和梯度爆炸問題,所以循環神經網絡模型難以處理長期記憶的任務。傳統的循環神經網絡難以解決長期依賴的問題,因此,眾多的循環神經網絡的變體被提出來。其中,長短期記憶網絡在1997年由SeppHochreiter等人提出,主要用途是給循環神經網絡網絡增加記憶功能,減弱信息的衰減,從而記住長期的信息。LSTM也被證明在處理長期依賴問題上比傳統方法更加有效。LSTM在2012時被改進,使得LSTM網絡得到了廣泛的應用。LSTM在循環神經網絡模型的基礎上,增加了記憶功能,兩者在時序上的傳播方式沒有本質區別,知識計算隱含層神經元狀態的方式不同。LSTM中“Cells”有著記憶功能,可以決定信息的記憶,并且可以將之前的狀態、現在的記憶和當前輸入的信息結合在一起,對長期信息進行記錄。4.4.1LSTM記憶單元

4.4.1LSTM記憶單元

輸入門01

4.4.1LSTM記憶單元遺忘門02

4.4.1LSTM記憶單元

輸出門03

4.4.2LSTM記憶方式

門控循環單元54.5門控循環單元

4.5門控循環單元復位門01

4.5門控循環單元更新門02

遞歸神經網絡64.6遞歸神經網絡

雙向長短期記憶網絡與雙向門控循環單元74.7雙向長短期記憶網絡與雙向門控循環單元雙向長短期記憶網絡(Bi-directionalLongShort-TermMemory,BiLSTM)與雙向門控循環單元(Bi-directionalGatedRecurrentUnit,BiGRU)是雙向循環神經網絡的變種。與傳統的單向LSTM以及單向GRU不同,BiLSTM和BiGRU同時考慮了前向和后向的信息,能夠更好地捕捉雙向的序列依賴,從而更全面地理解和建模序列數據。BiLSTM/BiGRU結構如圖所示,由兩個LSTM/GRU組成,分別從正向和反向處理輸入序列。處理完成后,將兩個部分的輸出進行拼接,作為LSTM/GRU整體的輸出。本章小結本章主要介紹了循環神經網絡的結構以及它的訓練。循環神經網絡模型常用的損失函數為交叉熵函數或均方誤差函數。在循環神經網絡模型的訓練過程中,使用了隨機梯度下降算法,迭代地調用BPTT算法求得網絡參數梯度。然而標準的循環神經網絡模型是很

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論