




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、深度學(xué)習(xí)段曹輝2017.6.21 神經(jīng)網(wǎng)絡(luò)這個“神經(jīng)元”是一個以x1, x2, x3 及截距 +1 為輸入值,其輸出為hW,b(x) = f(WTx) = f(Wi*xi +b) ,其中函數(shù) f : 被稱為“激活函數(shù)”。神經(jīng)網(wǎng)絡(luò)算法能夠提供一種復(fù)雜且非線性的假設(shè)模型hW,b(x),它具有參數(shù) W, b ,可以以此參數(shù)來擬合我們的數(shù)據(jù)。兩種常用激活函數(shù)的類型:兩種常用激活函數(shù)的類型:sigmoid函數(shù)(左)和正切函數(shù)(右)函數(shù)(左)和正切函數(shù)(右) 神經(jīng)網(wǎng)絡(luò)模型圓圈來表示神經(jīng)網(wǎng)絡(luò)的輸入,標(biāo)上“+1”的圓圈被稱為偏置節(jié)點。最左邊的一層叫做輸入層,最右的叫做輸出層,中間叫做隱藏層。a(l) 表示第
2、l 層第i單元的激活值。本例神經(jīng)網(wǎng)絡(luò)有參數(shù) (W,b) = (W(1), b(1), W(2), b(2),其中W(l)ij是第 l 層第 j 單元與第 l + 1 層第 i 單元之間的聯(lián)接參數(shù)。向量化表示向量化表示 目標(biāo)函數(shù)-定義擬合的好壞假設(shè)我們有一個固定樣本集(x(1), y(1), ., (x(m), y(m) ,它包含m 個樣本。我們可以用批量梯度下降法來求解神經(jīng)網(wǎng)絡(luò)。對于單個樣例 (x,y),其代價函數(shù)為:總的代價函數(shù):J(W,b)定義中的第一項均方差項,第二項是權(quán)重衰減項,其目的是減小權(quán)重的幅度,防止過度擬合。目標(biāo)是針對參數(shù)W和b來求其函數(shù)J(W,b)的最小值。為了求解神經(jīng)網(wǎng)絡(luò),
3、我們需要將每一個參數(shù) W(l)ij 和b(l)i 初始化為一個很小的、接近零的隨機值,之后對目標(biāo)函數(shù)使用諸如批量梯度下降法的最優(yōu)化算法。因為J(W,b)是一個非凸函數(shù),梯度下降法很可能會收斂到局部最優(yōu)解;但是在實際應(yīng)用中,梯度下降法通常能得到令人滿意的結(jié)果。 反向傳播算法-求解偏導(dǎo)數(shù)梯度下降法中每一次迭代都按照如下公式對參數(shù) W 和 b 進行更新:是學(xué)習(xí)速率,其中關(guān)鍵步驟是計算偏導(dǎo)數(shù)。反向傳播算法是計算偏導(dǎo)數(shù)的一種有效方法。第一行比第二行多出一項,是因為權(quán)重衰減是作用于 W 而不是 b。利用鏈?zhǔn)椒▌t求解偏導(dǎo)數(shù)參見PPT-李宏毅,國立臺灣大學(xué),Machine Learning and havin
4、g it deep and structured (2015,Fall),.tw/tlkagk/courses.html 反向傳播算法求解過程:自編碼算法自編碼神經(jīng)網(wǎng)絡(luò)嘗試學(xué)習(xí)一個 hW,b(x) x 的函數(shù)。如果我們給隱藏神經(jīng)元加入稀疏性限制,可以得到輸入的稀疏表示。稀疏自編碼器(100個隱藏單元,在10*10像素的輸入上訓(xùn)練 )進行可視化處理之后的結(jié)果。不同的隱藏單元學(xué)會了在圖像的不同位置和方向進行邊緣檢測。 從自我學(xué)習(xí)到深層網(wǎng)絡(luò)自編碼器來學(xué)習(xí)輸入至分類器的特征。這些特征僅利用未標(biāo)注數(shù)據(jù)學(xué)習(xí)獲得。用已標(biāo)注數(shù)據(jù)進行微調(diào),從而進一步優(yōu)化這些特征。如
5、果有大量已標(biāo)注數(shù)據(jù),通過微調(diào)就可以顯著提升分類器的性能。首先利用未標(biāo)注數(shù)據(jù)訓(xùn)練一個稀疏自編碼器,給定一個新樣本x,我們通過隱含層提取出特征 a。我們感興趣的是分類問題,目標(biāo)是預(yù)測樣本的類別標(biāo)號y。可以利用稀疏自編碼器獲得的特征a(l)來替代原始特征。這樣就可獲得訓(xùn)練數(shù)據(jù)(a(1),y(1), .(a(ml), y(ml) 。最終,我們訓(xùn)練出一個從特征 a(i)到類標(biāo)號 y(i) 的分類器。 深度網(wǎng)絡(luò):微調(diào)該模型的參數(shù)通過兩個步驟訓(xùn)練獲得:在該網(wǎng)絡(luò)的第一層,將輸入 x 映射至隱藏單元激活量a 的權(quán)值W(1) 可以通過稀疏自編碼器訓(xùn)練過程獲得。在第二層,將隱藏單元a 映射至輸出y 的權(quán)值W(2)
6、可以通過 logistic 回歸或 softmax 回歸訓(xùn)練獲得。微調(diào)的作用在于,已標(biāo)注數(shù)據(jù)集也可以用來修正權(quán)值 W(1),這樣可以對隱藏單元所提取的特征a 做進一步調(diào)整。 深度網(wǎng)絡(luò):微調(diào)該模型的參數(shù)通過兩個步驟訓(xùn)練獲得:在該網(wǎng)絡(luò)的第一層,將輸入 x 映射至隱藏單元激活量a 的權(quán)值W(1) 可以通過稀疏自編碼器訓(xùn)練過程獲得。在第二層,將隱藏單元a 映射至輸出y 的權(quán)值W(2) 可以通過 logistic 回歸或 softmax 回歸訓(xùn)練獲得。微調(diào)的作用在于,已標(biāo)注數(shù)據(jù)集也可以用來修正權(quán)值 W(1),這樣可以對隱藏單元所提取的特征a 做進一步調(diào)整。 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練深度網(wǎng)絡(luò)的困難雖然幾十年前人們
7、就發(fā)現(xiàn)了深度網(wǎng)絡(luò)在理論上的簡潔性和較強的表達(dá)能力,但是直到最近,研究者們也沒有在訓(xùn)練深度網(wǎng)絡(luò)方面取得多少進步。 問題原因在于研究者們主要使用的學(xué)習(xí)算法是:首先隨機初始化深度網(wǎng)絡(luò)的權(quán)重,然后使用有監(jiān)督的目標(biāo)函數(shù)在有標(biāo)簽的訓(xùn)練集上進行訓(xùn)練。數(shù)據(jù)獲取問題數(shù)據(jù)獲取問題使用上面提到的方法,我們需要依賴于有標(biāo)簽的數(shù)據(jù)才能進行訓(xùn)練。然而有標(biāo)簽的數(shù)據(jù)通常是稀缺的,因此對于許多問題,我們很難獲得足夠多的樣本來擬合一個復(fù)雜模型的參數(shù)。局部極值問題局部極值問題使用監(jiān)督學(xué)習(xí)方法來對淺層網(wǎng)絡(luò)(只有一個隱藏層)進行訓(xùn)練通常能夠使參數(shù)收斂到合理的范圍內(nèi)。但是當(dāng)用這種方法來訓(xùn)練深度網(wǎng)絡(luò)的時候,通常會涉及到求解一個高度非凸的優(yōu)
8、化問題,對深度網(wǎng)絡(luò)而言,這種非凸優(yōu)化問題的搜索區(qū)域中充斥著大量“壞”的局部極值。梯度彌散問題梯度彌散問題梯度下降法(以及相關(guān)的L-BFGS算法等)在使用隨機初始化權(quán)重的深度網(wǎng)絡(luò)上效果不好的技術(shù)原因是:梯度會變得非常小。具體而言,當(dāng)使用反向傳播方法計算導(dǎo)數(shù)的時候,隨著網(wǎng)絡(luò)的深度的增加,反向傳播的梯度(從輸出層到網(wǎng)絡(luò)的最初幾層)的幅度值會急劇地減小。 逐層貪婪算法逐層貪婪算法的主要思路是每次只訓(xùn)練網(wǎng)絡(luò)中的一層,即我們首先訓(xùn)練一個只含一個隱藏層的網(wǎng)絡(luò),僅當(dāng)這層網(wǎng)絡(luò)訓(xùn)練結(jié)束之后才開始訓(xùn)練一個有兩個隱藏層的網(wǎng)絡(luò),以此類推。在每一步中,我們把已經(jīng)訓(xùn)練好的前k-1 層固定,然后增加第 k 層(也就是將我們已經(jīng)訓(xùn)練好的前k-1 的輸出作為輸入)。這些各層單獨訓(xùn)練所得到的權(quán)重被用來初始化最終(或者說全部)的深度網(wǎng)絡(luò)的權(quán)重,然后對整個網(wǎng)絡(luò)進行“微調(diào)”當(dāng)用無標(biāo)簽數(shù)據(jù)訓(xùn)練完網(wǎng)絡(luò)后,相比于隨機初始
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年項目管理考試提升技巧試題及答案
- 礦物加工過程中的物理分離技術(shù)考核試卷
- 液力元件的激光加工技術(shù)考核試卷
- 漁具設(shè)計原理考核試卷
- 目視化管理下的團隊協(xié)作與溝通機制考核試卷
- 項目管理專業(yè)人士高效復(fù)習(xí)試題及答案
- 2025年企業(yè)會計與審計一體化管理研究試題及答案
- 禮儀用品行業(yè)品牌建設(shè)與市場競爭力提升考核試卷
- 潛水裝備的水下作業(yè)安全管理機制優(yōu)化考核試卷
- 2023年中國電信股份有限公司灣沚分公司公開招聘筆試參考題庫附帶答案詳解
- 2024年全國職業(yè)院校技能大賽高職組(法律實務(wù)賽項)考試題庫(含答案)
- 全過程工程咨詢管理服務(wù)方案投標(biāo)方案(技術(shù)方案)
- 中鐵十五局集團安全質(zhì)量部管理制度大全
- 2024老年燒創(chuàng)傷創(chuàng)面MEEK植皮技術(shù)規(guī)范
- 企業(yè)所得稅匯算清繳申報表電子表格版(帶公式-自動計算)
- 舞蹈與健康智慧樹知到期末考試答案章節(jié)答案2024年武漢科技大學(xué)
- 2024年四川省成都市溫江區(qū)中考數(shù)學(xué)二診試卷(含答案)
- 《電網(wǎng)工程監(jiān)理導(dǎo)則》
- 超星爾雅學(xué)習(xí)通《形象管理(南開大學(xué))》2024章節(jié)測試答案
- 2024年上海市虹口區(qū)街道社區(qū)工作者招聘筆試沖刺題(帶答案解析)
- 堅持制度自信
評論
0/150
提交評論