激活函數和損失_第1頁
激活函數和損失_第2頁
免費預覽已結束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、最為接近生物神經元。此外,(0,1)的輸出還可以被表示作概率,或用于輸入的最為接近生物神經元。此外,(0,1)的輸出還可以被表示作概率,或用于輸入的歸一化,代表性的如Sigmoid 交叉熵損失函數。激活函數和損失函御關2017.12.2817:46字數 2059閱讀5040喜歡關于激活函數,首先要搞清楚 是,激活函數是什么, 用?不用激活函數可不可以? 是不可以。激活函數的主要作用是提供網絡的非線性建模能力。如果沒有激活函數,那么該網絡僅能夠表達線性 ,此時即便有再多的隱活函數之后,深度神經網絡才具備了分層的非線性 學習能力。輸出值的范圍: 當激活函數輸出值是 有限 的時候,基于梯度的優化方

2、更加 穩定,因為特征的表示受有限權值的影響更顯著;當激活函數的輸出是 無限的時候,模型的訓練會更加高效,不過在這種情況小,一般需要更小的 learning 到,當x0時,則不存在飽和問題。所以,ReLU能夠在x0 時保持梯度不衰減,從而緩解梯度其收斂速度要比sigmoid 快,減少迭代次數。然而,從途中可以看出,tanh 一樣具有軟飽和性,從而造成梯度 。3.1.3ReLU,P-ReLU,Leaky-ReLU 兩側導數逐漸趨近于 0與軟飽和對應的是硬飽和, 即f(x)=0,當|x|c,其中c下傳導的梯度包含了一個f(x)因子(sigmoid關于輸入的導數),因此一旦輸入sigmoid 網絡在

3、5 層之內就會產生梯度這會導致后一層的神經元將得到上一層輸出的非 0 均值的信號作為輸入。3.1.2 tanh 融合了sigmoid和ReLU,左側具有軟飽和性,右側無飽和性。右側線性部分使得ELU 能融合了sigmoid和ReLU,左側具有軟飽和性,右側無飽和性。右側線性部分使得ELU 能夠緩解梯度,而左側軟飽能夠讓ELU對輸入變化或噪聲更魯棒。 ELU 的輸出均值接近于零,所以收斂速度更快。在 ImageNet 上,不加 Batch Normalization 30 層以上的 ReLU 網絡會無法收斂,PReLU 網絡在MSRA 的 Fan-in (caffe )初始化下會發散,而 ELU

4、 網絡在Fan-in/Fan-out下都能收斂3.1.5 Maxout 在我看來,這個激活函數有點 的感覺,因為 maxout網絡能夠近似任意連w2,b2,wn,bn0時, 為 ReLU。Maxout能夠緩解梯度消失,同時又規避了 ReLU 神經元 的缺點,但增加了參數和計算量。3.2 在之前的內容中, 其中y是 期望的輸出,a為神經元的實際輸出(a=(Wx+b)。也就是說,當神經元的實際輸出與 的期望輸出差距越大,代價就越高。想法非常的好,然而在實際應用中, 知道參數的修正是與CW 和Cb 成正比的,而根據這就是Leaky-ReLU, 而P-ReLU認為,也可以作為一個參數來學習,原文獻建議初始化a 為 0.25,不采用正則。3.1.4 ELU 種現象被稱為“神經元 ”。與sigmoid類似,ReLU0,偏移現象和 神經元 會共同影響網絡的收斂性。針對在x0的硬飽和問題, ReLU發現其中都有(a)這一項。因為sigmoid 函數的性質,導致(z)在z 取大算得的a 值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論