小象學院深度學習-第2課傳統神經網絡_第1頁
小象學院深度學習-第2課傳統神經網絡_第2頁
小象學院深度學習-第2課傳統神經網絡_第3頁
小象學院深度學習-第2課傳統神經網絡_第4頁
小象學院深度學習-第2課傳統神經網絡_第5頁
免費預覽已結束,剩余54頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

本課件包括:演示文稿,示例,代碼,題庫,和聲音等,小象學院擁有完全知識的權利;只限于善意學習者在本課程使用,不得在課程范圍外向任何第散播。任何其他人或機構不得盜版、創意, 保留一切通過法律、仿造其中的者的權利。課程咨詢:大數據分析挖掘:ChinaHadoop法律互聯網新技術教育領航者傳統神經網絡主講人:紐約城市大學博士主要研究深度學習,計算機視覺,人臉計算多篇重要研究文章作者,重要會議期刊審稿人微博ID:weightlee03

(相關資料

)ID:wiibrew

(課程代碼發布)互聯網新技術教育領航者互聯網新技術教育領航者3/59結構??提綱1.

神經網絡

:線性回歸2.從線性到非線性3.神經網絡的構建4.神經網絡的“配件”4/59互聯網新技術教育領航者期待目標1.了解從線性到非線性回歸的轉化2.

明白如何構建神經網絡,了解不同激勵函數的區別聯系3.掌握“配件”對神經網絡性能的影響(損失函數,學習率,動量,過擬合),會“調參”4.明白本節所有的[面試題]5/59互聯網新技術教育領航者提綱1.

神經網絡 :線性回歸2.從線性到非線性3.神經網絡的構建4.神經網絡的“配件”6/59互聯網新技術教育領航者線性回歸關概念:線性關系來描述輸入到輸出的系應用場景:網絡分析銀行風險分析基金股價天氣預報7/59互聯網新技術教育領航者線性回歸一個線性回歸問題目標方程:y=ax1+bx2+cx3+d參數:m=[a,b,c,d]數據:[(x1,1,x2,1,x3,1),(x1,2,x2,2,x3,2),…(x1,n,x2,n,x3,n)][y1,y2…..yn]:?t=ax1,t+bx2,t+cx3,t+d目標:minimize(?t

-yt)8/59互聯網新技術教育領航者線性回歸優化方法:梯度下降模型參數當前m0

=[a0,b0,c0,d0]每一步Δm?參數:m=[a,b,c,d]山坡高度:Loss地面位置:參數山坡最低點:Loss

minimal最低點位置:目標參數怎么到達:下坡方向,梯度下降怎么找方向:高度對地面關系導數9/59互聯網新技術教育領航者線性回歸梯度下降:梯度計算Loss=ax1,t+bx2,t+cx3,t+d-yΔm=[x1,t,

x2,t,

x3,t,1]梯度下降:參數更新m:=m-ηΔmd(loss)/d(a)d(loss)/d(b)d(loss)/d(c)d(loss)/d(d)10/59互聯網新技術教育領航者線性回歸梯度下降法總結:隨機初始化參數開啟循環:t=0,1,2。。帶入數據求出結果?t與真值比較得到loss=y-?t對各個變量求導得到Δm更新變量m如果loss足夠小或t循環結束,停止11/59互聯網新技術教育領航者線性回歸輸出+能否同時個目標?多yx1x2xn+w1w2wny1x1x2xn+wn+y2W’n12/59互聯網新技術教育領航者線性回歸輸出+能否同時個目標?多多目標學習,通過合并多個任務loss,一般能夠產生比單個模型更好的效果。yx1x2xn+w1w2wny1x1x2xn+wn+y2W’n13/59互聯網新技術教育領航者線性回歸局限線性回歸能夠清楚的描述分割線性分布的數據,對非線性分布的數據描述較弱14/59互聯網新技術教育領航者提綱1.

神經網絡

:線性回歸2.從線性到非線性3.神經網絡的構建4.神經網絡的“配件”15/59互聯網新技術教育領航者從線性到非線性非線性激勵考量標準:1.正

輸入的調整2.反向梯度損失y16/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數Sigmoid,函數效果,導數優點,缺點17/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數Sigmoid,函數效果,導數優點,缺點將輸入數據

到[0,1]梯度下降非常明顯,至少減少75%18/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數tahn,函數效果,導數優點,缺點1-119/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數tahn,函數效果,導數優點,缺點將輸入數據到[-1,1]梯度損失明顯1-120/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數ReLU(Rectified

linear

unit)函數效果,導數優點,缺點21/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數ReLU(Rectified

linear

unit)函數效果,導數優點,缺點正向截斷負值,損失大量特征反向梯度沒有損失22/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數ReLU(Rectified

linear

unit)函數效果,導數優點,缺點正向截斷負值,損失大量特征為什么還用?反向梯度沒有損失23/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數ReLU(Rectified

linear

unit)函數效果,導數優點,缺點正向截斷負值,損失大量特征為什么還用?特征足夠多反向梯度沒有損失24/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數Leaky

ReLU(Rectifiedlinear

unit)函數效果,導數優點,缺點保留參數,少量梯度反向為什么不變成y=x?25/59互聯網新技術教育領航者從線性到非線性常用的非線性激勵函數Leaky

ReLU(Rectifiedlinear

unit)函數效果,導數優點,缺點保留參數,少量梯度反向為什么不變成y=x

?

線性了26/59互聯網新技術教育領航者從線性到非線性神經元-神經網絡[面試題]有線性回歸網絡嗎?27/59互聯網新技術教育領航者從線性到非線性神經元-神經網絡[面試題]有線性回歸網絡嗎?并沒有。。28/59互聯網新技術教育領航者提綱1.

神經網絡

:線性回歸2.從線性到非線性3.神經網絡的構建4.神經網絡的“配件”29/59互聯網新技術教育領航者神經網絡構建神經元的“并聯”和“串聯”從第一層神經網絡到最終輸出,每一個神經元的數值由前一層神經元數值,神經元參數W,b以及激勵函數共同決定第n+1層第k個神經元的方程可由公式表示為:并聯:寬度串聯:深度在這里,m表示第n層神經網絡的寬度,n為當前神經網絡的深度30/59互聯網新技術教育領航者神經網絡構建神經網絡優化鏈式法則(下一講主要內容)計算梯度output->last

layerlayer->layerlayer->parameterLoss-->ΔynΔyn-->ΔxnΔyn-->Δwn怎么計算

Δwi

? Δyi,

Δxi+1,

….Δyn,31/59互聯網新技術教育領航者神經網絡構建神經網絡求導-TensorFlow實現data

=

tf.placeholder(tf.float32)var

=

tf.Variable(...)loss

=some_function_of(var,

data)var_grad

=

tf.gradients(loss,

[var])sess

=tf.Session()var_grad_val

=

sess.run(var_grad,

feed_dict={data:

...})32/59互聯網新技術教育領航者神經網絡構建神經網絡實例分析:MINIST

神經網絡分類見:course_2_tf_nn.py結構變化影響“并聯”寬度影響“串聯”層數影響DropoutLearning

rate33/59互聯網新技術教育領航者提綱1.

神經網絡

:線性回歸2.從線性到非線性3.神經網絡的構建4.神經網絡的“配件”34/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數-Loss影響深度學習性能最重要因網絡模型訓練的直接指導。一。是外部世界對神經合適的損失函數能夠確保深度學習模型收斂設計合適的損失函數是研究工作的主要內容之一35/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數SoftmaxLoss影響?36/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數SoftmaxLoss影響?[1,2,3,4,1,2,3][0.024,

0.064,

0.175,

0.475,

0.024,

0.064,

0.175]37/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數SoftmaxSoftmax的好處?Loss影響?[1,2,3,4,1,2,3][0.024,

0.064,

0.175,

0.475,

0.024,

0.064,

0.175]38/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數SoftmaxSoftmax的好處?分類問題的

結果更明顯Loss影響?[1,2,3,4,1,2,3][0.024,

0.064,

0.175,

0.475,

0.024,

0.064,

0.175]39/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數Cross

entropyExplode?->W.

Li,

F.

Abtahi,

Z.

Zhu,

Action

Unit

Detection

with

Region

Adaptation,Multi-labeling

Learning

and

Optimal

Temporal

Fusing.

CVPR

2017.用途?40/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數Cross

entropyExplode?->W.

Li,

F.

Abtahi,

Z.

Zhu,

Action

Unit

Detection

with

Region

Adaptation,Multi-labeling

Learning

and

Optimal

Temporal

Fusing.

CVPR

2017.用途?目標為[0,1]區間的回歸問題,以及生成41/59互聯網新技術教育領航者神經網絡的“配件”1.損失函數自定義a.

看中某一個屬性單獨將某一些 值取出或賦予不同大小的參數b.合并多個loss多目標訓練任務,設置合理的loss結合方式(各種運算)c.

神經網絡融和不同神經網絡loss結合,共同loss對網絡進行訓練指導42/59互聯網新技術教育領航者神經網絡的“配件”2.學習率Learning

rate數值大:收斂速度快數值小:精度高43/59互聯網新技術教育領航者神經網絡的“配件”2.學習率Learning

rate如何選用合適的學習率?Fixed;2.

Step;Adagrad(知道定義即可)RMSprop44/59互聯網新技術教育領航者神經網絡的“配件”3.動量正常Why?沿著已經得到的優化方向前進,不用重新找方向,只需微調How?v=045/59互聯網新技術教育領航者神經網絡的“配件”3.動量正常Why?沿著已經得到的優化方向前進,不用重新找方向,只需微調How?v=0[面試題]用動量和直接調大學習率有什么區別?

46/59互聯網新技術教育領航者神經網絡的“配件”3.動量正常Why?沿著已經得到的優化方向前進,不用重新找方向,只需微調How?[面試題]和直接調大學習率有什么區別?方向不同找的更準確47/59互聯網新技術教育領航者神經網絡的“配件”3.動量

Nesterov

動量理解:新的梯度更新是在動量投射的基礎上48/59互聯網新技術教育領航者神經網絡的“配件”4.過擬合(Overfitting):w1w2w3w411111W’=[0.25,0.25,0.25.0.25]W’’=[1,0,0,0]哪個參數更好?49/59互聯網新技術教育領航者神經網絡的“配件”4.過擬合(Overfitting):w1w2w3w411111W’=[0.25,0.25,0.25.0.25]W’’=[1,0,0,0]哪個參數更好?如果

的參數能夠參與決策,會對輸入有更高的適應性,w’’

更好

50/59互聯網新技術教育領航者神經網絡的“配件”過擬合---應對:RegularizationBeforeLoss=?-y;Δw=d(Loss)/d(w);w:=w-ηΔw;After51/59互聯網新技術教育領航者神經網絡的“配件”w:=w-ηΔw-2ηλwRegularization

對參數w有什么影響?過擬合---應對:RegularizationBeforeLoss=?-y;Δw=d(Loss)/d(w);w:=w-ηΔw;After52/59互聯網新技術教育領航者神經網絡的“配件”w:=w-ηΔw-2ηλwRegularization

對參數w有什么影響?為了使Loss‘最小,w2

部分要求w的值盡量平衡(why),和Loss共同影響w變化過擬合---應對:RegularizationBeforeLoss=?-y;Δw=d(Loss)/d(w);w:=w-ηΔw;After53/59互聯網新技術教育領航者神經

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論