




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人工智能技術(shù)基礎(chǔ)5.1深度學習概述第五章深度學習01人工智能基本概念02深度學習概述01機器學習回顧機器學習內(nèi)容回顧什么是機器學習?(一句話概括)機器學習分為哪些類別?機器學習算法的求解一般過程?數(shù)據(jù)挖掘?qū)崙?zhàn)的通用流程?Python中使用到的工具包?1.機器學習是什么?一句話的解釋:機器學習(MachineLearning,ML)是指從有限的觀測數(shù)據(jù)(訓練數(shù)據(jù))中學習(或“猜測”)出具有一般性的規(guī)律(Function),并利用這些規(guī)律對未知數(shù)據(jù)進行預測的方法。“5-5”(下一步走棋位置)PlayingGo:“貓”圖像分類:“你好,吃了嗎?”語音識別:2.機器學習的類別回歸:輸出是一個實數(shù)預測PM2.5的數(shù)值f明日PM2.5數(shù)值
今日PM2.5溫度O3濃度垃圾郵件過濾是/否f分類:
輸出屬于的類別PlayingGO(19x19classes)2.機器學習的分類創(chuàng)造有結(jié)構(gòu)化的物件(圖片,文本,音樂等)結(jié)構(gòu)化學習回歸:輸出是一個實數(shù)分類:
輸出屬于的類3.機器學習算法的求解一般過程4、預測數(shù)據(jù)計算Loss查看效果
訓練過程Training測試過程Testing4.數(shù)據(jù)挖掘?qū)崙?zhàn)的通用流程?業(yè)務(wù)理解:確定要做什么任務(wù)數(shù)據(jù)采集:收集數(shù)據(jù)數(shù)據(jù)清洗:去除異常值,補充空缺值……特征工程:特征選擇,特征轉(zhuǎn)換,降維……數(shù)據(jù)建模:拆分數(shù)據(jù)集,建模,調(diào)參……驗證調(diào)優(yōu):交叉驗證,f1-score……模型融合:多模型ensemble……模型部署:投入生產(chǎn)數(shù)據(jù)預處理5.Python中使用到的工具包?業(yè)務(wù)理解數(shù)據(jù)采集:爬蟲Scrapy,json解析BS4數(shù)據(jù)預處理:Pandas,Numpy,Matplotlib/Seaborn數(shù)據(jù)建模、調(diào)優(yōu):Sklearn模型部署第五章深度學習02深度學習概述01機器學習回顧WhatisDeepLearning?+什么是深度學習概念源于人工神經(jīng)網(wǎng)絡(luò)的研究由GeoffreyHinton等人于2006年提出通過組合底層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示深度學習模型可以自動提取很多復雜的特征通過多層次的非線性變換,它可以將初始的“底層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡單模型”即可完成復雜的分類學習任務(wù)什么是深度學習深度=很多很多的網(wǎng)絡(luò)層數(shù)什么是深度學習第一次興起:1943年由McCulloch和Pitts首次提出了神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元模型——M-P神經(jīng)元模型。1958年,感知器perceptron誕生。由于無法解決異或問題陷入低谷期第二次興起:1986年,Hinton提出多層感知機(MLP),加上非線性激活函數(shù),解決了異或問題。并且提出了BP反向傳播算法,來訓練模型。受限于理論不完善(解釋性差等)最終暫時敗于SVM,陷入第二次低谷期第三次興起,突破,2006年前后GoeffreyHinton提出pre-training方法訓練DBN(深度信念網(wǎng)絡(luò))以及YannLeCun將BP與CNN結(jié)合推出Le-Net。2009:GPU興起。2012年以后:語音、圖像,文本深度學習發(fā)展歷程神經(jīng)網(wǎng)絡(luò)發(fā)展史:深度學習再次飛躍發(fā)展的因素:大規(guī)模高質(zhì)量標注數(shù)據(jù)集的出現(xiàn)并行運算(例如GPU)的發(fā)展更好的非線性激活函數(shù)的使用:ReLU代替Sigmoid更多優(yōu)秀的網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)明:ResNet,GoogleNet,AlexNet等深度學習開發(fā)平臺的發(fā)展:TensorFlow,Pytorch,Theano和MXNet等新的正則化技術(shù)的出現(xiàn):批標準化、Dropout等更多穩(wěn)健的優(yōu)化算法:SGD的變種,如RMSprop,Adam等深度學習發(fā)展歷程ImageNet:一個大型可視化數(shù)據(jù)庫。擁有超過1400萬的標注圖像,包含2萬多個類別。2010年以來,ImageNet項目每年舉辦一次軟件競賽,即ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)。挑戰(zhàn)賽使用1000個“整理”后的非重疊類,比賽內(nèi)容是:正確分類、并檢測目標及場景。圖像識別人類平均錯誤率約5.1%,15年ResNet以3.57%的錯誤率首次突破人類水平,16年冠軍Trimps-Soushen錯誤率僅2.99%,17年SeNet錯誤率只有2.25%深度學習應用-圖像類應用ZFDeep深度學習應用-物體檢測與分割/matterport/Mask_RCNN深度學習應用-風格遷移/zhanghang1989/MXNet-Gluon-Style-Transfer/深度學習應用-人臉合成2017年的DeepFakes和2019年手機APP-ZAO用換臉技術(shù)在互聯(lián)網(wǎng)社交平臺上人氣火爆,一度成為熱門話題通過攝像頭采集臉部特征(根據(jù)指示對鏡頭完成一些動作)無監(jiān)督的圖像到圖像轉(zhuǎn)換的生成對抗網(wǎng)絡(luò)深度學習應用-人臉識別Google神經(jīng)機器翻譯系統(tǒng)在多種語言間的翻譯性能獲得大幅突破,接近人類的翻譯水平深度學習應用-自然語言處理生成莎士比亞詩集生成藏頭詩深度學習應用-自動生成文本深度學習應用-文本生成圖片/blog/dall-e/在語音識別領(lǐng)域極具挑戰(zhàn)性的SwitchBoard任務(wù)中,GMM-HMM傳統(tǒng)方法一直未能有突破2011年使用DNN后獲得較大突破2015年,IBM再次將錯誤率降低到6.9%,接近人類的水平(4%)2016年,Microsoft將錯誤率降低到5.9%,進一步接近人類水平公開語料庫:
/resources.php中文:THCHS-30,清華大學,30小時連續(xù)普通話語音數(shù)據(jù)庫深度學習應用-語音識別2015年10月,AlphaGo擊敗樊麾,成為第一個無需讓子即可在19路棋盤上擊敗圍棋職業(yè)棋手的電腦圍棋程序。2016年3月,AlphaGo與圍棋世界冠軍、職業(yè)九段棋手李世石進行圍棋人機大戰(zhàn),以4比1的總比分獲勝。2017年5月23日到27日,在中國烏鎮(zhèn)圍棋峰會上,AlphaGo以3比0的總比分戰(zhàn)勝排名世界第一的世界圍棋冠軍柯潔。2017年10月18日,DeepMind團隊公布了AlphaGoZero,從空白狀態(tài)學起,在無任何人類輸入的條件下,AlphaGoZero能夠迅速自學圍棋,用40天超越了所有舊版本。深度學習應用-AlphaGo深度學習是一種特殊的機器學習深度學習VS機器學習人工智能ArtificialIntelligence機器學習MachineLearning深度學習DeepLearning(1)數(shù)據(jù)依賴性
當數(shù)據(jù)很少時,深度學習算法的性能并不好。因為深度學習算法需要大量的數(shù)據(jù)才能很好理解其中蘊含的模式。(2)硬件依賴深度學習算法需要進行大量的矩陣運算,GPU
主要用來高效優(yōu)化矩陣運算,所以GPU是深度學習正常工作的必須硬件。與傳統(tǒng)機器學習算法相比,深度學習更依賴安裝GPU的高端機器。深度學習VS機器學習(3)特征處理機器學習需要專家人為定義特征,并編碼為一種數(shù)據(jù)類型。特征工程處理過程非常耗時且需要相應的專業(yè)知識。機器學習的模型效果好壞極大取決于特征工程。深度學習嘗試從數(shù)據(jù)中直接獲取特征,這是深度學習與傳統(tǒng)機器學習算法的主要的不同。例如,卷積神經(jīng)網(wǎng)絡(luò)嘗試在前邊的層學習低等級的特征(邊界,線條),然后學習部分人臉,然后是高級的人臉的描述。深度學習VS機器學習(4)問題解決方式傳統(tǒng)機器學習通常會將問題分解為多個子問題并逐個子問題解決最后結(jié)合所有子問題的結(jié)果獲得最終結(jié)果。深度學習提倡直接的端到端的解決問題機器學習會將問題分解為兩步:物體檢測和物體識別。首先,使用一個邊界框檢測算法掃描整張圖片找到可能的是物體的區(qū)域;然后使用物體識別算法(例如SVM結(jié)合HOG)對上一步檢測出來的物體進行識別。
深度學習會直接將輸入數(shù)據(jù)進行運算得到輸出結(jié)果。例如可以直接將圖片傳給YOLO網(wǎng)絡(luò)(一種深度學習算法),YOLO網(wǎng)絡(luò)會給出圖片中的物體和名稱。多物體檢測任務(wù):深度學習VS機器學習(5)執(zhí)行時間
機器學習的訓練會消耗的時間相對較少,只需要幾秒鐘到幾小時的時間。根據(jù)數(shù)據(jù)量和機器學習算法而定。
深度學習訓練需要很長的時間:這是因為深度學習算法中參數(shù)很多,因此訓練算法需要消耗更長的時間。最先進的深度學習算法ResNet完整地訓練一次需要消耗兩周的時間。所以需要GPU來大大提升訓練速度。(6)可解釋性
機器學習中的類似決策樹、邏輯回歸這樣的算法具備規(guī)則的可解釋性,可以幫助決策者了解背后的邏輯推理。
深度學習算法的結(jié)果不具備可解釋性。
深度學習VS機器學習TensorflowPyTorchCaffeTheanoKeras…深度學習業(yè)務(wù)開源框架簡介課程實驗代碼:Tensorflow2.0Tensorflow官方:/guide?hl=zh-cnKeras官方:https://keras-zh.readthedocs.io/二、深度學習概述知識點回顧什么是深度學習深度學習發(fā)展歷程深度學習應用深度學習與機器學習比較深度學習概述知識點回顧人工智能技術(shù)基礎(chǔ)5.2全連接神經(jīng)網(wǎng)絡(luò)第五章深度學習01從感知機到神經(jīng)網(wǎng)絡(luò)02全連接網(wǎng)絡(luò)生物神經(jīng)元人類的大腦(生物神經(jīng)元):樹突細胞體軸突樹突M-P神經(jīng)元模型神經(jīng)元受生物神經(jīng)元啟發(fā),1943年由McCulloch和Pitts首次提出了神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元模型——M-P神經(jīng)元模型神經(jīng)元模型z…a1a2
aK+b偏差Bias權(quán)重Weightsw1w2wK…1、加權(quán)求和的值:
激活函數(shù)ActivationFunction2、經(jīng)過激活函數(shù)的神經(jīng)元輸出:
常見的激活函數(shù)11.符號函數(shù)Sign符號函數(shù)sign的值域為+1或-1,即當輸入大于等于0時,輸出+1,小于0時輸出-1,2.階躍函數(shù)Sgn階躍函數(shù)與符號函數(shù)非常接近,區(qū)別在于當輸入小于0時,階躍函數(shù)輸出是0,而符號函數(shù)輸出是-1常見的激活函數(shù)23.sigmoid函數(shù)值域為(0,1)該激活函數(shù)如今并不常用,因為梯度太容易飽和,不過RNN-LSTM網(wǎng)絡(luò)如今還會需要用到它。4.tanh函數(shù)值域為(-1,1)該激活函數(shù)因為ReLU
函數(shù)的普及使用而不那么流行了。常見激活函數(shù)35.ReLU(修正線性單元)解析表達式可寫為ReLU(x)=max(0,x)。值域為[0,+∞)ReLU是如今應用最廣泛的激活函數(shù)。但是ReLU可以kill神經(jīng)元:一旦ReLU后=0,該神經(jīng)元將不會被再激活。6.LeakyReLU
(滲漏線性單元)值域為(?∞,+∞),α一般是很小的常數(shù),保留了一些負軸的值,使得負軸信息不會全部丟失。不管輸入到神經(jīng)元的是什么值,其至少能得到一個非零的數(shù)值。思考:激活函數(shù)可以是線性函數(shù)嗎?單層感知機感知機(Perceptron)是FrankRosenblatt在1957年就職于康奈爾航空實驗室(CornellAeronauticalLab)時所發(fā)明的一種人工神經(jīng)網(wǎng)絡(luò),可以被視為是一種最簡單形式的神經(jīng)網(wǎng)絡(luò),是一種二元線性分類器。1.單層感知機:僅包含輸入和輸出層兩層結(jié)構(gòu)應用:單層感知機實現(xiàn)邏輯與(AND)
11-2
激活函數(shù)用階躍函數(shù)sgn單層感知機單層感知機是一種線性可分模型,僅能解決線性可分的數(shù)據(jù)問題課堂練習1:單層感知機實現(xiàn)邏輯或(OR)OR
操作
?
??
課堂練習2:單層感知機實現(xiàn)邏輯異或(XOR)XOR
操作
?
??無解。。。多層感知機多層感知器(MultilayerPerceptron,縮寫MLP)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到一組輸出向量,網(wǎng)絡(luò)結(jié)構(gòu)可以有多層,輸出節(jié)點也可以有多個。也叫多層神經(jīng)網(wǎng)絡(luò),是最典型的神經(jīng)網(wǎng)絡(luò)模型,能解決線性不可分問題。
輸入層
隱藏層輸出層
課堂練習2:單層感知機實現(xiàn)邏輯異或(XOR)XOR
操作010111100000000神經(jīng)網(wǎng)絡(luò)分類按神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),介紹三種最常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):1.前饋網(wǎng)絡(luò)前饋網(wǎng)絡(luò)中各個神經(jīng)元按接收信息的先后分為不同的層,每一層中的神經(jīng)元接收前一層神經(jīng)元的輸出作為輸入,計算后將該層的輸出傳遞到下一層神經(jīng)元。整個網(wǎng)絡(luò)中的信息朝一個方向傳播,沒有反向的信息傳播。常見的前饋網(wǎng)絡(luò)包括全連接前饋網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。2.記憶網(wǎng)絡(luò)記憶網(wǎng)絡(luò),也被稱為反饋網(wǎng)絡(luò),網(wǎng)絡(luò)中的神經(jīng)元不僅可以接收其他神經(jīng)元的信息,也可以接收自己的歷史信息,并且在不同的時刻可以具有不同的狀態(tài)。記憶神經(jīng)網(wǎng)絡(luò)中的信息可以是單向傳遞,也可以是雙向傳遞。常見的記憶網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、玻爾茲曼機等。3.圖網(wǎng)絡(luò)前饋網(wǎng)絡(luò)和記憶網(wǎng)絡(luò)都要求輸入是向量形式,但實際應用中很多數(shù)據(jù)是圖結(jié)構(gòu)的,比如知識圖譜、社交網(wǎng)絡(luò)數(shù)據(jù)等,圖網(wǎng)絡(luò)是可以處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。節(jié)點之間的連接可以是有向的,也可以是無向的,每個節(jié)點可以收到來自相鄰節(jié)點或自身的信息。圖網(wǎng)絡(luò)是前饋網(wǎng)絡(luò)和記憶網(wǎng)絡(luò)的泛化,常見的圖網(wǎng)絡(luò)包括圖卷積網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)等。第五章深度學習01從感知機到神經(jīng)網(wǎng)絡(luò)02全連接網(wǎng)絡(luò)1.網(wǎng)絡(luò)結(jié)構(gòu)-全連接神經(jīng)網(wǎng)絡(luò)基本單元62+3偏差Bias權(quán)重Weights1-2-1σ(z)
激活函數(shù)ActivationFunction-110.9971.網(wǎng)絡(luò)結(jié)構(gòu)-全連接前饋神經(jīng)網(wǎng)絡(luò)全連接前饋神經(jīng)網(wǎng)絡(luò)(FullyConnect
FeedforwardNetwork)
神經(jīng)元之間兩兩都連接,鏈式結(jié)構(gòu),前后次序給定;上一層的輸出為下一層的輸入。輸出層OutputLayer隱藏層Hidden
Layers輸入層InputLayer輸入層神經(jīng)元數(shù)量=特征的維度輸出層神經(jīng)元數(shù)量=分類的數(shù)量Eg:貓狗識別:2手寫體0-9識別:10x2……xNLayer
2……Layer
L…………………………Outputy1y2yMInput Layer
1x1……1.網(wǎng)絡(luò)結(jié)構(gòu)-輸出層表示二分類問題:sigmoid函數(shù)(單節(jié)點)多分類問題:softmax函數(shù)輸出層OutputLayer隱藏層Hidden
Layers輸入層InputLayerx2Input Layer
1x1……xN……Layer
2……Layer
L…………………………Outputy1y2yMSoftmax
1.網(wǎng)絡(luò)結(jié)構(gòu)-輸出層表示輸入:256維向量輸出:10維向量神經(jīng)網(wǎng)絡(luò)均方誤差(MSE)預測值和真值的歐式距離均方誤差損失函數(shù)常用于回歸問題中輸出層配套的激活函數(shù)一般為:linear輸出神經(jīng)元數(shù)量:1個交叉熵(cross-entropy)來源于信息論中熵的概念目前神經(jīng)網(wǎng)絡(luò)處理分類問題常用的損失函數(shù)輸出層配套的激活函數(shù)一般為:sigmoid(二分類)、softmax(多分類)多分類神經(jīng)元數(shù)量=分類的數(shù)量神經(jīng)網(wǎng)絡(luò)的損失函數(shù)特征:?非負性?預測值和真實值接近時,損失函數(shù)值趨于零2.常見損失函數(shù)類別K的標簽(實際概率)屬于類別K的預測概率3.尋找最優(yōu)參數(shù)–梯度下降法
超參數(shù):學習率(learningrate)迷霧下山:每次沿著當前位置最陡峭的方向走一步,直到谷底不同的初始點,可能走到不同的局部最小點問題?假設(shè)輸入層1000,隱層1000,隱層1000,輸出10,權(quán)重:1*e10個。如何高效更新參數(shù)?誤差反向傳播(Backpropagation)BP算法3.尋找最優(yōu)參數(shù)–BP算法(誤差反向傳播)BP算法計算流程反向傳播算法過程:【權(quán)重初始化】通常將參數(shù)初始化為一個很小的,接近零的隨機值。【前向計算】依次計算各層神經(jīng)元的加權(quán)和z和激活值a,計算損失值L。【反向傳播】根據(jù)損失值L,由后向前,依次計算各層參數(shù)的梯度,運用梯度下降迭代更新權(quán)重值。如此循環(huán),直到滿足終止條件,更新迭代完成。人工智能技術(shù)基礎(chǔ)5.3神經(jīng)網(wǎng)絡(luò)優(yōu)化技術(shù)第五章深度學習01深度學習中的優(yōu)化方法02正則化過擬合和欠擬合損失epoch驗證集訓練集欠擬合過擬合深度學習的優(yōu)化參數(shù)學習算法的優(yōu)化SGD/mini-batchSGD自適應學習率AdaGradRMSprop動量法Momentum減少每次訓練量Adam手動調(diào)整學習率隨機失活DropoutL1、L2正則化提前終止Earlystopping欠擬合(訓練集效果不好)過擬合(訓練集效果好,但驗證集效果不好)梯度下降:使用全部訓練集樣本,計算代價太高。(更新一次參數(shù),使用全部訓練樣本)隨機梯度下降(stochasticgradientdescent,SGD):
為了減少每次迭代的計算開銷,通常在每次迭代中,隨機均勻采樣一個樣本計算梯度,更新一次參數(shù)。
小批量隨機梯度下降(mini-batchSGD):
實際使用往往使用mini-batchSGD,即每次迭代中隨機均勻采樣多個樣本組成小批量,然后使用這個小批量來計算梯度,不僅能減少梯度估計的方差,還能充分利用計算資源,計算更快!1.參數(shù)最優(yōu)化–隨機梯度下降SGD
SGD缺點:1、容易收斂到局部最小值。2、選擇合適的learningrate比較困難-對所有的參數(shù)更新使用同樣的learningrateSmallBatchv.s.LargeBatchBatchsize=20(Fullbatch)每次看全量數(shù)據(jù)每個epoch更新一次每次看1個數(shù)據(jù)每個epoch更新20次總樣本(N=20)Batchsize=1SmallBatchv.s.LargeBatchMNISTCIFAR-10經(jīng)驗:較小的batch-size效果較好深度學習的優(yōu)化參數(shù)學習算法的優(yōu)化SGD/mini-batchSGD自適應學習率AdaGradRMSprop動量法Momentum減少每次訓練量Adam手動調(diào)整學習率隨機失活DropoutL1、L2正則化提前終止Earlystopping欠擬合(訓練集效果不好)過擬合(訓練集效果好,但驗證集效果不好)2.參數(shù)最優(yōu)化–手動調(diào)整梯度:動量法很難找到最佳的網(wǎng)絡(luò)參數(shù)在平坦處梯度下降緩慢停留在鞍點
停留在局部最小點
駐點(CriticalPoint)局部最小值鞍點普通GradientDescent
移動方向梯度……
帶動量的梯度下降
MovementGradient
移動方向不僅由負梯度方向決定,還要考慮上次的動量Movementofthelaststep
4.參數(shù)最優(yōu)化–自適應學習率Adagrad
學習率太小→訓練收斂太慢學習率太大→來回震蕩,損失未必會減低梯度變化小,希望η較大梯度變化大,希望η較小Adagrad:??←???
????∕??
??小常數(shù),防止分母為0前面梯度的平方的總和OriginalSGD: ??←
?????
????∕??????
通常每次參數(shù)更新時,對于所有參數(shù)使用相同的學習率。AdaGrad算法的思想是:每一次參數(shù)更新,不同的參數(shù)使用不同的學習率。對于梯度較大的參數(shù),學習率會變得較小;對于梯度較小的參數(shù),學習率會變大。這樣可以使得參數(shù)在平緩的地方下降的稍微快些,不至于徘徊不前。5.參數(shù)最優(yōu)化–自適應學習率RMSpropRMSprop(rootmeansquareprop均方根傳遞):RMSProp增加了一個衰減系數(shù)α來控制歷史信息的獲取多少使用指數(shù)衰減平均,以丟棄遙遠過去歷史梯度。降低了對早期歷史梯度的依賴歷史的梯度被逐漸減弱Adam(AdaptiveMomentEstimation)
Momentum
(用動量來累積梯度)RMSprop(收斂速度更快、波動幅度更小)。Adam特點:結(jié)合AdaGrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標的優(yōu)點對內(nèi)存需求較小為不同的參數(shù)計算不同的自適應學習率第五章深度學習01深度學習中的優(yōu)化方法02正則化深度學習的正則化參數(shù)學習算法的優(yōu)化SGD/mini-batchSGD自適應學習率AdaGradRMSprop動量法Momentum減少每次訓練量Adam手動調(diào)整學習率隨機失活DropoutL1、L2正則化提前終止Earlystopping欠擬合(訓練集效果不好)過擬合(訓練集效果好,但驗證集效果不好)1.防止過擬合–L1、L2正則化由于深度網(wǎng)絡(luò)的表達能力很強,模型復雜度高,很容易導致過擬合,泛化能力降低深度學習中的正則化的目的:防止過擬合,提高泛化能力損失epoch驗證集訓練集L1正則化L2正則化
L1正則化項是所有參數(shù)的絕對值之和,可以抑制參數(shù)的大小,但是易產(chǎn)生稀疏解,即一部分為0,一部分非零實數(shù)。L2正則化項是參數(shù)的平方和。傾向于讓參數(shù)數(shù)值上盡可能小,最后構(gòu)造出一個所有參數(shù)都比較小的模型,一定程度上避免過擬合。L1使權(quán)重稀疏,L2使權(quán)重平滑。常用L2正則。λ(懲罰系數(shù))越大,權(quán)重總體越小。2.防止過擬合–提前停止(Earlystopping)模型的泛化能力通常是使用驗證集評估得到的。隨著不停的迭代,模型在訓練集上的誤差越來越小,而驗證集上誤差往往會先減少后變大,因此可以在驗證集上效果變差的時候,提前停止。損失epoch驗證集訓練集提前停止在深度學習網(wǎng)絡(luò)的訓練過程中,每次更新參數(shù)之前,每個神經(jīng)元都有p的概率被丟棄dropout是防止過擬合提高的泛化性的利器3.防止過擬合–隨機失活(Dropout)人工智能技術(shù)基礎(chǔ)5.4循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)第五章深度學習
01RNN概論
02RNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理
03LSTM詳解
04GRU詳解生活中的序列數(shù)據(jù)73文本序列數(shù)據(jù)時間序列數(shù)據(jù)何人無不見,此地自何如。一夜山邊去,江山一夜歸。山風春草色,秋水夜聲深。何事同相見,應知舊子人。何當不相見,何處見江邊。一葉生云里,春風出竹堂。何時有相訪,不得在君心。為什么需要RNN?全連接網(wǎng)絡(luò)、CNN網(wǎng)絡(luò):前一個輸入和后一個輸入是完全沒有關(guān)系的某些任務(wù)需要能夠更好的處理序列的信息,即前面的輸入和后面的輸入是有關(guān)系的。任務(wù)輸入輸出詞性標注我吃蘋果我/nn吃/v蘋果/nn文本分類手機不買很吃虧1時間序列預測(每天氣溫)(次日氣溫)同步翻譯IloveChina我愛中國下一個出現(xiàn)位置預測基站A、B、C基站D為什么需要循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)?為什么需要循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)?7575RNN是為了對序列數(shù)據(jù)進行建模而產(chǎn)生的。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(包括FCN、CNN),輸入和輸出都是互相獨立的。RNN針對:序列數(shù)據(jù)(例如文本,是字母和詞匯的序列;語音,是音節(jié)的序列;視頻,是圖像的序列;氣象觀測數(shù)據(jù),股票交易數(shù)據(jù)等等)輸出的內(nèi)容與之前的內(nèi)容是相關(guān)的。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(包括FCN、CNN),要求有固定的輸入和輸出的尺寸,而在文本領(lǐng)域,根據(jù)不同任務(wù)需要處理1-1,1-多,多-多,多-1等多種情況。RNN網(wǎng)絡(luò)結(jié)構(gòu)較為靈活。核心思想:樣本間存在順序關(guān)系,每個樣本和它之前的樣本存在關(guān)聯(lián)。引入“記憶”的概念,來處理前后數(shù)據(jù)的相關(guān)性。第五章深度學習
01RNN概論
02RNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理
03LSTM詳解
04GRU詳解RNN結(jié)構(gòu)
輸入層隱藏層輸出層MemoryCell循環(huán)神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
SimpleRNN在計算時,把上一次隱藏層的結(jié)果數(shù)據(jù),作為下一次的一個輸入源,與下一次的x合并后,再傳入隱藏層。這個過程,保留了之前數(shù)據(jù)的信息。RNN的過程中,共享同一個權(quán)重矩陣A。這個A就是W和U的拼接。RNNexampleRNN處理序列數(shù)據(jù),按序?qū)?shù)據(jù)一個一個傳入網(wǎng)絡(luò)計算RNNexampleEg:根據(jù)用戶的輸入,判斷用戶的說話意圖(多分類)RNN存在的問題RNN的缺陷:1.RNN有短期記憶問題,無法處理很長的輸入序列由于反向傳播BPTT(backpropthroughtime)算法普遍存在梯度消失的問題,但是由于RNN是序列計算,所以早期的步驟的梯度就非常小了。短期的記憶影響較大(如橙色區(qū)域),但是長期的記憶影響就很小(如黑色和綠色區(qū)域)由于RNN的短期記憶問題,后來又出現(xiàn)了一系列基于RNN的優(yōu)化算法。RNN應用舉例——預測股價83Wt-1Wt+1Wt輸入最近兩天的股價,預測第三天的股價RNN應用舉例——預測位置84輸入用戶已經(jīng)走過點的經(jīng)緯度,預測用戶下一時刻的經(jīng)緯度。RNN基礎(chǔ)RNN使用場景時序數(shù)據(jù)、文本、語音等設(shè)計原因數(shù)據(jù)有時間上的先后依賴關(guān)系記憶單元工作原理,數(shù)據(jù)連接方式總結(jié)人工智能技術(shù)基礎(chǔ)5.4卷積神經(jīng)網(wǎng)絡(luò)(CNN)第五章深度學習01CNN為什么適用于圖像02CNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理圖像的表示88灰度圖片:18*18*1彩色圖片(RGB)48*48*3RGB每個通道的每個像素用[0,255]之間的數(shù)字表示為什么CNN適用于圖像?8989圖像識別的輸入X是shape為(width,height,depth)的三維張量。直接展開至一維向量作為全連接的輸入層會非常大。1、彩色圖片維度很大…………softmax……10003x
107100x100x
3100100為什么CNN適用于圖像?90識別貓
→識別貓眼睛、貓耳朵等特征2、特征往往小于圖片3、特征會出現(xiàn)在圖片的任何位置檢測中間偏右是否有貓眼睛檢測中間偏左是否有貓眼睛幾乎做完全一樣的事,用完全一樣的參數(shù)設(shè)置為什么CNN適用于圖像?4、圖片壓縮大小不會改變特征下采樣下采樣
→保留特征+減小圖片尺寸→網(wǎng)絡(luò)中節(jié)點數(shù)變少→參數(shù)變少→加快訓練第五章深度學習01CNN為什么適用于圖像02CNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理CNN基本網(wǎng)絡(luò)結(jié)構(gòu)卷積層非線性池化X?是:0.08否:0.92全連接向量化…1.卷積運算9494卷積前:6x61×1+0×(-1)+0×(-1)+0×(-1)+1×1+0×(-1)+0×(-1)+0×(-1)+1×1=3
-1-3-1-310
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷庫保管合同樣本
- 制式合同和合同標準文本區(qū)別
- 出國留學機構(gòu)合同標準文本
- 充電樁加盟合同樣本
- 假發(fā)買賣合同樣本
- 農(nóng)村自制菜銷售合同樣本
- 2000工程勘察合同樣本
- 企業(yè)合同標準文本體系
- 外研版五年級英語上冊多媒體教學計劃
- 《峰爆》電影中的視覺藝術(shù)與感受心得體會
- 中國變應性鼻炎診斷和治療指南(2022版)解讀
- 印刷品投標方案
- 焊材發(fā)放與回收及焊條烘干記錄記錄表
- 前言 馬克思主義中國化時代化的歷史進程與理論成果
- 組合電器(gis)設(shè)備解體大修作業(yè)指導書
- 酒精依賴癥研究白皮書
- 服裝高級定制技術(shù)
- 21ZJ111 變形縫建筑構(gòu)造
- 第1章 健康風險與健康保險《健康保險學》教學課件
- 復變函數(shù)與積分變換-西北工業(yè)大學中國大學mooc課后章節(jié)答案期末考試題庫2023年
- SAP各模塊常用表清單
評論
0/150
提交評論