《人工智能技術基礎》課件 第3章 卷積神經網絡_第1頁
《人工智能技術基礎》課件 第3章 卷積神經網絡_第2頁
《人工智能技術基礎》課件 第3章 卷積神經網絡_第3頁
《人工智能技術基礎》課件 第3章 卷積神經網絡_第4頁
《人工智能技術基礎》課件 第3章 卷積神經網絡_第5頁
已閱讀5頁,還剩33頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能技術基礎卷積神經網絡第三章

卷積神經網絡(ConvolutionalNeuralNetworks,CNN)是一類包含卷積計算且具有深層結構的前饋神經網絡。卷積神經網絡的研究始于20世紀80~90年代,LeNet-5是最早出現的卷積神經網絡;2012年,AlexKrizhevsky等憑借AlexNet得了當年的視覺圖像挑戰賽,震驚世界。自此之后,各類采用卷積神經網絡的算法紛紛成為大規模視覺識別競賽的優勝算法。如今,卷積神經網絡已經成為計算機視覺領域最具有影響力的技術手段。

3卷積神經網絡簡介1.了解圖像基本特點,并掌握卷積神經網絡的基本特性;2.掌握卷積神經網絡的基本組成,卷積層、池化層和全連接層的特性;3.學習常用的幾種卷積操作、池化操作以及全連接層的卷積操作,掌握卷積層步長的選擇和padding的選擇會實現圖像語義分割中常用的反卷積和空洞卷積;4.了解幾種經典的卷積神經網絡模型LeNet5、AlexNet、VGG、GoogleNet、ResNet、DenseNet和SE-Net。學習目標3卷積神經網絡目錄Contents3.1卷積神經網絡的特性卷積神經網絡結構與訓練卷積神經網絡經典模型介紹本章小結3.23.33.401卷積神經網絡特性3.1卷積神經網絡特性

卷積神經網絡具有的局部連接、權值共享和不變性與圖像的局部性、相同性和不變性相一致,特別適合處理與圖像相關的任務,因此在計算機視覺領域發揮了重要作用。特征定義局部性當需要從一張圖片中獲取某一特征時,該特征通常不是由整張圖片決定的,而是僅由圖片中的一些局部區域來決定。相同性對于不同的圖片,如果它們具有相同特征,即使這些特征位于不同的位置,但是檢測所做的操作是一樣的。不變性對于一張圖片在進行下采樣后,圖片的性質基本上是保持不變的,改變的僅僅是圖片的尺寸。3.1卷積神經網絡特性

全連接神經網絡中的每個神經元都與它前一層中的所有神經元相連,如果將圖像的每一個像素看作一個神經元,使用全連接網絡完成與圖像相關的任務,無疑對計算機的存儲和運算速度有著很高的要求,而且圖像越大,要求越高。并且對于圖像來說,每個像素和其周圍像素的聯系是相對比較緊密的,而和離得很遠的像素的聯系可能就比較小了。如果一個神經元和上一層所有的神經元相連,那么就相當于對于一個像素來說,把圖像的所有像素都同等看待了,缺少了位置信息。而卷積神經網絡采用局部連接的方法,每個神經元不再和上一層的所有神經元相連,而只和一小部分神經元相連,這樣就減少了很多的參數,加快了學習速度。3.1.1局部連接局部連接全連接3.1卷積神經網絡特性

一般神經網絡層與層之間的連接是,每個神經元與上一層的全部神經元相連,這些連接權重獨立于其他的神經元,所以假設上一層是m個神經元,當前層是n個神經元,那么共有m×n個連接,也就有m×n個權重。權重矩陣就是m×n形狀。而在卷積神經網絡中,給一張輸入圖片,通常的做法是用一個卷積核(類似于圖像處理中的濾波器,實質為針對一個小區域的一組連接權重)去掃描這張圖,卷積核里面的數實質就是神經網絡中不同層神經元之間的連接權。權值共享意味著每一個卷積核在遍歷整個圖像的時候,卷積核的參數(連接權值)是固定不變的,比如有3個卷積核,每個卷積核都會掃描整個圖像,在掃描的過程中,卷積核的參數值是固定不變的,即整個圖像的所有元素都“共享”了相同的權值。3.1.2權值共享3.1卷積神經網絡特性

卷積神經網絡中有一種重要的操作:池化操作(通常采用取最大值操作),它將前一層的一個小區域中所有像素值變成了下一層中的一個像素值。這就意味著即使圖像經歷了一個小的平移或旋轉之后,依然會產生相同的特征,這使卷積神經網絡對微小的平移和旋轉具有不變性。在很多任務中,例如物體檢測、語音識別等,我們都更希望得到具有平移和旋轉不變性的特征,希望即使圖像經過了平移和旋轉,圖像的標記仍然保持不變。3.1.3不變性02卷積神經網絡結構與訓練3.2卷積神經網絡結構與訓練

卷積神經網絡由卷積層、池化層和全連接層組成,其訓練采用誤差反向傳播(BP)算法。3.2卷積神經網絡結構與訓練

3.2.1卷積層圖像的像素矩陣1Texthere卷積核填充

在卷積操作過程中,如果不對要進行卷積的圖像(隱層的圖像稱特征圖)預先作填充處理,卷積后的圖像會變小,卷積層越多,卷積后的特征圖會越小。而且輸入特征圖四個角的邊緣像素只被計算一次,而中間像素則被卷積計算多次,意味著丟失圖像角落信息。此外,實際應用中有時希望輸入和輸出在空間上尺寸是一致的。因此,為了解決上述問題,就對輸入特征圖進行邊界填充,即填充像素。常用的邊界填充方法包括:零填充、邊界復制、鏡像、塊復制,常用的是零填充。卷積核

在進行圖像處理時,給定輸入圖像,輸出圖像中的每一個像素就是輸入圖像中一個小區域中像素的加權平均,其中權值由一個函數定義,這個函數即為卷積核。在卷積神經網絡里,通常稱之為濾波器。

主要特點:1.卷積核只關注局部特征,局部的程度取決于卷積核的大??;2.卷積核的深度要和輸入圖片的通道數相同;3.一個卷積核在與輸入圖片的不同區域做卷積時,它的參數是固定不變的;4.在一個卷積層中,通常會有一整個集合的卷積核組(也稱濾波器組),每個卷積核組對應檢測一種特征。步長

步長即卷積核在原始圖片上做卷積時每次滑動的像素點,步長不同,所得到的輸出結果也是不同的。如不加以說明,默認步長為1。3.2卷積神經網絡結構與訓練步長卷積層填充3.2卷積神經網絡結構與訓練幾種在圖像上的卷積過程:單通道卷積多通道卷積3D卷積分組卷積混洗分組卷積3.2.1卷積層多通道+多卷積3D卷積分組卷積混洗分組卷積3.2卷積神經網絡結構與訓練

在卷積神經網絡中,通常會在卷積層之間周期性的插入一個池化層(Pooling),也稱下采樣層(Downsampling),它的作用有三個:池化層具有特征不變性池化能夠對特征進行降維加入池化層能在一定程度上防止過擬合,更方便優化。3.2.2池化層池化過程3.2卷積神經網絡結構與訓練常用的池化操作有最大池化(Max-pooling)、平均池化(Mean-pooling)。研究人員還提出了針對整個特征圖進行的池化操作稱為全局池化,也分為全局最大值池化(GMP)和全局平均池化(GAP)。將GMP和GAP的結果并接后用于通道注意力和空間注意力中,提高CNN的性能已成為常用手段。3.2.2池化層3.2卷積神經網絡結構與訓練卷積層提取的是輸入圖片的局部特征,全連接層則是把提取到的局部特征重新排列為一維向量。全連接層將局部特征中的每一個點與輸出向量中的每一個點都互相連接起來,并且讓每個連接都具有獨立的權值,所以稱為全連接。在卷積神經網絡中,全連接層充當著網絡的分類器。全連接層可以整合卷積層或者池化層中具有類別區分性的局部信息。3.2.3全連接層卷積層——全連接層3.2卷積神經網絡結構與訓練卷積神經網絡的訓練直接采用第2章介紹的誤差反向傳播(BP)算法,只需注意各層神經元的連接關系和共享特性。批正則化(BN)針對卷積網絡的每個神經元,使數據在進入激活函數之前,沿著通道計算每個批次(Batch)的均值、方差,‘強迫’數據保持均值為0,方差為1的正態分布,避免發生梯度消失。3.2.4卷積神經網絡的訓練批正則化(BN)過程3.2卷積神經網絡結構與訓練BatchNormalization的優勢與局限:優勢極大提升了訓練速度,收斂過程大大加快;還能增加分類效果,一種解釋是這是類似于Dropout的一種防止過擬合的正則化表達方式,所以不用Dropout也能達到相當的效果;另外調參過程也簡單多了,對于初始化要求沒那么高,而且可以使用大的學習率等。3.2.4卷積神經網絡的訓練3.2卷積神經網絡結構與訓練BatchNormalization的優勢與局限:2.局限每次是在一個Batch上計算均值、方差,如果Batchsize太小,則計算的均值、方差不足以代表整個數據分布;Batchsize太大:會超過內存容量;需要跑更多的Epoch,導致總訓練時間變長;會直接固定梯度下降的方向,導致很難更新;不適用于動態網絡結構,例如,RNN。3.2.4卷積神經網絡的訓練03卷積神經網絡經典模型介紹卷積神經網絡經典模型LeNetAlexNetVGGGoogleNetResNetDenseNetSE-Net3.3卷積神經網絡經典模型介紹LeNet-5模型是YannLeCun教授于1998年在論文《Gradient-basedlearningappliedtodocumentrecognition》中提出的,它是第一個成功應用于手寫數字識別問題的卷積神經網絡。LeNet的最大貢獻是:它定義了CNN的基本結構,可稱為CNN的鼻祖。自那時起,CNN最基本的架構就定下來了:卷積層、池化層、全連接層。LeNet-5模型一共有7層,主要有2個卷積層、2個下采樣層(池化層)、3個全連接層。3.3卷積神經網絡經典模型介紹LeNet-5網絡結構3.3.1LeNet網絡AlexNet是由2012年圖像識別大賽冠軍獲得者辛頓和他的學生亞歷克斯·克里熱夫斯基(AlexKrizhevsky)設計的,AlexNet的出現也使得CNN成為了圖像分類的核心算法模型。其官方提供的數據模型,準確率Top-1達到57.1%,Top-5達到80.2%。這相對于傳統的機器學習分類算法而言,已經相當出色。因為是采用兩臺GPU服務器,所以會看到兩路網絡。AlexNet模型共有八層,其中包括5個卷積層和3個全連接層,每一個卷積層中都包含了ReLU激活函數和局部相應歸一化(LocalResponseNormalization,LRN)處理。3.3卷積神經網絡經典模型介紹AlexNet網絡結構3.3.2AlexNet網絡VGGNet是VisualGeometryGroup的縮寫,是由牛津大學計算機視覺組合和谷歌DeepMind公司研究員一起研發的深度卷積神經網絡。VGGNet和GoogleNet同在2014年參賽,圖像分類任務中GoogLeNet第一,VGG第二,它們都是十分有意義的網絡結構。VGGNet的提出,證明了用尺寸很小的卷積(3×3)來增加網絡深度能夠有效提升模型的效果,且此網絡對其他數據集有較好的泛化能力,同時證明了增加網絡的深度能夠在一定程度上提升網絡最終的性能。VGGNet有兩種結構,分別是VGG16和VGG19,兩者除了網絡深度不一樣,其本質并沒有什么區別。其中VGG16是最常用的。3.3卷積神經網絡經典模型介紹VGGNet網絡結構3.3.3VGGNet網絡LeNet-5、AlexNet、VGGNet屬于早期的網絡結構。它們都是通過加深網絡、修改卷積核大小等手段來提升性能。雖然這三個網絡模型的性能有所提高,但是網絡的結構仍然是卷積-池化串聯的方式。通過增加網絡層數的方式雖然在一定程度上能夠增強模型的性能,但是當網絡的層數已經很多時,繼續增加網絡層數,并不能提高模型性能。因此Inception-block、ResNet-block、DenseNet-block、SE-block等模塊的提出在一定程度上避免了這種問題,通過模塊與模塊的不斷堆疊組成了Inception、ResNet、DenseNet等經典網絡。本節主要介紹Inception-block、ResNet-block、DenseNet-block、SE-block等模塊的基本結構。3.3卷積神經網絡經典模型介紹3.3.4其它經典網絡的基本結構1.Inception-blockInception網絡在ILSVRC14中達到了當時最好的分類和檢測性能。這個架構的主要特點是能夠更好地利用網絡內部的計算資源。3.3卷積神經網絡經典模型介紹3.3.4其它經典網絡的基本結構Inception原始模塊1.Inception-blockInception網絡在ILSVRC14中達到了當時最好的分類和檢測性能。這個架構的主要特點是能夠更好地利用網絡內部的計算資源。3.3卷積神經網絡經典模型介紹3.3.4其它經典網絡的基本結構Inception原始模塊實現降維Inception模塊1.Inception-blockInceptionv2和Inceptionv3來自同一篇論文《RethinkingtheInceptionArchitectureforComputerVision》,作者提出了一系列能夠增加準確度和減少計算復雜度的修正方法。3.3卷積神經網絡經典模型介紹3.3.4其它經典網絡的基本結構InceptionV2模塊擴展后的模型1.Inception-blockInceptionv4在2015年被提出,大部分沿用了之前v1、v2的結構,主要是為分片訓練考慮。2015年Tensorflow還沒有出現,在分片訓練時需要考慮各個機器上計算量的平衡來縮短總的訓練時間,因此在設計結構時會受到限制。2016年,Tensorflow開始被廣泛使用,其在內存的占用上做了優化,所以便不需要采取分片訓練,在這一基礎上,Inception網絡做了優化,于是就有了Iceptionv4。3.3卷積神經網絡經典模型介紹3.3.4其它經典網絡的基本結構InceptionV4模塊2.ResNet-blockResNet引入了殘差網絡結構(ResidualNetwork),通過這種殘差網絡結構,可以在加深網絡層數的同時得到非常不錯的分類效果。殘差網絡借鑒了高速網絡(HighwayNetwork)的跨層連接思想,并在此基礎上進行改善,殘差項原本是帶權值的,但是ResNet用恒等映射作為替代。3.3卷積神經網絡經典模型介紹3.3.4其它經典網絡的基本結構殘差網絡基本結構3.DenseNet-blockDenseNet-block的基本思路與ResNet-block一致,但是它建立的是前面所有層與后面層的密集連接(DenseConnection),它的名稱也是由此而來。DenseNet的另一大特色是通過特征在通道上的連接來實現特征重用(FeatureReuse)。這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論