深度學習-電子工業出版社-劉鵬張燕-第7章-深度學習在圖像中的應用_第1頁
深度學習-電子工業出版社-劉鵬張燕-第7章-深度學習在圖像中的應用_第2頁
深度學習-電子工業出版社-劉鵬張燕-第7章-深度學習在圖像中的應用_第3頁
深度學習-電子工業出版社-劉鵬張燕-第7章-深度學習在圖像中的應用_第4頁
深度學習-電子工業出版社-劉鵬張燕-第7章-深度學習在圖像中的應用_第5頁
已閱讀5頁,還剩22頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

高級大數據人才培養叢書之一,大數據挖掘技術與應用劉鵬主編趙海峰副主編BIGDATA劉鵬張燕總主編深度學習第七章深度學習在圖像中的應用全國高校標準教材《云計算》姊妹篇,剖析深度學習核心技術和實戰應用of3127.1圖像識別基礎7.2基于深度學習的大規模圖像識別7.3應用舉例:人臉識別7.4應用舉例:圖像風格化習題7.5應用舉例:圖像標注7.1圖像識別基礎第七章深度學習在圖像中的應用of3131.人眼和計算機的圖像識別過程7.1圖像識別基礎第七章深度學習在圖像中的應用of314

對于一張自然場景圖像,我們人眼看到的會是左邊這張生動的圖像;而對于計算機而言,看到的確是一堆枯燥的數字(這些數字對應的是圖像各像素點的灰度等特征值)。如何在像素點的特征值和圖像語義之間進行處理和關聯是計算機進行圖像識別的一大難題。2.計算機對圖像進行識別的難點第七章深度學習在圖像中的應用全國高校標準教材《云計算》姊妹篇,剖析深度學習核心技術和實戰應用of3157.1圖像識別基礎7.2基于深度學習的大規模圖像識別7.3應用舉例:人臉識別7.4應用舉例:圖像風格化習題7.5應用舉例:圖像標注7.2基于深度學習的大規模圖像識別第七章深度學習在圖像中的應用of3161.大規模圖像數據庫:Imagenet

ImageNet由美國斯坦福大學LiFei-fei教授的研究團隊提出,是一個很大規模的數據庫,包含超過一千五百萬具有標簽的高清圖像,這些圖像可以分成約兩萬兩千個類別。這些圖像均從網絡中采集而得;并使用亞馬遜的“土耳其機器人”眾包工具,集廣大網民的力量手工標注獲得圖像對應的標簽。

7.2基于深度學習的大規模圖像識別第七章深度學習在圖像中的應用of3172.AlexNet網絡結構

AlexNet總共包含8個學習層:前5層是卷積層,最后3層是全連接層。在這5個卷積層中,第1、2、5層后面有最大值池化(Maxpooling)層。7.2基于深度學習的大規模圖像識別第七章深度學習在圖像中的應用of3183.非線性激活函數ReLU

AlexNet中,使用ReLU激活函數來替代Sigmoid激活函數。相比較于Sigmoid激活函數而言:(1)ReLU激活函數在大于0的部分梯度為常數,不會出現梯度彌散現象;(2)ReLU激活函數在小于0的部分梯度都為0,可以在一定程度上緩解過擬合現象的發生;(3)ReLU激活函數的導數計算非常簡單快速(3)ReLU激活函數的導數計算非常簡單快速7.2基于深度學習的大規模圖像識別第七章深度學習在圖像中的應用of3194.增加訓練樣本

增加訓練樣本,又稱為數據增強(dataaugmentation),通過對圖像進行變換人為地擴大訓練數據集。該方法是減少過擬合現象的一個最容易和最普遍的方法。常見數據增強方法:1、隨機裁剪和水平翻轉;2、顏色調整7.2基于深度學習的大規模圖像識別第七章深度學習在圖像中的應用of31105.dropout技術

在網絡訓練期間,dropout技術相當于是對整體神經網絡進行子采樣。具體實現方法為:以50%的概率將神經網絡中每一個隱層結點的輸出設置為0,使之不參與前向傳播和反向傳播。第七章深度學習在圖像中的應用全國高校標準教材《云計算》姊妹篇,剖析深度學習核心技術和實戰應用of31117.1圖像識別基礎7.2基于深度學習的大規模圖像識別7.3應用舉例:人臉識別7.4應用舉例:圖像風格化習題7.5應用舉例:圖像標注7.3應用舉例:人臉識別第七章深度學習在圖像中的應用of3112

在自然場景中進行自動人臉識別的經典流程一般分為以下三個步驟:人臉檢測(facerecognition)、人臉對齊(facealignment,又稱作面部特征點對齊)、特征提取和分類器設計1.人臉識別的經典流程7.3應用舉例:人臉識別第七章深度學習在圖像中的應用of3113

LFW(LabeledFacesintheWild)數據庫是自然場景環境下人臉識別問題的測試基準,是目前用得最多的自然場景人臉圖像數據庫。該數據庫中的圖像來源于因特網,采集的是自然場景環境下的人臉圖像,目的是提高自然場景環境下人臉識別的準確率。這個數據庫包含5749個人,共13233幅圖像。2.人臉圖像數據庫7.3應用舉例:人臉識別第七章深度學習在圖像中的應用of3114DeepFace方法的貢獻主要包括兩點:一是基于3D模型對人臉進行對齊;二是使用大數據訓練深層的人工神經網絡,得到具有判別性的人臉特征。3.基于深度學習的人臉識別方法第七章深度學習在圖像中的應用全國高校標準教材《云計算》姊妹篇,剖析深度學習核心技術和實戰應用of31157.1圖像識別基礎7.2基于深度學習的大規模圖像識別7.3應用舉例:人臉識別7.4應用舉例:圖像風格化習題7.5應用舉例:圖像標注7.4應用舉例:圖像風格化第七章深度學習在圖像中的應用of31161.內容重構

下圖中所得到的五個內容重構結果分別基于VGG模型中的‘conv1_1’層(a),‘conv2_1’層(b),‘conv3_1’層(c),‘conv4_1’層(d)和‘conv5_1’層(e)。7.4應用舉例:圖像風格化第七章深度學習在圖像中的應用of31172.風格重構

通過計算卷積神經網絡在某一層各特征圖之間的相關性對圖像的風格進行重構,可以得到一個相對應的風格表示圖。為了生成與給定圖的風格相匹配的紋理圖像,Gatys等人首先初始化一個白噪聲圖像,接著使用梯度下降法來尋找與原圖的風格表示相匹配的圖像,得到在該層風格重構的生成圖像。上頁圖中所得到的五個風格重構結果分別基于VGG模型中的‘conv1_1’層(a),‘conv1_1’和‘conv2_1’層(b),‘conv1_1’、‘conv2_1’和‘conv3_1’層(c),‘conv1_1’、‘conv2_1’、‘conv3_1’和‘conv4_1’層(d),‘conv1_1’、‘conv2_1’、‘conv3_1’、‘conv4_1’和‘conv5_1’層(e)對風格表示進行匹配而得。7.4應用舉例:圖像風格化第七章深度學習在圖像中的應用of31183.內容與風格的重組

下圖中第A行顯示的是與VGG模型中‘conv1_1’層風格重構相匹配的結果,第B行顯示的是與VGG模型中‘conv1_1’和‘conv2_1’層風格重構相匹配的結果,第C行顯示的是與VGG模型中‘conv1_1’、‘conv2_1’和‘conv3_1’層風格重構相匹配的結果,第D行顯示的是與VGG模型中‘conv1_1’、‘conv2_1’、‘conv3_1’和‘conv4_1’層風格重構相匹配的結果,第E行顯示的是與VGG模型中‘conv1_1’、‘conv2_1’、‘conv3_1’、‘conv4_1’和‘conv5_1’層風格重構相匹配的結果。第七章深度學習在圖像中的應用全國高校標準教材《云計算》姊妹篇,剖析深度學習核心技術和實戰應用of31197.1圖像識別基礎7.2基于深度學習的大規模圖像識別7.3應用舉例:人臉識別7.4應用舉例:圖像風格化習題7.5應用舉例:圖像標注7.5應用舉例:圖像標注第七章深度學習在圖像中的應用of3120

圖像標注是由計算機以說明或關鍵詞的形式分配語言數據給一張圖像的過程。1.基于深度網絡的圖像標注方法概述圖像標注流程7.5應用舉例:圖像標注第七章深度學習在圖像中的應用of3121

視覺和語義的對齊模型主要由三個部分組成2.視覺語義對齊視覺表示語義表示視覺語義對齊

構造卷積神經網路(ConvolutionNeuralNetwork,CNN),用于表示圖像區域

構造雙向循環神經網絡(BidirectionalRecurrentNeuralNetworks),用于表示語句

構造結構化的目標函數,使用多模態嵌入方法將圖像區域與語義進行對齊7.5應用舉例:圖像標注第七章深度學習在圖像中的應用of3122

假定我們有一些圖像和相關語句描述的集合,這些集合可以是整幅的圖像和相關的語句描述,也可以是圖像區域和相關的語句片段。主要的挑戰是設計一個模型,使之可以根據給定的新圖像預測相對應的文本描述3.為新圖像生成對應文本描述多模態循環神經網絡MRNN的流程圖習題:1.傳統的圖像識別由哪兩個經典步驟組成?2.傳統的圖像識別與基于深度學習的圖像識別之間的主要區別是什么?3.最早用于圖像識別并取得突破性進展的深度網絡是什么網絡?它由多少卷積層和多少全連接層構成?4.Sigmoid激活函數和ReLU激活函數的公式分別是什么?ReLU激活函數具有哪些優點?5.常用的數據增強方法有哪些?AlexNet中使用了哪些數據增強方法?在線學習、在線動手做實驗學習云創大數據大量實際項目獲取云創工程師認證、工信部認證、國際認證大數據能力分析、工作匹配、智能推薦云創大學微信公眾號云

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論