圖像處理與機器視覺 課件 第12章 目標分類、檢測與分割_第1頁
圖像處理與機器視覺 課件 第12章 目標分類、檢測與分割_第2頁
圖像處理與機器視覺 課件 第12章 目標分類、檢測與分割_第3頁
圖像處理與機器視覺 課件 第12章 目標分類、檢測與分割_第4頁
圖像處理與機器視覺 課件 第12章 目標分類、檢測與分割_第5頁
已閱讀5頁,還剩27頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第十二章圖像分類、檢測與分割

1、圖像分類2ILSVRC的歷屆冠軍

數據集:MNIST是手寫數字的分類標準,包含60000個訓練數據,10000個測試數據,圖像均為灰度圖;MNIST和CIFAR數據集都只有60000張圖,對于10分類這樣的簡單的任務來說足夠;ImageNet數據集在2009年發布,并且從2010年開始每年舉辦一次ImageNet大規模視覺識別挑戰賽,即ILSVRC。ImageNet數據集總共有1400多萬幅圖片,涵蓋2萬多個類別,在論文方法的比較中常用的是1000類的基準。

1.1、卷積神經網絡3CNN結構:卷積神經網絡主要由輸入層、池化層、全連接層、輸出層等結構組成

1.1、卷積神經網絡4卷積層是卷積神經網絡中最重要的層之一,它使用卷積操作來提取輸入圖像的特征

1.1、卷積神經網絡5激活函數是神經網絡中的一個重要組成部分,在每一層神經網絡的后面都會跟有一個激活函數,其作用是幫助網絡學習數據中的復雜模式,使神經網絡可以逼近更復雜的函數常見的激活函數有ReLU函數、Sigmoid函數、Tanh函數

1.1、卷積神經網絡6池化層是卷積神經網絡中的一種基本層級,它通過將卷積層的特征圖進行下采樣,減小特征圖的維度,從而降低模型的復雜度,減少參數數量和計算量,同時池化層還可以增強特征的魯棒性,提高模型的泛化能力池化層一般分為最大池化和平均池化兩種類型

1.1、卷積神經網絡7全連接層是神經網絡的一種基本層,也稱為密集連接層(Denselayer)。該層中的每個神經元都與前一層的每個神經元相連,因此也被稱為“全連接”。

1.2、AlexNet8AlexNet是一種經典的深度卷積神經網絡,由五個卷積層和三個全連接層組成,它在圖像分類任務中具有重要地位AlexNet使用ReLU激活函數來引入非線性特性有助于網絡更好地擬合復雜的數據模式。AlexNet在卷積層之間使用LRN進行局部響應歸一化有助于抑制特征圖的競爭,提高網絡的魯棒性。AlexNet在全連接層中引入了Dropout正則化,以減少過擬合。Dropout在訓練時隨機關閉一部分神經元,有助于提高模型的泛化能力。AlexNet在訓練時使用兩個GPU,這是當時的一項創新,加速了訓練過程

1.3、ResNet9ResNet是一種深度卷積神經網絡架構,其關鍵創新是引入了殘差塊(ResidualBlock)或殘差連接(ResidualConnection),以有效地解決深度神經網絡中的梯度消失問題ResNet-34網絡結構ResNet殘差塊

1.4、案例:基于CNN的手寫數字識別10MNIST數據集(MixedNationalInstituteofStandardsandTechnologydatabase)是一個用來訓練各種圖像處理系統的二進制圖像數據集,廣泛應用于機器學習中的訓練和測試。共有70000張圖像,其中訓練集60000張,測試集10000張

1.4、案例:基于CNN的手寫數字識別11步驟:(1)數據準備通過torchvision.datasets.MNIST加載了MNIST數據集,包括訓練數據和測試數據(2)模型定義CNN的自定義卷積神經網絡模型。模型包括兩個卷積層(conv1和conv2),兩個全連接層(out1和out2),以及一個dropout層。在每個卷積層之后都使用了ReLU激活函數,而在全連接層之間也使用了ReLU激活函數。模型的最后一層是一個具有10個輸出的全連接層,對應于0到9的數字類別。(3)模型訓練train函數用于訓練模型(4)模型評估test函數用于評估模型性能AccuracyPrecisionRecall97.40%97.32%97.33%

2、目標檢測12目標檢測旨在圖像中檢測并定位一個或多個感興趣的物體,然后為每個檢測到的物體分配一個類別標簽深度學習目標檢測包括一階段和二階段檢測算法PascalVOC,ILSVRC,MS-COCO,KITTI數據集是目標檢測使用最多的四大公共數據

2.1、兩階段目標檢測算法-R-CNN13R-CNN結構是典型的兩階段目標檢測框架,由RossGirshick等人在2014年提出R-CNN的提出標志著深度學習方法開始在目標檢測領域取得成功包括候選區域生成(第一階段)和目標分類與邊界框回歸(第二階段)。

2.2、兩階段目標檢測算法-Faster-RCNN14Faster-RCNN算法是R-CNN系列的目標檢測算法,它是在Fast-RCNN算法的基礎上對其進行了改進后得到的,用區域生成網絡取代了原先的selectivesearch方法,從而將候選框的數目從最初的大約2000個降低到300個,并且候選框的質量也有了顯著的改善,可以有效地提升訓練和測試時的速度。Faster-RCNN的模型結構可以分成四個模塊:卷積層(ConvLayers)、RPN網絡(RegionProposalNetwork)、池化層ROIPooling、分類回歸層(Classificationandregression)

2.3、單階段目標檢測算法-SSD15SSD是一種單階多層的目標檢測模型,網絡結構最早由WeiLiu提出,由深度卷積神經網絡(DCNN)和特定的檢測層組成。SSD采用預訓練的深度卷積神經網絡作為基礎網絡,如VGGNet或ResNet,以便從圖像中提取高級語義特征。然后,SSD添加了一系列的特征提取層,通過逐漸減小特征圖的尺寸,使網絡能夠檢測不同尺度的目標。

2.4、單階段目標檢測算法-YOLO系列16YOLO系列是單階段檢測中較為主流的算法,目前YOLO系列仍在迭代YOLOv8是Ultralytics公司在YOLOv5基礎上推出的更新版本,其在Backbone、Neck、Head等部分均有改動和創新,提高了其檢測速度和精度。YOLOv8的發布版本有五種,其模型從小到大分別為YOLOv8-n、YOLOv8-s、YOLOv8-m、YOLOv8-l、YOLOv8-x

2.3、單階段目標檢測算法-YOLO系列17

2.5、案例:基于FasterR-CNN算法的目標檢測18VOC07+12數據集(訓練數據:16551張圖像,共40058個目標。測試數據:4952張圖像,共12032個目標)PASCALVOC挑戰賽(ThePASCALVisualObjectClasses)是一個世界級的計算機視覺挑戰賽19(1)數據準備VOC數據集下載地址如下:鏈接:/s/1STBDRK2MpZfJJ-jRzL6iuA提取碼:vh7m修改voc_annotation.py里面的annotation_mode=2,運行voc_annotation.py生成根目錄下的2007_train.txt和2007_val.txt。(2)參數文件下載權重包括voc_weights_resnet.pth或者voc_weights_vgg.pth以及主干的網絡權重。鏈接:/s/1IiBMIyw8bF132FQGz79Q6Q提取碼:dpje(3)模型訓練rain.py的默認參數用于訓練VOC數據集,直接運行train.py即可開始訓練(4)模型評估運行get_map.py即可獲得評估結果,評估結果會保存在map_out文件夾中

2.5、案例:基于FasterR-CNN算法的目標檢測20

2.5、案例:基于FasterR-CNN算法的目標檢測APscore_threholdF1RecallPrecisionaeroplane81.47%0.50.6982.46%58.60%bicycle88.13%0.50.7688.43%67.27%bus86.95%0.50.7189.20%59.19%car88.58%0.50.7089.51%56.97%dog89.70%0.50.7690.39%65.87%horse90.23%0.50.7689.94%65.76%...

mAP80.27%

2.6、案例:基于YOLOv8的目標檢測21數據集:COCO128數據集,該數據集包含2017年COCO的前128張圖像,該數據集使用相同的128張圖像進行訓練和測試。22(1)下載預訓練模型在YOLOv8的GitHub開源網址上下載對應版本的模型/ultralytics/assets/releases(2)訓練訓練模型命令如下:yolotask=detectmode=trainmodel=yolov8x.yamldata=mydata.yamlepochs=300batch=1(3)驗證輸入下面的命令進行模型的驗證,這里的models為訓練的最好的那一組權重;Yolodetectvaldata=datasets/Apple/apple.yamlmodel=runs/detect/train/weights/best.ptbatch=4

2.6、案例:基于YOLOv8的目標檢測

2.6、案例:基于YOLOv8的目標檢測23(1)真實值

(2)預測值

3、圖像分割24圖像分割是計算機視覺領域的一個重要任務,其目標是將圖像分成多個子區域,每個子區域通常具有相似的語義或特征。基于深度學習的圖像分割技術主要分為:語義分割、實例分割、全景分割。1.語義分割FCN網絡是基于深學習度的語義分割技術的開山之作。2017年PSPNet對FCN網絡存在的分割問題進行了改進,PSPNet將圖像感受野增大,包含了圖像的淺層深層特征。U-Net網絡是2015年發表在MICCAI上的文章,是基于FCN架構的改進,結合了圖像的底層和高層信息,廣泛應用在解決醫學領域的圖像處理問題中。DeepLab是谷歌團隊基于CNN開發的語義分割模型,目前有四個算法,最新算法是DeepLabv3+。

3、圖像分割252.實例分割實例分割的研究長期以來都有著兩條線,分別是自下而上的基于語義分割的方法和自上而下的基于檢測的方法,這兩種方法都屬于兩階段的方法。3.全景分割全景分割任務,全景分割方法通常包含三個獨立的部分:objectinstancesegmentation部分,stuffsegmentation部分,兩子分支結果融合部分。

3、圖像分割263.全景分割全景分割任務,全景分割方法通常包含三個獨立的部分:objectinstancesegmentation部分,stuffsegmentation部分,兩子分支結果融合部分。

3.1、U-Net系列27U-Net網絡結構最早由Ronneberger提出,是一個用于醫學圖像分割的全卷積神經網絡,形似英文字母U所以被稱為U-Net

3.1、U-Net系列28Oktay等人[38]設計了一種新的注意力門模型(Attentiongate,AG),用于自動聚焦于不同形狀和大小的目標特征。將U-Net改進為AttentionU-Net,增加了模型對病灶特征的敏感度

3.2、案例:基于U-Net的新冠肺炎CT影像病灶分割29數據集:COVID-19segmentation數據集如圖12-25所示,包含由意大利醫學和介入放射學協會收集的100張來自不同新冠肺炎患者的軸向二維CT圖像30(1)配置參數的解析:定義defparse_args()函數,通過解析命令行參數,獲取模型訓練所需的配置參數,包括模型名稱、數據集、損失函數、優化器、學習率、批量大小、訓練輪數等。(2)構建U-Net模型,載入模型(3)數據加載:使用數據加載器加載訓練集和驗證集數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論