第8章 目標檢測_第1頁
第8章 目標檢測_第2頁
第8章 目標檢測_第3頁
第8章 目標檢測_第4頁
第8章 目標檢測_第5頁
已閱讀5頁,還剩28頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八章目標檢測前期知識儲備Preliminaryknowledgereserve在計算機視覺眾多的技術領域中,目標檢測是一項非常基礎的任務,圖像分割、物體追蹤、關鍵點檢測等通常都要依賴于目標檢測。由于每張圖像中物體數量、大小及姿態各有不同,使得物體檢測一直是一個流行但是極具挑戰性的任務。本視頻旨在對檢測方法的基礎知識進行介紹,重點介紹一階段二階段算法的流程以及不同點。知識框架Knowledgeframework學習目標Learningaims(1)了解目標檢測的相關概念和意義;(2)了解當下目標檢測方法的種類;(3)掌握目標檢測一階段算法;(4)掌握目標檢測二階段算法。1目標檢測介紹基本原理在萬千世界中,人眼看到的東西大腦能夠第一時間做出判斷,但是對于機器來說,在大數據時代下識別一個物體,需要人類對機器進行足夠的認知訓練并使其能夠給出檢測結果。如圖所示,目標檢測是給需要檢測的圖片內的目標標注一個邊界框進行目標定位,同時檢測出所有目標的類別標簽。(1)人工標注的框(groundtruthbox,GT)在目標檢測中,用于人工標注數據集中目標物體對應的邊界框。(2)邊界框(boundingbox,bbox)指在原圖像中圈出目標的矩形框。(3)預測框(predictionbox)模型預測出來的可能包含物體的邊界框。(4)錨框(anchor)anchor與邊界框不同,是人們假想出來的一種框,以某種規則生成一系列邊界框,經過調參成為預測框。(5)置信度(confidence)置信度又稱可靠度,數值介于0~1,用來描述和確認當前檢測目標所屬某個類別的概率。(6)非極大值抑制(Non-MaximumSuppression,NMS)非極大值抑制即去除不是最大值的結果。在目標檢測任務中,最終目的是從一張圖片中圈出多個可能是物體的矩形框,然后對每個框分類。基本概念評價指標交并比(IoU)020304050601表示兩個矩形框的重疊程度,即它們相交部分的面積除以它們合并部分的面積,值越大重疊越多,即檢測得越準確。精確率(Precision)正確的正預測的百分比,指模型正確判斷的樣本數占實際被檢測出的比值。準確度(Accuracy)在所有預測中預測正確的概率。召回率(ReCall)模型正確判斷的樣本數占應該被檢索到的樣本總數的比值。mAP平均精度均值,目標檢測中評價模型識別精度的重要指標。值越大越好。F1-Score衡量二分類模型精確度的一種指標,它同時兼顧了分類模型的精確率和召回率。評價指標(1)PASCALVOC數據集

該數據集主要用于目標檢測和分類任務。(2)ImageNet數據集該數據集是由斯坦福大學和普林斯頓大學的科學家模擬人類的視覺識別系統創建的,其由專業的計算機視覺領域科研人員維護,文檔詳細,應用廣泛,現在幾乎成為目前深度學習圖像領域算法性能檢驗的“標準”數據集。(3)MSCOCO數據集首次發布于2015年,是由微軟公司開發維護的大型圖像數據集,該數據集可用于目標檢測、語義分割、人體關鍵點檢測和字幕生成等任務,包含20萬個圖像,80個類。(4)OpenImages數據集

由谷歌發布的,后期對它進行了多次更新,用于對圖像分類、目標檢測、視覺關系檢測和實例分割等任務,它由920萬張圖片組成。(5)DOTADOTA數據集常用于遙感航空圖像的檢測,包含2806張航空圖片,其中包含著不同尺度大小,不同目標稀疏程度的多樣性圖片。常用數據集2目標檢測方法傳統檢測方法傳統的目標檢測方法首先通過類似窮舉的滑動窗口方式或圖像分割技術生成大量的候選區域,然后對每個候選區域提取圖像特征,并將這些特征傳遞給一個分類器用來判斷該候選區域的類別。(1)ViolaJones(VJ)檢測器

ViolaJones檢測器是P.Viola和M.Jones針對人臉檢測場景提出的。在同等的算法精度下,ViolaJones檢測器比同時期的其他算法有幾十到上百倍的速度提升。ViolaJones檢測器采用最直接的滑動窗口方法,檢測框遍歷圖像上所有的尺度和位置,查看檢測框是否包含人臉目標。(2)HOG檢測器HOG(HistogramofOrientedGradients,梯度方向直方圖)檢測器于2005年提出,是當時尺度特征不變性和形狀上下文的重要改進。(3)DPM檢測器DPM是一種基于組件的檢測算法,由P.Felzenszwalb于2008年提出。DPM在特征層面對經典的HOG特征進行了擴展,也使用了滑動窗口方法,基于SVM進行分類,其核心思想是將待檢測目標拆分成一系列部件,把檢測一個復雜目標的問題轉換成檢測多個簡單部件的問題當前基于深度學習的目標檢測方法主要分為兩類:二階段算法和一階段算法。深度學習檢測方法二階段算法指的是檢測算法需要分兩步完成,先由算法生成一系列提取物體的候選區域(RegionProposal),再通過卷積神經網絡進行目標樣本分類識別,最后出結果。常見的二階段算法有:R-CNN、SPP-Net、FastR-CNN、FasterR-CNN、R-FCN等。一階段算法指的是在檢測過程中一步到位,不需要提前提取候選區域,能夠直接通過一個神經網絡分析步驟檢測出輸入圖片中物體的類別和位置信息的算法。常見的一階段算法有:YOLO系列、SSD系列、RetinaNet等。3目標檢測二階段算法R-CNN利用深度卷積神經網絡進行目標檢測的標志性工作就是R-CNN(Region-CNN)。R-CNN首次將卷積神經網絡用于目標檢測,是典型的雙階段目標檢測器。其包含多個組成部分,首先由傳統的區域搜索算法——選擇性搜索算法得到目標候選區域,然后將候選區域送入深度卷積神經網絡進行目標的特征提取,在得到目標的特征以后將特征輸入支持向量機進行目標分類,最后通過邊界回歸得到更精確的目標區域。SPP-Net(空間金字塔網絡)檢測算法是在R-CNN的基礎上提出來的,SPP-Net發現在R-CNN當中使用選擇性搜索方法生成的所有候選區域都要進行一次卷積運算進行圖像分類,這樣實在是太耗費時間,因此在SPP-Net當中省略掉了生成候選區域這一步,直接將圖像做一次卷積運算。不僅如此,SPP-Net還在最后一個卷積層后,加入了金字塔池化層(SPP層),使用這種方式,可以讓網絡輸入任意的圖片,而且還會生成固定大小的輸出。SPP-Net受SPP-Net啟發,FastR-CNN對前邊的網絡結構進行了一定的改進,其用全連接網絡代替了SVM分類器,用RoI池化層代替了金字塔空間池化,這個神奇的網絡層可以把不同大小的輸入映射到一個固定尺度的特征向量。FastR-CNN雖然FastR-CNN的效果逐漸接近實時目標檢測,但它的候選區域的生成仍然速度非常慢,有時測一張圖片,大部分時間不是花費在計算神經網絡分類上,而是花在選擇性搜索方法提取框上。FasterR-CNN使用RPN(RegionProposalNetwork,區域候選網絡)取代了選擇性搜索,不僅速度得到了大大提高,而且還獲得了更加精確的結果。在RPN中,通過采用anchors解決邊界框列表長度不定的問題。FasterR-CNN在FastR-CNN中利用RoIPooling解決了不同尺寸候選區域的特征提取問題,在FasterR-CNN中提出了RPN網絡,通過共享輸入圖像的卷積特征,快速生成區域建議。分類需要特征具有平移不變性,檢測則要求對目標的平移做出準確響應。如果把RoIPooling層的輸入直接接全連接層,會讓檢測網絡對位置不敏感,但是如果讓每個候選區域都通過一些卷積層又會導致計算量太大,時間過長。R-FCN反對使用完全連接的層,而是使用了卷積層,將FasterR-CNN和FCN結合起來,實現快速、更準確的檢測器。R-FCN4目標檢測一階段算法兩階段算法將目標檢測看作一個分類問題,YOLO將檢測問題進行了重構,視其為一個回歸問題。YOLO是一階段算法的開篇之作,它并沒有真正去掉候選區域,而是將圖像調整到448×448的尺寸大小之后劃分成了7×7個網格,在每個網格區域會預測兩個邊框,所以一共會預測98個邊框,然后使用非極大值抑制(NMS)篩選邊框。R-CNN系列是先通過算法找到候選區,最后對候選區進行邊框回歸,得到最終的bbox。YOLOv1則是直接對網格區域進行判別和回歸,一步到位的bbox。YOLO系列—YOLOv1YOLO的升級版有兩種:YOLOv2和YOLO9000。YOLOv2相比于YOLO,在繼續保持處理速度的基礎上,從預測更準確,速度更快,識別對象更多這三個方面進行了改進,在速度和準確性之間提供了一個簡單的權衡。在YOLOv1的基礎上提出了一種聯合訓練的方法將目標檢測數據集與分類數據集結合,使得YOLOv2網絡能夠識別9000種物體,升級為YOLO9000。聯合訓練算法的基本思路是:同時在檢測數據集和分類數據集上訓練物體檢測器,用檢測數據集的數據學習物體的準確位置,用分類數據集的數據增加分類的類別量、提升健壯性。由聯合訓練算法訓練出來的YOLO9000擁有9000類的分類信息,這些分類信息學習自ImageNet分類數據集,而物體位置檢測則學習自COCO檢測數據集。YOLO系列—YOLOv2和YOLO9000YOLOv3的模型比之前的模型復雜了很多,包含Darknet-53網絡結構、anchor錨框、FPN等非常優秀的結構。可以通過改變模型結構的大小權衡速度與精度。YOLOv3的先驗檢測(PriorDetection)系統將分類器或定位器重新用于執行檢測任務,而那些評分較高的區域就可以視為檢測結果。Redmon等人用一個更大的Darknet-53網絡代替了原來的特征提取器,他們還整合了各種技術,如數據增強、多尺度訓練、批標準化等。此外,相對于其他目標檢測方法,作者使用了完全不同的方法。首先將一個單神經網絡應用于整張圖像,該網絡將圖像劃分為不同的區域,因而預測每一塊區域的邊界框和概率,這些邊界框會通過預測的概率加權,該模型的一個突出優點是:在測試時會查看整個圖像,所以它的預測利用了圖像中的全局信息。YOLO系列—YOLOv3目前大多數檢測算法都需要多個GPU來訓練模型,但YOLOv4可以在單個GPU上輕松訓練。該算法的主要創新點在于提出了一種高效而強大的目標檢測模型。它使每個人都可以使用1080Ti或2080TiGPU訓練超快速和準確的目標檢測器。在檢測器訓練期間,驗證了SOTA的BagofFreebies和BagofSpecials方法的影響。YOLO系列—YOLOv4YOLOv5相對于YOLOv4來說創新性的地方很少,YOLOv5網絡最小,速度最少,AP精度也最低。但如果檢測以大目標為主,追求速度,倒也是個不錯的選擇。YOLOv5官方代碼中,給出的目標檢測網絡中一共有4個版本,分別是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四個模型。YOLOv5s網絡是YOLOv5系列中深度最小,特征圖的寬度最小的網絡,另外三種都是在此基礎上不斷加深,不斷加寬,對于YOLOv5,無論是v5s、v5m、v5l還是v5x,其Backbone、Neck和output一致,唯一的區別是模型的深度和寬度設置。YOLOv5網絡由三個主要組件組成:(1)Backbone:在不同圖像細粒度上聚合并形成圖像特征的卷積神經網絡。(2)Neck:圖像網絡層,會經過一系列組合將特征傳遞到預測層。(3)Output:對圖像特征進行預測,生成邊界框并預測類別。YOLO系列—YOLOv5YOLOv5網絡由三個主要組件組成:(1)Backbone:在不同圖像細粒度上聚合并形成圖像特征的卷積神經網絡。(2)Neck:圖像網絡層,會經過一系列組合將特征傳遞到預測層。(3)Output:對圖像特征進行預測,生成邊界框并預測類別。YOLO系列—YOLOv5SSD是第一個與兩階段檢測算法(如FasterR-CNN)的準確性相匹配同時還能保持實時速度的一階段檢測算法。SSD借鑒了FasterR-CNN中anchor的理念,每個單元設置尺度或者長寬比不同的先驗框,預測的邊界框(Boundingboxes)是以這些先驗框為基準的,在一定程度上減少訓練難度。SSD在YOLO網絡的基礎上進行改進,首先是將原始圖像輸入一系列卷積層,經過VGG16基礎網絡的5層卷積層之后得到38×38×512的特征圖,與YOLO不同的是,SSD網絡去除接下來的全連接層,將VGG中的fc6、fc7用一系列卷積層代替,得到了不同大小的特征圖,如19×19、10×10、5×5、3×3,對每一個特征圖分別進行預測。最后將所有特征圖的輸出結合到一起,就達到了同時預測一張圖片上所有默認框的類別,SSD使用了YOLO一次運算就完成整張圖像檢測的思想。SSD系列傳統的SSD通過利用不同層特征做目標檢測,但是在SSD中,不同層的特征圖都是作為分類網絡獨立輸入的,因此在檢測時,同一個物體也許會被不同大小的框檢測出來。另外,SSD對小尺寸的檢測效果也不是很好。深度網絡的效果會隨著特征圖數量的增加而更好,但是這并不代表簡單地增加特征圖數量就能有更好的效果。因此,R-SSD在原來基礎上做出改進,利用分類網絡減少了重復框的出現,同時增加特征金字塔的特征數量來檢測更多小尺寸物體。SSD系列—R-SSD使用的低層網絡的特征信息預測小物體時,由于缺乏高層語義特征,導致SSD對于小物體的檢測效果較差。而解決這個問題的思路就是對高層語意信息和低層細節信息進行融合。DSSD采用TopDown的網絡結構進行高低層特征的融合并且改進了傳統上采樣的結構。DSSD使用一種通用的自上而下的融合方法,使用VGG和Resnet網絡,以及不同大小的訓練圖片尺寸來驗證算法的通用性。將高層的語義信息融入低層網絡的特征信息中,豐富預測回歸位置框和分類任務輸入的多尺度特征圖,以此來提高檢測精度。在提取出多尺度特征圖之后,DSSD提出由殘差單元組成的預測模塊,以優化分類任務和回歸任務所需的特征圖。SSD系列—DSSDDSOD可以從0開始訓練數據,不需要預訓練模型。其主要思想是希望模型即使從零開始學習訓練,也能夠達到與那些微調后的預訓練模型一樣好的效果,但那些基于區域提取的網絡(如FasterRCNN)從零開始訓練無法收斂,因此選擇了SSD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論