文稿成果講稿_第1頁
文稿成果講稿_第2頁
文稿成果講稿_第3頁
文稿成果講稿_第4頁
文稿成果講稿_第5頁
已閱讀5頁,還剩64頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

法 品法EDUCATIONTOCREATEABRIGHT本課件包括演示文稿、示例、代碼、題庫、和聲音等內容,北風網和講師擁有完全知識;只限于善意學習者在本課程使用,不得在課程范圍外向任何第散播。任何其他人或者機構不得盜版、、仿造其中的創意和 課 咨目標檢

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT認真聽,善摘錄,勤思多溫故,樂實踐,再發不懶散惰性, 早不請 ,不拖延作“四不原則”,不包就業和推薦就

品EDUCATIONTOCREATEABRIGHT 品 EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT深度學習目標檢測:RCNN,FastRCNNFasterRCNN

品EDUCATIONTOCREATEABRIGHT這一步是為了對目標進行定位。傳統方法是采用窮舉策略。由于目標可能在上的任意位置,而且大小不定,因此使用滑動窗口用的特征有SIFT(尺度不變特征變換,Scale-invariantfeaturetransform)和HOG(方向梯度直方圖特征,HistogramofOrientedGradient)等。

品EDUCATIONTOCREATEABRIGHT針對滑動窗口問題,regionproposal(候選區域)是預先找出圖中目標可 口固定長寬比)。比較常用的regionproposal算法有selectivesearch和edgeboxes。針對特征選取,卷積神經網絡(convolutionneuralnetwork:CNN)的特征比傳統手工特征效果更好。因此在2014年,RBG(RossB.Girshick)使用Region

品EDUCATIONTOCREATEABRIGHT針對滑動窗口問題,regionproposal(候選區域)是預先找出圖中目標可 口固定長寬比)。比較常用的regionproposal算法有selectivesearch和edgeboxes。針對特征選取,卷積神經網絡(convolutionneuralnetwork:CNN)的特征比傳統手工特征效果更好。因此在2014年,RBG(RossB.Girshick)使用Region

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT這里介紹的比較簡單,RCNN使用SelectiveSearch算法提取圖像中的候選區域(因為 較晚,直接應用的FasterRCNN,就沒有關注SelectiveSearch算法,這里也就不介紹了)RCNN的檢測流程

品EDUCATIONTOCREATEABRIGHT1.3SVM

品EDUCATIONTOCREATEABRIGHT 訓練與測試階應用測試階

品EDUCATIONTOCREATEABRIGHT)propoal與一個分值比它大的propoaloU(ctionovrn,即相交面積比這兩個propoalpropoal。作者對測試階段的時間進行了分析,認為RCNN的優勢在于:(1)CNN中共享網絡參數(CNN身特性);(2)CNN提取后的特征維度較低(相比之前的方法),計算更快訓練與測試階

品EDUCATIONTOCREATEABRIGHT作者首先 上進行 N的預訓練,由于VOC2012中訓練數據較(相對而言),所以使用ImageNet預訓練然后再finetuneIoU0.5的proposal看作正類(20類之一),其他的全部看作背景類。在訓練

品EDUCATIONTOCREATEABRIGHT在訓練MsIoU低于.的proposal設置為natve樣postivgrounttM分類器,由于訓練圖像過多,同時為了保證訓練的效果,所ardnativeminngardnativeminng被識別錯誤的負樣本作為訓練集)in-tnngIoMSVM分類器訓練

品EDUCATIONTOCREATEABRIGHT確定位)第二個原因在于SVM訓練時采用的hardnegative 節可以提升效果(他們也是這么做的,FastRCNN中他們改變了loss函數)。

品EDUCATIONTOCREATEABRIGHTRegression的處理。Bounding-boxRegression訓練的過程中,輸入數據為N個

品EDUCATIONTOCREATEABRIGHT作者設計了四種坐標映射方 ,其中前兩個表示對proposal中心坐標尺度不變的平移變換,后面兩個則是對popoa的wh和heght的對數空間的變換,文章中的映射方式為:其

,進行線性其

品EDUCATIONTOCREATEABRIGHT這是一個典型的最小二乘問題最終在進行實驗時,mbda=1000,同時作者發現同一對中P和G相距過遠時通過上面的變換是不,對于擇是選擇離P較近的G進行配對,這里表示較近的方法是需要P和一個G的最大的oU要大于0.6P。

品EDUCATIONTOCREATEABRIGHT 飛機。如果我們能對紅色的框進行微調,使得經過微調后的窗口跟GroundTruth更接近,這樣豈不是定位會更準確。確實,Bounding-boxregression就是用來微調這個窗口的。

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT只有當Propoal和Ground比較接近時(線性問題),我們才能將其作為訓練樣本訓練wor(Propoal)。

品EDUCATIONTOCREATEABRIGHT線性回歸就是給定輸入的特征向量X, 組參數W,使得經過線性回歸后的值跟真實Y(GroundTruth)非常接近。即。那么Bounding-box中我們的輸入以及輸出分別是什輸入:輸入就是這四個數值嗎?其實真正的輸入是這個窗口對應的CNN特征,也就 N中Pool5feature(特征向量)。(注:訓練階段輸入還包括GroundTruth,也就是下邊提輸出:需要進行的平移變換和尺度縮放,或者說是。我們的最終輸出不應該是GroundTruth嗎?是的,但是有了這四個變換我們就可以直接得到GroundTruth,這里還有個問題,根據上面4個公

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT主要貢獻在于對N進行加速,快是 寨版的奧運-更快、更準、更魯棒),問題在以下方面得到改進:1賣點1-借鑒SPP思路,提出簡化版的ROI池化層(注意,沒用金字塔),同時加入了候選框映射功能,使得網絡能夠反向,解決了SPP的整體網絡訓練問2賣點2Loss

品EDUCATIONTOCREATEABRIGHT N框架圖對比,可以發現主要有兩處不同

品EDUCATIONTOCREATEABRIGHT一是最后一個卷積層后加了一個ROIpoolinglayer,ROIpoolinglayer實際上是SPP-NET的一精簡二是損失函數使用了多任務損失函數(multi-taskloss),將邊框回歸直接加入到CNN網絡中訓練。N訓練過程分為了三個階段,而 N直接使用softmax替代SVM分類,同時利用多中的(rnpropoal提取階)。t 在網絡微調的過程,將部分卷積層也進行了微,取得了更好的檢測效果。t 了 和P-ET的精數練和測試變得十分方便。缺點:regionproposal的提取使用selectivesearch,目標檢測時間大多消耗在這上面(提proposal2~3s,而提特征分類只需 實時應用,而且并沒有實現真正意義上端到端訓練測試(regionproposal使用selectivesearch先提取處來)

品EDUCATIONTOCREATEABRIGHT N一樣,只是regionproposal現在是用RPN網絡提取的(代替原來的selectivesearch)。RPN的 產生regionproposal,使用的方法本質上就是滑動窗口。RPN的設計比較巧妙,度多長寬比的regionproposal。作者為了讓RPN的網絡和Fast 2、使用(1)中RPN網絡提取regionproposal訓練Fast

品EDUCATIONTOCREATEABRIGHT 的目標檢測,預先獲取regionproposal,然后在對每個proposal分總的來說,從N,SPP-NET,FastN,FasterN一路走 的N系列目標檢

品EDUCATIONTOCREATEABRIGHT對于提取候選框最常用的lctivearc方法,提取一副圖像大概需2的時間,改進的Edg算法將效率提高到了0.2,但是這還不夠。候選框提取不一定要在原圖上做,特征圖上以量設的 等提出PN(RegionProposalNetwork),完美解決了這個問題,我們先來看一下網絡拓撲

品EDUCATIONTOCREATEABRIGHT RP網絡特點在于通過滑動窗的方式實現候選框的提取每個滑動窗口位置生成9候選窗口(不同尺度、不同寬高),提取對應9個候選窗口(anch)的特征,用于目標分類和邊框回歸,與 類似。目標分類只需要區分候選框內特征為前景或者背景。邊框回歸確定更精確的目標位置,基本網絡結構如下圖所訓練過程中,涉及到的候選框選取,選取依據丟 邊界的與樣 區域大于0.7的anchor標記為前景 區域小于0.3的標定為背景

品EDUCATIONTOCREATEABRIGHT對于每一個位置,通過兩個全連接層(目標分類+邊框回歸)對每個候選框(anco)斷,并且結合概率值進行舍棄僅保留約300anch從模型訓練的角度來看,通過使用共享特征交替訓練的方式,達到接近實時的性能,交替練方式描述為根據現有網絡初始化權值w,訓練用RPN提取訓練集上的候選區域,用候選區域訓 N,更新權值重復1、2,直到收斂

品EDUCATIONTOCREATEABRIGHT SSD:SingleShotMultiBox

品EDUCATIONTOCREATEABRIGHT目標檢測近年來已經取得了很重要的進展,主流的算法主要分為兩個類型(參考two-tag方法,如 系算法,其主要思路是先通過啟發式方法(ectiverch)C網絡(RP)產生一系列稀疏的候選,然后對這些候選框進行分類與回歸,two-tage高;2on-tag如SS在 置進行密集抽樣,抽樣時可以采用不同尺度和長寬,然后利用C提取特征后直接進行分類與整個過程只需要一所以其優勢是速度但是均勻的密集采樣的一個重要缺點是訓練較 ,這主要是因為正樣本與負樣本(背)極其不均衡(參見calLos)導致模型準確度不同算法的性能如1示在的異。

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHTSingleshot指明了SSD算法屬于one-stage方法,MultiBox指明了SSD是多框預 先驗框(Priorboxes,Defaultboxes,在Faster

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT設計理 一樣都是采用一 N網絡來進行檢測,但是卻采用了多尺度的特征圖,其基本架構圖3所示。下面將 設計理念總結為以下三點

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT與Yolo最后采用全連接層不同,SSD直接采用卷積對不同的特征圖來進行提取檢測結果。對于形m*n*p特征圖,只需要采3*3*p樣比較小的卷積核得到檢測值 的理念,每個單元設置尺度或者長寬比不同的先驗框,預測的邊界框(boundingboxes)是以這度和長寬比存在差異,如圖5所示,可以看到每個單元使用了4個不同的先驗框,中貓和狗分別

品EDUCATIONTOCREATEABRIGHTSS將背景也當做了一個特殊的類別,如果檢測目標共有c個類別,SS其實需要預測c+1個置信度值,其中第一個置信度指的是不含目標cc-1cation4c,cy,w,)

品EDUCATIONTOCREATEABRIGHT框的預測值l實是b對于d轉換習慣上,我們稱上面這個過程為邊界框的編碼(encode),預測時,你需要反向這個過即進 (decode),從預測值l中得到邊界框的真實位置b

品EDUCATIONTOCREATEABRIGHT要手動設置超參數variance,用來對l的4個值進行放縮,此時邊界框需要這樣:綜上所述,對于一個大小m*n特征圖,共有mn單元,每個單元設置的先驗框數目記為k那么每個單元共需c+4)k預測值,所有的單元共需要c+4)kmn預測值,由于SSD采用卷積做檢測,所以就需要(c+4)k個卷積核完成這個特征圖的檢測過程。

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHTSSD采用VGG16作為基礎模型,然后在VGG16的基礎上新增了卷積層來獲得的特征圖以用了多尺度的特征圖做檢測。模型的輸入大小是300*300。SSD采用VGG16做基礎模型,首先VGG16是在ILSVRCCLS-LOC數據集預訓練。將VGG16連接層fc6和fc7轉換成3*3卷積層conv6和1*1卷積層conv7,同時將池化層pool5由原來的變(recov6采用擴展卷積或帶孔卷積(DtonConv),其在不增加參數與模型復雜度的條件下指數級(diatnrate)參數,來表示擴張的大小,如下圖6,(a的3333,(177,(c)3野擴大為15*15但是視野的特征更稀疏了。Conv6采用3*3大小但dilationrate=6的擴展卷積然后移除dropout層和fc8層,并新增一系列卷積層,在檢測數據集上做finetuing

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT其中VGG16中的Conv4_3層將作為用于檢測的第一個特征圖。conv4_3層特征圖大小是38*38,但是該層比較靠前,其norm較大,所以在其后面增加了一個L2Normalization層(參見ParseNet),以保證和后面的檢測層差異不是很大,這個和BatchNormalization層不太一樣,其僅僅是對每個像素點在channle維度做歸一化,而BatchNormalization層是在[batch_sizewidthheight]三個維度上做歸一化。歸一化后一般設置#l2norm(notbacthnorm,spatialdefl2norm(x,scale,trainable=True,n_channels=x.get_shape().as_list()[-l2_norm=tf.nn.l2_normalize(x,[3],epsilon=1e-withgamma=tf.get_variable("gamma",shape=[n_channels,],returnl2_norm*

品EDUCATIONTOCREATEABRIGHT圖,加上Conv4_3層,共提取了6個特征圖,其大小分別是(38,38),(19,19),(10,10),(5,5),(3,3),(1,1m5,因為第一層(Conv4_3層)s_k的比例,而s_min和s_max表示比例的最小值與最大值,paper里面取0.2和0.9其先驗框的尺度比例一般設置為s_min/2=0.1,那么尺度為300*0.1=30。對于后面的特征圖,先驗框尺度 征圖的s_k為20,37,54,71,88,將這些比例除以100,然后再乘以大小,可以得到各個特征圖的尺度60,111162,213,264SSD的Caffe 驗框的寬度與高度(后面的s_k

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT得到了特征圖之后,需要對特征圖進行卷積得到檢測結果,圖75*5用一次3*3卷積來進行完成。令n_k為該特征圖所采用的先驗框數目,那么類別置信度需要的卷積核數量為n_k*c,而邊界框位置需要的卷積核數量為n_k*4。由于每個先驗框都會預測一個邊界框,所以

品EDUCATIONTOCREATEABRIGHT

品EDUCATIONTOCREATEABRIGHT 中的groundtruth(真實目標)與哪個先驗框來進行匹配,與之匹配先驗框所對應的邊界框將負責預測它。在Yolo中,groundtruth的中心落在哪個單元格,該單元格中與其IOU 中每個groundtruth,找到與其IOU最大的先驗框,該先驗框與其匹配,這樣,可以保證每個groundtruth一定與某個先驗框匹配。通常稱與groundtruth匹配的先驗框為正樣本,反之,若一個先驗框沒有與任何groundtruth進行匹配,那么該先驗框只能與背景匹配,就是負樣本。一個中groundtruth是非常少的,而先驗框卻很多,如果僅按第一個原則匹配,很多先驗框會是負樣本,正負樣本極其不平衡,所以需要第二個原則。第二個原則是:對于剩余的未匹配先驗框,若某個groundtruth的\text{IOU}大于某個閾值(一般是0.5),那么該先驗框也與這個groundtruth進行匹配。這意味著某個groundtruth可能與多

品EDUCATIONTOCREATEABRIGHT但是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論