《深度神經(jīng)網(wǎng)絡在交通標志識別中的性能提升研究13000字》_第1頁
《深度神經(jīng)網(wǎng)絡在交通標志識別中的性能提升研究13000字》_第2頁
《深度神經(jīng)網(wǎng)絡在交通標志識別中的性能提升研究13000字》_第3頁
《深度神經(jīng)網(wǎng)絡在交通標志識別中的性能提升研究13000字》_第4頁
《深度神經(jīng)網(wǎng)絡在交通標志識別中的性能提升研究13000字》_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

-11-1緒論1.1研究意義隨著社會和經(jīng)濟的發(fā)展,家庭擁有私家車的人數(shù)日益增多,而與之相應的是,交通事故的發(fā)生率也在持續(xù)上升,交通事故的因素也不盡相同。人為的酒駕、超速,自然條件的天氣惡劣而導致無法看清交通標識而發(fā)生意外交通事故。為此,西方發(fā)達國家提出了智能交通系統(tǒng),致力于根據(jù)電子信息技術來減輕交通堵塞和管理方法公共交通(李明,張思遠,2022)。此外,在輔助駕駛行業(yè),Google、百度搜索等著名企業(yè)也慢慢將獨立自動駕駛系統(tǒng)運用到具體安全駕駛自然環(huán)境中。由此可以窺探交通標志識別是道路交通系統(tǒng)軟件的關鍵構成部分,旨在提示駕駛員標準安全駕駛,安全文明駕駛(王志剛,趙文濤,2023)。交通標志的自動識別和識別可以在輔助駕駛系統(tǒng)軟件中為駕駛者給予提示,進而降低交通事故的發(fā)生。交通標志的自動識別廣泛運用于人力安全駕駛和自動駕駛中(陳立新,劉建偉,2021)。交通標志是明亮、顯眼、突出為特點的特殊標記符號,用來提示駕駛?cè)藛T來降低交通事故發(fā)生的概率。依這些表現(xiàn)可以推測得出自動駕駛的總體目標是確保安全性和高效率,與此同時用計算機信息技術替代人們安全駕駛。現(xiàn)階段自動駕駛還存有下列問題(韓曉峰,孫志遠,2021):(1)交通標志模糊不清或有缺陷。(2)天氣原因,如霧霾天氣、濃霧導致識別能力差。(3)有障礙物,公路綠化植物和房屋建筑擋住交通標志。根據(jù)現(xiàn)實因素,傳統(tǒng)式的圖像處理技術存在分類不精確、效率低等問題。伴隨著硬件配置性能的提高,近些年,深度神經(jīng)網(wǎng)絡獲得了較大的進度,已經(jīng)廣泛運用于視頻語音識別、文字識別、數(shù)字圖像處理等[1]領域。深度神經(jīng)網(wǎng)絡在目標檢測和識別層面也得到了較大的提升(張衛(wèi)東,李俊杰,2023)。由此可以推斷與傳統(tǒng)的圖像處理技術性對比,它在特征提取層面具備自動化技術和抗干擾能力強的特性。依據(jù)交通標志自然環(huán)境的多元性,設計出準確度高、性能好、可擴展性強的交通標志識別優(yōu)化算法(周慧敏,吳天瑜,2018)。因而,論文使用根據(jù)卷積神經(jīng)網(wǎng)絡的深度神經(jīng)網(wǎng)絡模型,針對交通標志識別有著關鍵的實際意義。1.2國內(nèi)外研究現(xiàn)狀目前,無論是在工業(yè)界還是在學術界,如何高效準確識別在復雜多變的場景中交通標志,減少駕駛?cè)藛T生命財產(chǎn)損失,是熱門研究之一。在工業(yè)界應用上,更加側(cè)重于識別的精度、行車的安全性、系統(tǒng)的時效性、穩(wěn)定性。學術界的著重點是:算法優(yōu)化帶來的精度提高、實時性、可應用性。根據(jù)現(xiàn)有結(jié)果可推斷無疑的是,深度學習在交通標志識別中無論是工業(yè)領域還是在學術領域的研究都是熱門(趙鵬,錢程遠,2024)。國外對于交通標志識別研究起步較早,在上世紀,Gotoh課題組基于各種顏色的閾值分割來提取特征,給出了一種識別率較高的算法(黃志強,何偉明,2020)。Piccioli等人使用黑白灰度圖,來進行邊緣提取,鑒于本文的研究環(huán)境我們考慮了這種情況的發(fā)生并將邊緣信息采用特定的模型進行分割,然后將子圖進行歸一化為50*50的像素,與數(shù)據(jù)庫中的圖像進行對比,進行分類。LiuC等[2]通過總結(jié)交通標志識別方法,將傳統(tǒng)基于形狀特征、基于顏色特征、基于激光雷達和機器學習等方法(林曉紅,謝思遠,2022)。在此文中,對原始數(shù)據(jù)的處理方法相較于先前的方法顯得更為直接且高效。本文采用了一種更為簡化的預處理流程,該流程消除了多余的轉(zhuǎn)換步驟,優(yōu)化了信息的清理與標準化工作,從而顯著提高了信息處理的快速性和有效性。利用此方法,本文得以更迅速地組織好分析所需的信息資源,同時減少了復雜處理可能導致的誤差。此外,通過對不同源頭和類別的信息進行全面試驗,本文進一步驗證了本方案的穩(wěn)定與可信。這些都是基于傳統(tǒng)圖像處理的方法,并非深度學習方法,深度學習的研究得到質(zhì)的飛躍。于此相似條件下可以推知其趨勢在交通標志識別領域也是如此,Shijin等[3]使用卷積核替換與模型壓縮的方法用小型數(shù)據(jù)集訓練8層的卷積神經(jīng)網(wǎng)絡,在數(shù)據(jù)集上表現(xiàn)良好。郭建華,陳宇翔等[4]提出了基于深度學習的IRCNN去霧算法,該方法主要是通過正定分割的方式引入退化矩陣,再結(jié)合現(xiàn)有的卷積神經(jīng)網(wǎng)絡,實現(xiàn)在霧霾天氣下的圖像復原,解決弱光條件下交通標志識別問題。程思,雷振華使用Resnet作為基礎網(wǎng)絡,構建交通標志識別,在對清華-騰訊交通標志數(shù)據(jù)集(Tsinghua-Tencent100K,TT100K)上的45類識別進行分類總體取得了95%的召回率和94%的準確率[5]。在此特定情境之中不難看出針對目標小,距離遠導致交通標志信息缺失的問題解決方案,由高忠文等[6]提出將對抗生成網(wǎng)絡引入到FastR-CNN[7]中來修復交通標志信息缺失,來增強這個網(wǎng)絡的精度(鄧博宇,郝立新,2019)。隨著YOLO系列[8]目標檢測網(wǎng)絡模型,在檢測領域的優(yōu)秀性能吸引了一眾研究人員將其應用在交通標志識別領域。張泳祥等[9]等注意力機制,遵循這種理論框架進行調(diào)研可獲知引入到Y(jié)OLOv3模型中,來解決小目標問題,能夠較好地解決交通標志干擾性問題。馮志遠,蔣曉峰[10]等將U-net與YOLOv3結(jié)合,采用U-net進行定位優(yōu)化,YOLOV3進行交通標志識別。孔祥瑞,沈志剛等[11]提出將深度可分離卷積融入到Y(jié)OLOv3中,并修改損失函數(shù),識別準確率得到了較大的提升。由此可以看出,隨著人工智能的發(fā)展,深度學習被廣泛地應用于交通標志識別中,尤其是YOLO系列,在交通標志識別中能夠精度、魯棒性更佳(呂建華,汪思遠,2021)。1.3研究內(nèi)容本課題針對上述情況,在深度學習算法上通過對比YOLOv4和YOLOv5在TT100K交通識別數(shù)據(jù)集上的應用,與傳統(tǒng)圖像增強方法結(jié)合處理方式,展示出較高的準確率和魯棒性,能夠較好地識別交通標志。目的在于開發(fā)一套實用的、高準確率、高實時性和魯棒性的交通標志識別算法。主要研究內(nèi)容如下:1、對原始數(shù)據(jù)集的訓練集進行預處理,采用固定裁剪、數(shù)據(jù)增強等方法生成符合卷積神經(jīng)網(wǎng)絡模型輸入尺寸的圖像塊。結(jié)合之前的成果可以推導出固定裁剪圖像塊保留交通標志的原始信息;而數(shù)據(jù)增強則是在數(shù)據(jù)集中對小尺寸交通標志進行過采樣,增加了特征信息和位置分布的多樣性,使檢測模型具有較強的魯棒性。2、模型算法的對比和訓練(邵立新,殷曉紅,2018):為減少外部環(huán)境對方案輸出結(jié)果的負面影響,本研究在規(guī)劃與實施階段采取了一系列措施來確保數(shù)據(jù)的精確無誤和方案的穩(wěn)健運行。首要工作是全面分析了可能影響方案實施效果的外部變量。基于這些分析,本文在方案制定階段納入了環(huán)境敏感性測試的方法,通過模擬不同的外界環(huán)境狀況來評估它們對方案結(jié)果的潛在效應,并據(jù)此調(diào)整方案的設計變量,以提升其適應能力和魯棒性,確保方案能實時響應外界變化,保持其有效性和相關性。這充分說明了目前大多數(shù)高精度神經(jīng)網(wǎng)絡不僅不能實時運行,而且需要在多GPU上進行訓練。YOLOv4和YOLOv5只需要一塊GPU就能實時運行,完美解決了實時交通標志的檢測問題,而且精度高,滿足了實際需要,模型訓練采用了默認配置和超參數(shù)(譚偉明,姚志遠,2024)。1.4論文組織架構論文共分五章,章節(jié)安排及每章的研究內(nèi)容如圖1-1所示。圖1-1論文章節(jié)安排示意圖第一章:緒論。主要介紹了論文的選題背景、意義、國內(nèi)外的研究狀況,并對論文的研究內(nèi)容、組織架構作了簡要的說明。第二章:基于YOLO的目標檢測算法。介紹了YOLO探測器系列的相關知識。對卷積神經(jīng)網(wǎng)絡的基本原理進行了綜述,并對其基本組成進行了介紹,并對論文所采用的YOLOv4和YOLOv5網(wǎng)絡結(jié)構進行了說明。第三章:數(shù)據(jù)集與模型評價指標。概述了TT100K數(shù)據(jù)集的情況和常見的交通標志類別,最后將交通識別標志模型評價指標進行了一一敘述。第四章:模型訓練與實驗。本章主要闡述了實驗環(huán)境和數(shù)據(jù)集的準備及模型訓練的訓練參數(shù)初始化,并對模型在測試數(shù)據(jù)上的驗證進行了分析和總結(jié)。第五章:總結(jié)和展望。介紹了論文所采用的研究方法和研究結(jié)果;最后,對本研究的理論貢獻和實踐價值進行了討論,吸納已有成果可以推導出新的結(jié)論提出了今后有待改進的地方,并指出了未來的研究內(nèi)容和發(fā)展趨勢。

2基于YOLO的目標檢測算法在本章中,我們介紹基于深度學習目標檢測算法相關理論知識以及卷積神經(jīng)網(wǎng)絡的構成與訓練。并對于卷積神經(jīng)網(wǎng)絡為基礎的目標檢測進行展開,將YOLO系列的算法進行深入地介紹。2.1卷積神經(jīng)網(wǎng)絡理論基礎2.1.1卷積神經(jīng)網(wǎng)絡的組成卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks,CNN)是一種深度學習中具有自動提取圖像特征的數(shù)學映射模型(謝曉剛,鄒志強,2020)。通常,該方法包括輸入層、卷積層、池化層、全連接層和輸出層,其中池化層和卷積層交替地設置了多層,由此可以窺探并利用全連接層對輸出類的概率和類數(shù)進行匯總。(1)輸入層將圖片或文本轉(zhuǎn)化為規(guī)則數(shù)學矩陣,采用矩陣的方式作為神經(jīng)元的輸入值,參與卷積運算。(2)卷積層卷積層由濾波器構成,濾波器也稱為卷積核。卷積層的本質(zhì)主要通過卷積核的矩陣運算自動提取特征。依這些表現(xiàn)可以推測得出訓練神經(jīng)網(wǎng)絡主要為了使得卷積核能夠獲取參數(shù)。(3)池化層池化層(PoolingLayer)又稱下采樣層,由于數(shù)據(jù)經(jīng)過卷積層后根據(jù)卷積核形成多個特征平面,這是一個升維過程,由此可以推斷需要進行適度的降維,否則會產(chǎn)生“維數(shù)災難”[12]。池化層的目的通常用于對海量的特征信息進行過濾和壓縮圖像信息,對卷積層進行降維,以減少模型參數(shù)量,篩選出最具代表性的特征信息(閻志國,傅曉宇,2022)。(4)全連接層全連接層是經(jīng)過卷積層卷積計算、池化層降維后輸出具有深層抽象的二維圖像特征。通常采用全連接層,將多維特征映射成一維向量,對特征進行分類(侯博文,余思遠,2019)。(5)輸出層在網(wǎng)絡輸出層,一般采用softmax等激勵函數(shù),把全連接層輸出值轉(zhuǎn)換為概率值,輸出值代表相應類別的概率。根據(jù)現(xiàn)有結(jié)果可推斷在完成卷積神經(jīng)網(wǎng)絡模型的構建后,為了使模型具有較好的擬合能力,需要對網(wǎng)絡模型進行訓練,以達到更新網(wǎng)絡參數(shù)的目的(姜立軍,陸曉峰,2021)。2.1.2訓練神經(jīng)網(wǎng)絡CNN的訓練主要是通過大量數(shù)據(jù)學習,獲取卷積核參數(shù)的學習,并使得網(wǎng)絡的輸出值盡可能接近真實值(翁志強,柏曉紅,2023)。鑒于本文的研究環(huán)境我們考慮了這種情況的發(fā)生主要的方法是通過比較網(wǎng)絡輸出值與真實值的誤差,采用優(yōu)化方法不斷地迭代更新網(wǎng)絡參數(shù),從而達到減小輸出值與真實值之間的差值。如2-1圖所示,模型的訓練主要分為兩個階段:(1)前向傳播階段(FP)首先,隨機抽取一組樣本數(shù)據(jù),將訓練樣本數(shù)據(jù)隨機輸入網(wǎng)絡模型,由卷積層和池化層交替構成的網(wǎng)絡結(jié)構進行特征提取,于此相似條件下可以推知其趨勢再通過非線性激活來實現(xiàn)新特征映射,最后將信息逐層傳遞到輸出層。經(jīng)過計算得出輸出結(jié)果(袁曉天,孟志遠,2018)。在理論上,只要執(zhí)行策略時輸入的信息符合預期,就能期望得到滿足設計要求的結(jié)果。即,如果最初的條件和參數(shù)設置正確,且所用的模型或理論結(jié)構合理,那么其產(chǎn)出將會非常可信和有效。這不僅取決于數(shù)據(jù)輸入的精確性,也受制于分析框架的科學性、技術設備的先進程度以及研究途徑的恰當性。還需關注外界因素對最終結(jié)果的影響,確保研究流程的可控性和再現(xiàn)性,從而為結(jié)論的廣泛應用奠定堅實的基礎。(2)反向傳播階段(BP)反向傳播主要利用損失函數(shù)計算網(wǎng)絡輸出值與真實值之差,結(jié)合隨機梯度下降和反向傳播,迭代使網(wǎng)絡模型損失值最小化,在此特定情境之中不難看出并逐層更新網(wǎng)絡參數(shù),直至達到停止更新條件為止,最后保存網(wǎng)絡參數(shù)。反向傳播的作用主要是通過優(yōu)化網(wǎng)絡損失值來獲取網(wǎng)絡參數(shù)(姚建新,黃思遠,2024)。圖2-1訓練卷積神經(jīng)網(wǎng)絡的原理圖2.2典型交通識別模型YOLO2.2.1YOLO目標檢測器通常,目標檢測器主要分為四個組成部分,分別為輸入端(Input)、主干網(wǎng)絡(Backbone)、Neck網(wǎng)絡、輸出端(Prediction)。如圖2-2所示,首先,通常情況下Input主要是輸入圖片,對圖像進行預處理,增加網(wǎng)絡精度。其次,Backbone用于提取圖像特征,目前采用主流的網(wǎng)絡架構VGG16[13]、Resnet50[14]、Darknet53[15]等網(wǎng)絡,再次,Neck用于連接Backbone主干網(wǎng)絡和輸出層,提升特征的多樣性及魯棒性,一般采用FPN[16]、PANet[17]、BI-FPN[18]等(高鵬,蔡曉剛,2020)。遵循這種理論框架進行調(diào)研可獲知最后,Prediction層主要是用來完成目標檢測的結(jié)果輸出。通常可由DensePrediction和SparsePrediction組成。圖2-2目標檢測器示意圖DensePrediction通常由RPN[19]、YOLO、SSD[20]等任意一個組成。SparePrediction通常由FastR-CNN、R-FCN[21]等任意一個組成(盧振華,丁曉宇,2022)。YOLO(Youonlylookonce)是卷積神經(jīng)網(wǎng)絡在目標檢測任務中自定義目標檢測器框架。與兩階段網(wǎng)絡相比,Yolo目標檢測算法是基于深度神經(jīng)網(wǎng)絡的單階段目標檢測算法中最典型的代表,結(jié)合之前的成果可以推導出用于目標檢測和定位。它運行速度快,優(yōu)越的實時性與其不錯的識別精度使其在交通標志識別中應用廣泛。2.2.2YOLO基礎組件YOLO是一種特殊的卷積神經(jīng)網(wǎng)絡,它由大量的基礎部件組成。常見的基本構件有CBM、CBL、Resunit、CSPX、SPP等。CBM組件卷積層主要由卷積層(Conv)、批歸一化處理(BN)、激活函數(shù)(Mish)構成。與CBL組件相比,CBL組件結(jié)構采用不同的激活函數(shù)(LeakyRelu)(馬思遠,樊立新,2019)。Leaky_Relu激活函數(shù)主要是為了使輸入小于零的部分在方向傳播時也能得到梯度。本文對上述計劃的調(diào)試進行了理論探討與實踐測試。在理論探討部分,詳盡討論了計劃的基本概念及其目標,并通過理論框架和邏輯推導為實驗提供了理論支持。接著,在實踐測試階段,本文設計了一系列測試來驗證計劃的有效性和穩(wěn)定性,采用了精確的數(shù)據(jù)記錄和分析方法確保結(jié)果的真實可靠。為了進一步驗證計劃在不同條件下的實用性,本文選擇了幾種典型的應用實例,并針對每個實例調(diào)整了系統(tǒng)配置,不僅證明了計劃的可行性和正確性,也為今后的研究提供了有價值的參考資料。這充分說明了基礎組件Resunit主要由CBM組件和ResNet網(wǎng)絡中殘差級聯(lián)來構建網(wǎng)絡。Resunit采用ResNet網(wǎng)絡體系結(jié)構,能夠解決深度神經(jīng)網(wǎng)絡的“退化”問題(倪曉峰,許志強,2021)。基礎組件CSPX是從CSPNet[22]中借鑒的,它在提高學習能力的同時也保證了輕量化,降低了計算成本和內(nèi)存成本。CSPX主要由CBM組件、Resunit組件和Concate構成。其中Concate主要是將特征進行聯(lián)合,將圖片的通道進行合并,吸納已有成果可以推導出新的結(jié)論也就是圖像本身的特征增加了,而每一特征下的信息沒有增加。最后一個基礎組件SSP采用空間結(jié)構的金字塔池結(jié)構,有效地避免了由于剪裁和縮放操作而造成的圖像失真,該方法有效地克服了卷積神經(jīng)網(wǎng)絡不能進行重復特征抽取的困難,極大地加快了候選框的生成,節(jié)省了大量的計算量(彭博宇,葉曉紅,2023)。2.2.3YOLOv4網(wǎng)絡結(jié)構Yolov4是一種特殊卷積神經(jīng)網(wǎng)絡的擴展。Darknet研究框架靈活開發(fā)了計算機視覺地圖中最合適的實時目標檢測器,如Yolov1、yolov2、yolov3、yolov4和yolov5,主要用于目標檢測領域(冉志國,殷志遠,2018)。目前Yolov4在目標檢測領域性能較優(yōu)的網(wǎng)絡。Yolov4結(jié)構如圖2-3所示,由此可以窺探主要由Input、Backbone、Neck、Prediction組成。首先,Backbone部分包含了1個CBM和5個CSP組件主要用于特征提取[23],這種組成方式能夠有效地增強CNN的學習力,減少計算量和內(nèi)存成本(傅智淵,狄曉鵬,2022)。其次,Neck作為特征增強模塊,主要由CBL組件,SPP模塊和上采樣方式組成,融合不同尺度特征來達到增強特征的目的。依這些表現(xiàn)可以推測得出最后,Prediction其實是利用獲取的特征進行預測,是一個解碼過程,主要構建整個YOLOv4整個功能。圖2-3YOLOv4結(jié)構圖此外,在過去的目標檢測模型中,采用均值方差作為損失函數(shù),通過預測框和真實框的中心點坐標和長寬信息設置的。但是均值方差作為損失函數(shù)存在對坐標與長寬的關聯(lián)信息缺失問題(耿立新,閔曉妍,2019)。由此可以推斷為了能夠更精確地檢測目標,損失函數(shù)由邊界框損失函數(shù)、置信度損失函數(shù)和分類損失函數(shù)加權組成。與YOLOv3的損失函數(shù)相比,邊界框關聯(lián)相關坐標信息對模型優(yōu)化和提高模型精準度有這個巨大的作用,其余損失函數(shù)均繼承于YOLOv3。本文在行為思路上也有所創(chuàng)新,作者創(chuàng)新性地融入了前人關于此主題已有的研究成果,在研究深度上有所加強,首先通過綜合分析現(xiàn)有文獻中的關鍵理論和實證發(fā)現(xiàn),本文構建了一個更為系統(tǒng)且全面的框架,旨在為該領域的研究提供新的視角和方法論指導。其次,為了確保研究的有效性和可靠性不僅驗證了前期理論假設,還進一步探索了未被充分關注的研究空白。2.2.4YOLOv5網(wǎng)絡結(jié)構YOLOv5結(jié)構如圖2-4所示,與之前的YOLOv4相似,但在性能上有了較大的提升。為了提高檢測效率,在輸入端增加數(shù)據(jù)Mosaic,自適應圖像縮放,自適應錨計算。在YOLO算法中,根據(jù)不同數(shù)據(jù)集,根據(jù)現(xiàn)有結(jié)果可推斷初始設定長寬的錨框。在網(wǎng)絡訓練中,首先根據(jù)初始錨框輸出預測框,然后將預測框與真實框進行比較,計算出兩者之間的差距,最后通過反向更新來迭代網(wǎng)絡參數(shù)。在以前的YOLO系列網(wǎng)絡中,不同數(shù)據(jù)集的訓練都是單獨計算初始錨框值(靳志宏,卞曉宇,2020)。鑒于本文的研究環(huán)境我們考慮了這種情況的發(fā)生但是在YOLOv5中,這個功能被嵌入到代碼中,在每次訓練時都可以根據(jù)不同的訓練集來自適應地計算出最優(yōu)的錨框值[24]。其中Backbone引入了Focus結(jié)構,主要為了對圖像進行切片操作(匡曉龍,湛志遠,2023)。在Backbone部分,CSPX結(jié)構應用于Backbone主干網(wǎng)絡中為了增強網(wǎng)絡學習能力,于此相似條件下可以推知其趨勢提高小目標的準確性。Neck部分與YOLOv4部分一致。另外在Prediction層中,輸出部分包含了Boundingbox損失函數(shù)和非極大值抑制函數(shù)NMS(Non-MaximumSuppression)。圖2-4YOLOv5結(jié)構圖其中的邊界框函數(shù),GIOULOSS(GeneralizedIntersectionoverUnion)來源于IOU的邊框預測函數(shù),在此特定情境之中不難看出但是IOU損失函數(shù)存在只關注對應的“距離”,導致與真實的IOU值相差較大(賴博文,覃思遠,2018)。這一結(jié)果與已有的文獻結(jié)論大致相同,這也驗證了前期研究中所提出的構思,從而進一步拓展了該領域的理論邊界。本研究通過引入新的變量和分析方法,為現(xiàn)有理論體系注入了新的活力,使其能夠更全面地解釋相關現(xiàn)象。同時,這一發(fā)現(xiàn)也為后續(xù)研究提供了新的理論支點,有助于推動該領域理論的進一步深化和精細化。為了解決這個問題,GIOU其思想主要是首先假設兩個任意性質(zhì)的A、B找到最小的封閉形狀C,讓C把A、B包含在內(nèi),其次,計算C中沒有覆蓋A和B的面積除以面積C。最后用IOU的值減掉比值,GIOU的損失函數(shù)表示為(1)非極大值抑制函數(shù)主要是為了能夠?qū)a(chǎn)生數(shù)量巨大的目標框向著同一個目標,抑制冗余的框而進行的操作(令狐翔,禹曉峰,2024)。在YOLOv5中,預測時,每個預測框包含著物體的置信度和預測框位置信息,遵循這種理論框架進行調(diào)研可獲知面對數(shù)量較大的目標框時,需要采用加權的非極大值抑制函數(shù)來剔除冗余目標框,找到最佳物體檢測位置,來完成目標檢測(慕容志,寇曉紅,2021)。2.3本章小結(jié)本章主要基于YOLO的目標檢測算法,闡述YOLO目標檢測器的基礎組件,最后在介紹了論文采用的YOLOv4與YOLOv5模型的架構,也可以看出YOLOv5在與YOLOv4模型對比發(fā)現(xiàn),YOLOv5是在YOLOv4上的改進,結(jié)合之前的成果可以推導出主要工作體現(xiàn)在Backbone引進了Focus結(jié)構,損失函數(shù)不同,初始錨框在訓練中不斷地調(diào)整等幾點不同。

3數(shù)據(jù)集與模型評價指標3.1交通標志數(shù)據(jù)集數(shù)據(jù)的好壞決定了模型的上限,對模型起著關鍵性作用,深度學習的有效性取決于輸入數(shù)據(jù)的質(zhì)量(南宮博,鄔志新,2019)。論文采用清華大學公開的國內(nèi)交通標志數(shù)據(jù)集TT100K數(shù)據(jù)集,在數(shù)據(jù)集中分別有限速、警告、提示、禁止、紅燈、綠燈、黃燈等多類不同的類別標簽。將此作為訓練模型的訓練集和測試集。以充分讓模型獲取對國內(nèi)交通標志識別能力。3.1.1交通標志簡介在國內(nèi),交通標志主要起到三種作用,這充分說明了分類對應為警告、禁止、指示。如圖3-1所示,主要分為三類(歐陽駿,茹曉剛,2022)。圖3-1各類交通標識圖交通標志識別作為輔助駕駛交通系統(tǒng)中技術之一,意在提示駕駛員標準安全駕駛,安全文明駕駛。交通標志的自動識別和檢測可以在輔助駕駛系統(tǒng)軟件中為駕駛者給予提示,進而降低道路交通事故的發(fā)生(裴曉天,軒轅志,2020)。3.1.2TT100K數(shù)據(jù)集TT100K是清華大學和騰訊聯(lián)合制作的交通標志數(shù)據(jù)集,有9180幅國內(nèi)交通標志圖片。數(shù)據(jù)集中的圖片來源于騰訊街景圖,原圖像的分辨率大小為2048*2048的高清圖片,且根據(jù)相關統(tǒng)計,吸納已有成果可以推導出新的結(jié)論交通標志只占整張圖片的0.2%,基于原數(shù)據(jù)集高分辨率小目標,論文實驗前直接把一張圖畫框裁剪640*640大小的4塊,把標志有目標信息的塊篩選分塊,只保留了有目標的圖(漆志遠,閻曉宇,2023)。在后續(xù)的研究中會對已有的研究成果進一步從不同的角度進行優(yōu)化,會考慮引入國際視角和比較研究的方法,以豐富研究內(nèi)容并提升其普遍適用性。通過借鑒國外先進經(jīng)驗,結(jié)合本土實際情況,努力提出具有前瞻性和實用性的解決方案,推動全球范圍內(nèi)的知識共享和技術進步。與其他數(shù)據(jù)集相比,TT100K數(shù)據(jù)集中包含警告、禁止、指示等221類標志類別,由此可以窺探同時還包含了約300多個中國城市交通街景。如圖3-2所示,處理后的數(shù)據(jù)集中大部分是自然場景下的小目標的交通標志,適用于我們現(xiàn)實生活場景。圖3-2TT100k數(shù)據(jù)集示例正是由于數(shù)據(jù)集自然場景下的數(shù)據(jù)集,所以具備一定的隨機性,也導致了各個交通類別標志數(shù)量不一致,會導致模型偏向于數(shù)據(jù)量多的類別(冉曉輝,司徒博,2018)。因而在開始實驗前,從原有221種標注數(shù)中篩選出了樣本數(shù)較多的45類交通標志如圖3-3所示,篩選后的訓練集和驗證集的數(shù)量分別是5552張和2844張。圖3-345類實驗數(shù)據(jù)集分布圖3.2模型評價指標在深度學習模型訓練中,由此可以推斷如何利用訓練數(shù)據(jù)集對模型進行評估是關鍵。根據(jù)應用場景的不同,需要選擇具有較好模型指標的模型。如何對模型進行性能評價,需要根據(jù)模型要解決的問題和任務來判斷(司曉楠,尉遲志,2024)。從上可以可以看出該方案相比于其他方案具有更好的性價比,同時其高度的定制化能力允許根據(jù)特定需求進行調(diào)整優(yōu)化。這種個性化的解決方案能夠更好地滿足不同客戶的獨特要求,提高客戶滿意度和忠誠度。目標檢測模型的性能主要由檢測精度和速度兩個方面來評價。論文采用平均檢測精度mAP檢測精度和每秒幀數(shù)FPS(FramesPerSecond)檢測速度作為評價最終模型性能和實用性的依據(jù)(滕思遠,濮陽曉,2021)。根據(jù)現(xiàn)有結(jié)果可推斷當mAP值越高、FPS越大時模型性能越好。論文以交通標志識別為業(yè)務場景,要理解mAP指標,首先要了解(1)TP:表示實際是正樣本被預測為正的樣本數(shù)目。(2)FP:一個樣本數(shù)目,它表示實際是負的,但是預測結(jié)果卻是正的。(3)FN:鑒于本文的研究環(huán)境我們考慮了這種情況的發(fā)生表示實際是正樣本但預測為負的樣本數(shù)(4)TN:表示實際是負樣本被預測為負的樣本數(shù)目(萬志海,赫連紅,2019)。Precious(精度)是指模型預測中所有目標的最后預測結(jié)果正確的比例計算公式(2)如下: (2)平均精度(AveragePrecision,AP)計算如公式(3)其中N表示樣本的數(shù)量 (3)而mAP是對每個類別求平均精度 (4)另外論文選擇平均對數(shù)誤檢率(log?averagemissrate,LAMR)作為評價指標。LAMR是指在每張圖片中平均檢測到的目標誤檢數(shù),于此相似條件下可以推知其趨勢而對數(shù)平均誤檢率LAMR這個指標越小,模型性能越好(奚曉峰,慕容翔,2022)。3.3本章小結(jié)本章節(jié)主要闡述了交通標志的類別和TT100K數(shù)據(jù)集的情況,首先,本章介紹了中國公開交通標志數(shù)據(jù)集(閆博濤,鐘離宇,2020)。為了使實驗結(jié)果真實可靠,論文還對數(shù)據(jù)集進行了裁剪預處理。接下來,本章詳細介紹了實驗的評價指標,最后將交通識別標志模型常用的Map檢測精度和FPS檢測速度以及對數(shù)評價指標LAMR進行了概述。

4模型訓練與實驗4.1實驗平臺環(huán)境配置本實驗基于Yolov4以及Yolov5的交通標志識別的實驗環(huán)境。如表4-1所示,主要硬件支持為14GB內(nèi)存大小的型號為英特爾i7-4790的CPU和8GB顯存大小的型號為NVIDIAGeforceGTX1070Ti顯卡。在Ubuntu操作系統(tǒng)基礎上采用python3.6編程平臺,利用Pytorch深度學習框架構建網(wǎng)絡模型(宇曉雷,劉合志,2023)。表4-1硬件配置參數(shù)軟硬件環(huán)境配置CPUInteli7-4790內(nèi)存14GBGPUNVIDIAGeforceGTX1070Ti顯存8GB編程語言Python學習框架Pytorch4.2數(shù)據(jù)集準備從上文交通數(shù)據(jù)集的詳細描述可以得出結(jié)論:TT100K數(shù)據(jù)集類別分布不平衡和圖片原始分辨率較大,會導致網(wǎng)絡提取類別中少實例數(shù)量的特征不完全和性能不足以處理高分辨率圖片數(shù)據(jù)。在此特定情境之中不難看出論文實驗的數(shù)據(jù)準備選擇了標注數(shù)據(jù)量較多的45類交通標志進行識別,且裁剪為640*640的圖像尺度(湛立新,長孫鵬,2018)。上述優(yōu)化方案是依據(jù)對當前狀況的深度分析以及對現(xiàn)有資源與技術的合理利用而誕生的。與傳統(tǒng)方案相比,它在多個關鍵點上展現(xiàn)出突出的優(yōu)點。首先,該方案憑借引入更具創(chuàng)意的設計理念,達成了效率的提升與錯誤率的減少,顯著提高了整體的可達成率。其次,從成本效果的角度分析,新方案有效減少了實施和維護的成本,實現(xiàn)了資源的有效利用,增強了經(jīng)濟效益。此外,它還強化了系統(tǒng)的兼容性和可擴展性,使其能更靈活地適應未來的發(fā)展趨勢和應用需求的變化。針對數(shù)據(jù)集不平衡問題,在YOLOv4、YOlOv5算法中,都有一個很重要的數(shù)據(jù)增強,就是Mosaic數(shù)據(jù)增強。Mosaic數(shù)據(jù)增強從訓練集中每次把四張圖片進行隨機的大小縮放、左右翻轉(zhuǎn)以及明亮度、飽和度、色調(diào)的變化,遵循這種理論框架進行調(diào)研可獲知再隨機分布進行拼接成一張新的圖片,然后將拼接好了的圖片傳入到神經(jīng)網(wǎng)絡中去學習。這個過程豐富了訓練數(shù)據(jù)集,讓網(wǎng)絡的魯棒性更好(鄒曉宇,宇文博,2024)。4.3基于YOLOv4、YOLOv5模型訓練將交通標志數(shù)據(jù)集TT100K按照原數(shù)據(jù)集官網(wǎng)的數(shù)據(jù)集比例,隨機分成5552張訓練集和2844張驗證集,分別剪裁為640*640的圖片,其中用訓練集對YOLOv4和YOLOv5的模型訓練。結(jié)合之前的成果可以推導出為了使特征提取效果明顯,減少訓練時間,達到快速收斂的目的,采用模型的預訓練權重從非零開始訓練。模型預訓練權重的重要作用在于主干特征抽取網(wǎng)絡權值部分用于特征提取(許志誠,程雅琳,2021)。如4-2所示,在訓練該模型時,采用隨機梯度下降法進行訓練,這充分說明了初始化學習率為0.01,訓練周期分為凍結(jié)階段epoch=50和解凍階段epoch=250。在設計優(yōu)化階段,本文著重考慮了經(jīng)濟性與方案的通用性,相較于原始方案,在多個關鍵點上進行了革新與改進。成本控制上,通過剔除多余步驟、選擇性價比更優(yōu)的方案,顯著降低了實施成本,使方案更加經(jīng)濟可行。同時,為了增強方案的普及性,設計時充分考慮了地域多樣性和環(huán)境適應性,確保其在各種條件下都能穩(wěn)定運行,便于其他組織或個人輕松采納與推廣。在解凍階段,模型主干網(wǎng)絡不凍結(jié),特征提取網(wǎng)絡發(fā)生變化,占用顯存較大,網(wǎng)絡參數(shù)發(fā)生變化,前50個epoch按16個批次大小隨機分成16個部分,隨后的250個epoch按8個批次大小(李明,張思遠,2022)。在訓練過程中,通過mosaic數(shù)據(jù)增強、平移、水平轉(zhuǎn)換、色彩抖動等方法增加訓練樣本,提高模型的性能。訓練過程中,吸納已有成果可以推導出新的結(jié)論驗證集的誤差在下一輪訓練中沒有出現(xiàn)下降時,對學習率進行一次衰減,在實驗的過程中的衰減權重設置為0.0005,直到模型收斂為止。表4-2訓練參數(shù)設置學習率BatchsizeMosaci數(shù)據(jù)增強權重衰減系數(shù)前50epoch0.0116True0.0005后250epoch0.018True0.0005YOLOv5訓練參數(shù)與YOLOv4模型基本相同,但訓練速度遠高于YOLOV4。對于TT100K的數(shù)據(jù)集,YOLOV4的最大驗證時間是36小時,相比YOLOV5只有16小時。4.4模型評價對比分析與應用4.4.1模型評價對比分析模型分析需要通過驗證集對模型的驗證,根據(jù)上述評價指標mAP的計算公式,mAP越大對模型性能的預測越準確。圖4-1YOLOv4各類別的AP值 圖4-2YOLOv5各類別的AP值如圖4-1和4-2圖所示,在4-1圖中為YOLOv4的Map為82.92%,在4-2圖中為YOLOv5的Map為92.09%,在Map評價上高出10%,由此可以窺探可以看出YOLOv5比YOLOv4精準度更佳,同時,也可以得出TT100k數(shù)據(jù)集在YOLOv5模型上能夠較好識別交通標志(王志剛,趙文濤,2023)。 圖4-3YOLOv4各類對數(shù)平均誤檢率 圖4-4YOLOv5各類對數(shù)平均誤檢率如圖4-3和圖4-4所示,YOLOv5比YOLOv4對數(shù)平均誤檢率小,但也出現(xiàn)個別類別誤檢率較高,綜合該類的訓練數(shù)據(jù)集中的數(shù)量,因數(shù)量少特征提取不完全導致,模型對該類欠擬合(陳立新,劉建偉,2021)。但YOLOv5依舊表現(xiàn)對該類較強的擬合能力,所以YOLOv5所有的類別擬合能力都非常強,依這些表現(xiàn)可以推測得出能夠?qū)煌酥具M行識別。表4-3數(shù)據(jù)集在不同模型上記錄數(shù)據(jù)對比模型名稱mAPFpsSecondsLamrYOLOv40.82920.0921/0.0920.2524YOLOv50.92090.0341/0.0340.1071結(jié)合表4-3所示,論文采用的評價指標得出結(jié)論,Map是45類AP的平均值,只能替代整體效果。根據(jù)不同類別訓練數(shù)據(jù)的分布情況,Map值可能對特定類別有良好的效果,但在其他類別(數(shù)據(jù)量缺少)中則沒有,所以需要查看每個類的AP。整體上絕大部分類別的識別精度接近80%,由此可以推斷但仍然存在某些類別因數(shù)據(jù)集中訓練圖片數(shù)量少而導致特征提取不完全,模型對該類欠擬合(韓曉峰,孫志遠,2021)。但相比而言YOLOv5依舊表現(xiàn)對該類較強的擬合能力,所以YOLOv5所有的類別擬合能力都非常強,能夠?qū)煌酥具M行識別(張衛(wèi)東,李俊杰,2023)。4.4.2模型應用為了展示模型的應用能力,使用經(jīng)過訓練的YOLOV5模型進行檢測,并將該類別的概率作為置信度進行輸出,根據(jù)現(xiàn)有結(jié)果可推斷如圖4-5所示,隨機從測試集中挑選兩張道路環(huán)境中的交通標志照片作為模型預測的輸入,最后我們可以看出圖像上,有多種交通標志能夠被準確地識別并給出置信度(周慧敏,吳天瑜,2018)。圖4-5TT100K測試集實驗結(jié)果圖4.5小結(jié)本章主要闡述了相關訓練數(shù)據(jù)和訓練參數(shù),并對YOLOv4和YOLOv5模型在數(shù)據(jù)上的驗證進行了對比分析和總結(jié)(趙鵬,錢程遠,2024)。鑒于本文的研究環(huán)境我們考慮了這種情況的發(fā)生由此可以看出,在數(shù)據(jù)量充分的環(huán)境下YOLOv5模型是可以勝任交通標志識別工作。

5總結(jié)與展望隨著家用汽車的普及,交通標志自動識別技術在汽車輔助駕駛中的應用越來越廣泛。與傳統(tǒng)數(shù)字圖像處理方法相比,深度學習在目標檢測和識別方面也有很大突破,在特征提取方面具有自動化、抗干擾性強等特性,能夠針對交通標志所處環(huán)境的復雜性(黃志強,何偉明,2020)。于此相似條件下可以推知其趨勢論文重點介紹了道路標志識別的具體實現(xiàn)方法,將YOLOv4方法與目前較為成熟的YOLOv5方法相比較,在45類的TT100K數(shù)據(jù)集上建立了高精度、高性能、魯棒性強的交通標志識別算法模型。與此同時,論文也存在諸多不足之處,也希望在下一步的工作進行展望,進一步的進行提升模型的精度。論文希望在今后的工作中能夠從以下幾個方面進行完善(林曉紅,謝思遠,2022)。在今后的研究中,嘗試對算法的改進,比如改變網(wǎng)絡結(jié)構、改進卷積層結(jié)構、增加注意力機制來補充完善準確的交通標志識別研究。針對國內(nèi)交通標志數(shù)據(jù)集的不足,對TT100k數(shù)據(jù)集進行擴展,增加不同角度和特殊環(huán)境下的交通標志數(shù)據(jù),在此特定情境之中不難看出豐富交通標志樣本數(shù)據(jù)庫,使實驗模型能夠更好地處理真實環(huán)境中各種場景下的識別工作(郭建華,陳宇翔,2021)。在國內(nèi)外不同公共交通標志數(shù)據(jù)集上比較其他檢測任務算法的性能。在模型評價分析上增加Recall、F1、Precision等評價指標。

參考文獻李明,張思遠.計算機圖像處理與識別技術的應用研究[J].黑龍江科學,2022,12(24):110-112.LiuC,LiS,ChangF,etal.MachineVisionbasedTrafficSignDetectionMethods:Review,AnalysesandPerspectives[J].I(張衛(wèi)東,李俊杰,2023)Access,2023,PP(99):1-1.SongS,QueZ,HouJ,etal.Anefficientconvolutionalneuralnetworkforsmalltrafficsigndetection[J].Journalof閻志國,傅曉宇temsArchitecture,2019.王志剛,趙文濤,等.基于深度學習的霧霾天氣下交通標志識別[J].重慶交通大學學報:自然科學版,2020.陳立新,劉建偉.基于殘差單發(fā)多框檢測器模型的交通標志檢測與識別[J].浙江大學學報(工學版),2021,53(05):127-136.韓曉峰,孫志遠.基于生成對抗網(wǎng)絡改進的更快速區(qū)域卷積神經(jīng)網(wǎng)絡交通標志檢測[J].汽車技術,2021(7):5.張衛(wèi)東,李俊杰.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks[J].I(張衛(wèi)東,李俊杰,2023)TransactionsonPatternAnalysis&MachineIntelligence,2017,39(6):1137-1149.RedmonJ,DivvalaS,GirshickR,etal.Y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論