




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
單擊此處添加文本單擊此處添加文本第一章
緒論1目錄
|
CONTENTS深度學習簡介1深度學習發展歷史2深度學習分類3度量指標42深度學習簡介13深度學習定義深度學習是機器學習的重要分支,通過模擬神經元和復雜網絡結構實現信息處理和學習。深度學習目標讓機器像人類一樣具備分析和學習能力,更接近人工智能的最初目標。1.1深度學習簡介深度學習概覽4經典深度學習架構包括AlexNet、RNN、LSTM、GAN和Transformer,它們各自在圖像、序列數據和生成模型等領域做出了重要貢獻近二十年,深度學習因大數據、優化策略(如隨機梯度下降、dropout)及GPU并行計算的突破,實現了快速發展深度學習的突破與進展20世紀50年代至80年代,深度學習逐步發展,從感知機到反向傳播算法,為解決非線性分類鋪平道路,但受限于計算能力深度學習早期探索51.1深度學習簡介經典深度學習架構的誕生發展歷程與突破深度學習技術廣泛應用于計算機視覺、自然語言處理和語音識別等領域,實現圖像識別、機器翻譯和聲紋識別等功能深度學習的廣泛應用深度學習迅猛發展,廣泛應用于生物醫學、無人駕駛等領域,未來將更成熟,賦能更多場景深度學習的跨領域應用1.1深度學習簡介6深度學習的應用1.1深度學習簡介應用領域與價值7自然語言處理機器翻譯、文本分類、命名實體識別、語義分析、文本生成語音識別聲紋識別、語音轉文本、語音合成其他領域生物醫學、無人駕駛、工業自動化、智能家居計算機視覺圖像分類、對象檢測、語義分割、姿態估計、3D重建深度學習正在改變我們的生活方式深度學習發展歷史28深度學習技術歷程涵蓋關鍵階段,如神經網絡早期發展、反向傳播算法的提出、大數據時代的到來對深度學習的推動產業化應用進程從學術到產業,包括深度學習在圖像識別、自然語言處理等領域的應用,以及在人工智能產品中的商業化進程1.2深度學習發展歷史91943年,麥卡洛克和皮茲提出人工神經元模型,1958年Rosenblatt推出感知機算法,開啟計算機模擬人腦的先河深度學習起源011982年,GeoffreyHinton提出反向傳播算法,解決了非線性數據分類,引發第二次神經網絡學習狂潮反向傳播算法021982-1986年,RNN出現,但受限于記憶力短和梯度不穩定問題,未引起廣泛關注循環神經網絡031998年LSTM解決RNN的長序列問題,2014年GRU提出,參數更少,計算效率更高LSTM與GRU042006年,Hinton等人提出深度學習新方案,解決梯度消失,再次引發深度學習熱潮深度學習復興052012年AlexNet開啟深度卷積網絡新時代,后續各種CNN架構不斷優化,2014年GAN創新生成式模型深度學習突破061.2.1深度學習技術的發展歷史102017年,Transformer的出現徹底改變了NLP。Transformer是一類純粹基于注意力機制的神經網絡算法,其不使用循環網絡或卷積。它由多頭自注意力、殘差連接、層歸一化、全連接層和位置編碼組成。在NLP各個下游任務上表現出非常優越的性能。目前,它也在改變著計算機視覺領域,并被用在機器翻譯、文本摘要、語音識別、文本補全、文檔搜索等多個下游任務上。1.2.1深度學習技術的發展歷史111.2.1深度學習技術的發展歷史12谷歌研究者將Transformer應用于圖像識別,提出VisionTransformer(ViT),在計算機視覺基準測試中表現出色。VisionTransformers概述01大規模語言模型如GPT系列由OpenAI和DeepMind等開發,參數量龐大,性能持續提升,目前GPT-4在創造力和協作性上更進一步。大規模語言模型(LLM)03OpenAI的DALL·E2模型能根據文本生成高分辨率、逼真圖像,引領視覺語言模型發展。視覺和語言模型02代碼生成模型如OpenAICodex、DeepMindAlphaCode和MetaCodeLlama,是人工智能在編程領域的應用,能理解和生成代碼,助力建設智能系統。代碼生成模型04重要技術突破01Transformer在圖像領域應用谷歌研究者在2020年提出VisionTransformer,對圖像塊序列運行Transformer,實現在圖像分類任務上的顯著成果,展現出強大的并行性和縮放行為02VisionTransformer架構特點使用圖像patch作為輸入,結合Transformer的超強并行性和縮放能力,使VisionTransformer在多個計算機視覺基準測試中表現優異,成為Cifar-10上最先進的分類模型1.2.1深度學習技術的發展歷史13(1)VisionTransformers1.2.1深度學習技術的發展歷史多模態模型發展視覺與語言模型結合,如文本轉圖像、圖像字幕及視覺問答,Transformer推動統一網絡,實現多任務處理DALL·E2模型OpenAI發布,顯著提升圖像生成質量,分辨率、匹配度與真實感優秀,代表文本轉圖像模型新高度圖1-1
DALL·E2生成的圖像14(2)視覺和語言模型01語言模型用途預測文本、文檔摘要、翻譯、語音識別與合成,多功能應用02GPT系列發展從GPT到GPT-3,參數量與訓練數據激增,GPT-3參數達1750億,需366年及460萬美元訓練03模型規模擴張NVIDIAMegatron-LM、DeepMindGopher、GooglePaLM等模型參數量超越GPT-3,規模持續擴大1.2.1深度學習技術的發展歷史15(3)大規模語言模型(LLM)始于2021年,OpenAI發布Codex,微調自GPT-3,能編寫、解釋代碼;DeepMind隨后發布AlphaCode,解決編程競賽問題,排名前54%;2023年,Meta開源CodeLlama,免費商用,自然語言生成代碼AI系統如Codex、AlphaCode和CodeLlama,能根據自然語言或文本生成代碼,補全代碼,適用于多種編程任務,展現批判性思維與自然語言理解能力深度學習技術歷史代碼生成技術1.2.1深度學習技術的發展歷史16(4)代碼生成模型第二次發展浪潮第一次發展浪潮1956至1980年,聚焦邏輯推理,成果實用性有限,未解決實際問題1980至2006年,專家系統興起,解決特定領域問題,如醫學專家系統MYCIN,準確率媲美初級醫師,但仍有限制,高昂維護成本致AI發展再次低谷第三次發展浪潮1980至2006年,第三次AI浪潮,深度學習由Hinton提出,實現技術突破,跨越理論到應用的鴻溝1.2.2深度學習產業應用的變遷史17人工智能三次發展浪潮1.2.2深度學習產業應用的變遷史2006年:Hinton提出深度學習神經網絡,標志著第三次發展浪潮的開啟。2012年:AlexNet在圖像識別領域的突破,推動深度學習技術的普及。2024年:大模型技術的崛起,推動AI在多領域的深度應用。18深度學習技術的突破智慧交通通過大數據和AI技術優化資源配置,自動駕駛、智能交通管理成為主流AI在輔助診斷、藥物研發、醫療影像等領域取得突破;聯影醫療的uAI影智大模型AI+安防引領安全監控新紀元,實現高效預警和精準識別。華泰證券的智能投顧、中信證券的做市系統交通領域醫療領域安防領域金融領域AI賦能工業軟件,推動制造業智能化轉型;大模型技術加速工業場景需求探索工業領域1.2.2深度學習產業應用的變遷史19產業應用的變遷01市場規模2021年全球AI市場達850億美元,中國占9.6%,僅次于美歐,預計2022年中國市場規模2729億元02發展趨勢計算機視覺與自然語言處理商業化快,2020年計算機視覺市場規模近千億,自然語言處理產品規模219億,年增20%1.2.2深度學習產業應用的變遷史20市場規模與發展趨勢深度學習分類321有監督學習(SupervisedLearning)使用帶標簽的訓練數據,模型學習輸入與輸出間的關系,適用于分類和回歸問題無監督學習(UnsupervisedLearning)在無標簽數據上學習,發現數據的內在結構或模式,常用于聚類和降維半監督學習(Semi-supervisedLearning)利用少量標記數據和大量未標記數據進行學習,適用于標記數據稀缺的場景自監督學習(Self-supervisedLearning)通過自我生成的標簽進行學習,利用輸入數據的結構信息,常用于預訓練弱監督學習(Weakly-supervisedLearning)使用標注質量較低或部分缺失的訓練數據,模型學習弱標簽與真實標簽的潛在關系1.3.1任務類型22有監督學習是指在訓練過程中,數據集中的每個樣本都有明確的目標輸出值,模型通過學習這些樣本的輸入和輸出關系來預測新的輸出值。應用場景:分類和回歸的場景,如圖像分類、心臟病預測等。23
有監督學習無監督學習的原理無監督學習通過學習輸入數據間的關系,來發現數據的內在結構和規律,不依賴明確的目標輸出值。24
無監督學習自動編碼器是常見的降維工具,通過編碼和解碼過程,將高維數據壓縮為低維表示,用于數據壓縮和異常檢測等。降維技術01生成模型如GAN和VAE學習數據分布,生成與訓練數據相似的新樣本,應用于圖像生成、語言建模等任務。生成模型02
無監督學習25降維與生成模型半監督學習的定義半監督學習介于有監督學習和無監督學習之間,部分數據集中的樣本有明確的目標輸出值,而其他樣本沒有目標輸出值。其目標是利用未標注的數據來提高模型在有標注數據上的性能。26
半監督學習01半監督學習定義結合有監督和無監督學習,利用未標注數據提升模型性能03半監督學習算法包括自訓練、協同訓練、半監督字典學習、標簽傳播算法等02半監督學習分類分為純半監督學習和直推學習,基于不同假設處理未標記數據04半監督學習挑戰性能依賴于對數據的特定假設,限制了實際應用范圍
半監督學習27圖1-2主動學習、半監督學習、直推學習
半監督學習在許多實際應用中,獲取無類標簽的樣例容易,但獲取有類標簽的樣本需要特殊設備或經過昂貴且耗時的實驗過程。因此,半監督學習應運而生,旨在通過結合少量有標簽數據和大量無標簽數據來提升學習性能。背景半監督學習避免了數據和資源的浪費,同時解決了監督學習的模型泛化能力不強和無監督學習的模型不精確等問題。優勢28假定訓練數據中的未標記樣本并非待預測的數據,而是基于“開放世界”假設,希望學得的模型能適用于訓練過程中未觀察到的數據。純半監督學習假定學習過程中所考慮的未標記樣本恰是待預測數據,基于“封閉世界”假設,僅試圖對學習過程中觀察到的未標記數據進行預測。直推學習半監督學習類型
半監督學習29用有標簽數據訓練一個分類器,然后用這個分類器對無標簽數據進行分類,產生偽標簽(pseudolabel)或軟標簽(softlabel)。基于一定的準則挑選認為分類正確的無標簽樣本,將其加入訓練集中。簡單自訓練(SimpleSelf-training)屬于自訓練的一種技術,假設每個數據可以從不同的角度進行分類,不同角度可以訓練出不同的分類器。這些分類器對無標簽樣本進行分類,并選出認為可信的無標簽樣本加入訓練集。由于分類器從不同角度訓練,可以形成互補,提高分類精度。協同訓練(Co-training)(1)自訓練算法(Self-training)
半監督學習——主要方法30(2)基于圖的半監督學習(Graph-basedSemi-supervisedLearning)標簽傳播算法(LabelPropagationAlgorithm)通過構造圖結構(數據點為頂點,點之間的相似性為邊),尋找訓練數據中有標簽數據和無標簽數
據的關系,從而將標簽信息傳播到未標記的樣本上。(3)半監督支持向量機(Semi-supervisedSVM,S3VM)監督支持向量機是利用結構風險最小化來分類的。半監督支持向量機則進一步利用了無標簽數據的
空間分布信息,即決策超平面應該與無標簽數據的分布一致(經過無標簽數據密度低的地方)。(4)半監督字典學習先將有標簽數據構建為字典,對無標簽數據進行分類,挑選出認為分類正確的無標簽樣本,加入字典中(此時的字典就變成了半監督字典)。
半監督學習——主要方法31半監督學習方法大多建立在對數據的某種假設上,例如聚類假設(同一簇內的數據屬于同一類別)和流形假設(數據在低維流形上分布)。只有滿足這些假設時,半監督算法才能有性能保證。這也是限制半監督學習應用的一大障礙。假設:限制:
半監督學習32半監督學習的假設與限制定義:自監督學習通過利用數據本身的內在結構來預測數據中的特定關系或特征,從而使用有監督的學習算法進行訓練。關鍵:設計合適的“偽標簽”以捕獲數據的結構信息。應用領域:預訓練語言模型(如Word2vec)、圖像分割等。
自監督學習33(1)基于上下文的方法原理:利用數據本身的上下文信息構造任務。CBOW:通過周圍詞預測中心詞。Skip-Gram:通過中心詞預測周圍詞。Word2vec:Jigsaw(拼圖)任務:通過預測圖像塊的相對位置學習語義信息。圖像領域:
自監督學習——主要方法34(2)基于時序的方法利用幀的相似性:相鄰幀特征相似,相隔較遠的幀特征相似度低。構建正樣本(相似)和負樣本(不相似)進行自監督約束。視頻領域:圖1-5時序幀相似性示意圖
自監督學習——主要方法35原理:利用樣本間的時序約束關系進行自監督學習。(3)基于對比的方法關注正負樣例的構建方式。探究非線性層在對比學習中的作用。提取更好的文本序列表征。SimCLR:通過對比學習提升無監督學習性能。關注樣本數量對學習質量的影響。正樣本:同一張圖片的兩個區域;負樣本:不同圖片的區域。MoCo:
自監督學習——主要方法36原理:學習對兩個事物的相似或不相似進行編碼,通過對比約束構建表征。01弱監督學習定義在噪聲或不準確標簽數據集進行學習,從低質量標簽中提取信息提升模型性能03不確切監督僅知包級標簽,不知包內每個示例標簽,進行粗粒度學習02不完全監督部分數據有標簽,部分無標簽,利用有標簽數據指導無標簽數據學習04不精確監督標簽存在錯誤,模型需識別并糾正錯誤標簽以提升準確性
弱監督學習37生成式模型生成式模型通過學習數據分布生成新樣本,如GAN、VAE、DBN和擴散模型。它們在深度學習中用于創造新內容或輔助優化。判別式模型判別式模型是學習輸入數據與輸出標簽間條件概率分布的非概率模型,如CNN、RNN、LSTM等。根據深度學習的目標和方式,可以將深度學習模型劃分為生成式模型和判別式模型兩類1.3.2模型類型38生成式模型定義與應用學習輸入數據聯合概率分布P(X,Y),生成新樣本,如GAN、VAE、DBN、擴散模型391.3.2模型類型——生成式模型GAN架構與功能基于深度學習,由生成器與鑒別器組成,生成新內容,2014年由IanGoodfellow等人提出圖1-9生成式對抗網絡(GAN)VAE原理與特點通過概率建模隱含變量,結合深度神經網絡與貝葉斯推理,生成類似訓練數據的新數據圖1-10變分自編碼器(VAE)1.3.2模型類型——生成式模型40DBN結構與優勢由RBMs堆疊而成,預訓練生成式模型優化權重,解決深度網絡局部最優與欠擬合問題1.3.2模型類型——生成式模型41擴散模型機制通過連續添加高斯噪聲破壞訓練數據,學習逆向去噪過程恢復數據,生成與訓練數據相似樣本判別式模型,又稱非概率模型,是指通過學習數據集中的統計規律,對輸入數據進行分類或回歸。判別式模型試圖學習輸入數據和輸出標簽之間的條件概率分布P(Y|X)。判別式模型關注于“給定數據屬于哪個類別”的問題,直接對輸入數據進行分類或回歸。常見的判別式模型有卷積神經網絡(CNNS)、循環神經網絡(RNNs)、長短時記憶網絡(LSTM)等。1.3.2模型類型——判別式模型42度量指標443
在深度學習中,如何評估模型解決當前問題的“可用”程度,需要根據對應需求選擇合適的評估指標對模型的表現進行評定。深度學習的度量指標可按任務類型大致分為三類:回歸任務指標、分類任務指標、生成任務指標。1.4度量指標44分類任務指標回歸任務指標使用均方誤差、R2分數,衡量模型預測值與真實值接近程度,較小誤差體現高可用性準確率、查準率、查全率、F1分數,分析模型分類正確率,高指標表示分類效果好生成任務困惑度、人類可讀性評估等,用于判斷生成內容的多樣性與真實性,低困惑度表示生成能力強1.4度量指標451、偏差偏差是實際值與預測值的差,殘差之和常被用來度量偏差,低偏差可能僅意味著模型不準確,因為相反符號的殘差會抵消1.4.1回歸任務指標46特點:衡量模型解釋的方差比例,值越高擬合效果越好,但增加特征不一定會提升模型性能,可用于比較模型1)相對度量,用于模型比較。2)值越高,擬合效果越好。3)對特征數量敏感,可能隨特征增加而增加。4)用于粗略估計模型性能。2、決定系數R2其中:RSS(殘差平方和):預測誤差的平方和。TSS(總平方和):實際值與均值的平方和。1.4.1回歸任務指標47MSE的定義MSE代表平均誤差,通過計算殘差平方和的平均值,對大誤差懲罰更重。MSE的特點MSE是尺度相關的,對異常值敏感,且誤差以目標變量單位表示。3、均方誤差MSE1.4.1回歸任務指標48MAE是平均絕對誤差,它衡量預測與目標間的平均差異,對異常值不敏感5、平均絕對誤差(MAE)RMSE是MSE的平方根,它與目標變量的尺度相同,方便解釋4、均方根誤差(RMSE)1.4.1回歸任務指標4901度量指標混淆矩陣評估分類模型,TP、FP、TN、FN區分預測正誤,對角線密集表示性能好02核酸檢測示例陽性為P,陰性為N,TP正確陽性,FP錯誤陽性,TN正確陰性,FN錯誤陰性,總樣本=TP+FP+TN+FN03指標計算精確率、召回率、特異度反映分類效果,精確率不同于準確率Accuracy1.4.2分類任務指標50混淆矩陣準確率是正確預測數量占總預測數量的比例,在樣本不平衡時可能無法準確反映模型性能準確率(Accuracy)01精確率是預測為正類的樣本中,實際為正類的比例,計算公式為:Precision=(真正正類數量)/(預測為正類的總數)精確率(Precision)02召回率是實際為正的樣本被預測為正的概率,它與精確率呈反比,召回率高意味著預測正的能力強召回率(Recall)03F1-Score是精確率和召回率的調和平均值,衡量二分類模型的準確性。值越大,模型越好F1-Score041.4.2分類任務指標51評估生成任務,通過比較候選譯文與參考譯文n-gram重合度,重合度高表示質量高。BLEU概念01計算unigram到4-gram的精確率,加權平均后乘以長度懲罰因子BP,衡量譯文與參考譯文的相似度。BLEU計算方法02通常取N=1到4,關注單詞準確性和句子流暢性,用于評價機器翻譯的性能。BLEU應用03BP懲罰因子確保譯文長度不過短,1-gram精確率體現忠實原文,高階n-gram體現流暢翻譯。BLEU分數解析041.4.3生成任務指標52(1)BLEU03關注召回率,衡量n元詞組在參考譯句與輸出間的重合,旨在評估NMT的漏翻問題。ROUGE概念解析主要應用于NMT系統,評估翻譯結果是否包含足夠多的原文信息,防止過度流暢導致的誤譯。ROUGE應用領域作為BLEU的升級,ROUGE更重視翻譯內容的覆蓋,而非翻譯的精確匹配。ROUGE與BLEU對比011.4.3生成任務指標5302(2)ROUGEMETEOR評估指標METEOR計算流程METEOR考慮語序一致METEOR同義詞處理綜合準確率和召回率,考慮整個語料庫表現,包含同義詞匹配功能。利用WordNet擴展同義詞庫,對詞形變化的詞進行部分匹配。通過chunk分析,比較候選譯文和參考譯文的語序一致程度。計算最佳匹配的準確率和召回率的調和平均,評估句子流暢性。1.4.3生成任務指標54(3)METEOR衡量文本多樣性指標,計算不重復ngram與總詞數比例,體現回復的獨特性。DISTINCT定義DISTINCT-n越大,生成的多樣性越高。適用于對話系統、廣告文案等任務。DISTINCT特點1.4.3生成任務指標55(4)DISTINCTGreedyMatching是計算兩句話中相似度最高詞的平均余弦相似度,關注點在于找出關鍵詞。GreedyMatching算法采用向量極值法計算句向量,通過余弦相似度衡量句子間的相似度。VectorExtremaEmbeddingAverage是計算語句相似度的方法,它通過加權平均詞向量得到句向量,再用余弦相似度衡量兩者間的相似度。EmbeddingAverage1.4.3生成任務指標56(5)詞向量評價指標用于比較語言模型預測能力,低PPL表示模型預測效果更優。PPL概念解釋01通過比較模型對測試集句子的概率,PPL值越低,建模能力越強。PPL計算方式02給定文本,RNN和GPT-2的PPL分數可體現哪個模型對文本預測更準確。PPL應用示例03測試集上概率高的模型更好,低PPL意味著語言模型對正常句子理解更佳。理解PPL指標041.4.3生成任務指標57(6)困惑度PPLN-gram重疊方法無法捕捉語義和語法變化,與人工評估一致性低。傳統度量標準局限性在訓練數據稀缺的環境中,BERTSCORE展示出更好的性能,更接近人工評估。新指標優勢基于BERT表征,利用上下文信息和特殊設計的邏輯計算句子相似度,具有更強的魯棒性。BERTSCORE介紹1.4.3生成任務指標58(7)BERTSCORE構建評估框架,替代人工測評,針對文本理解、生成任務,體現更優一致性。GPT-4模型能力評估01對比傳統指標,大量實驗顯示GPT-4在摘要、對話等任務中與人類判斷更接近。應用實例分析0259(8)GPT-Eval1.4.3生成任務指標6060本章小結本章首先從基本概念、歷史發展和應用價值對深度學習進行了簡要介紹,繼而討論了技術發展、產業變遷對深度學習的發展歷程進行具體闡述,再分別從任務類型和模型類型的角度對深度學習進行了分類和介紹,以便于讀者能夠快速且較為全面的對深度學習進行了解。1-1當前大模型的規模已經達到千億級別,你認為未來大模型能力的進化需要更大的參數規模嗎?1-2將大模型的思維鏈能力蒸餾到小模型時,屬于有監督、無監督、半監督、自監督和弱監督中的哪種訓練范式?1-3目前大模型競賽中,歐美等國的科技公司處在前列,你認為應該采取什么措施拉近與歐美等國的差距?1-4隨著大模型的能力不斷增強,你認為在不久的將來它能夠完全代替人工標注嗎?可能會存在什么潛在的瓶頸或風險?思考題與習題61612深度學習基礎目錄
|
CONTENTS線性代數1微積分2概率論3距離與相似度計算4激活函數567感知機與多重感知機反向傳播算法線性代數12.1.1標量與向量標量是一個單獨的數,它沒有大小和方向之分。標量通常用一個數或者小寫斜體字母表示。標量01向量由一列數有序排列組成,是一個既有大小也有方向的量。可以把向量看作空間中的點,每個元素對應不同坐標軸上的坐標。向量通常由粗體小寫字母表示。向量022.1.2矩陣和張量矩陣是一個二維數組,由m行n列元素排列而成,每個元素須由兩個索引確定。矩陣也可視為由m個長度相等的行向量或n個長度相等的列向量組成。矩陣通常用粗體大寫字母來表示。矩陣01張量是一個多維數組,可以看作是向量的推廣,向量可以視為一維張量,同時矩陣也可視為二維張量。張量中每個元素須由各個維度對應索引共同確定。張量022.1.3矩陣計算給定兩個向量,它們的點積是指二者相同位置元素乘積的和,計算公式如下:點積01
矩陣乘法022.1.4范數如果我們按常數因子縮放向量的所有元素,其范數也會按相同常數因子的絕對值縮放:01滿足三角不等式:02范數是具有“長度”概念的函數,它常常被用來度量某個向量空間(或矩陣)中的向量的長度或大小。向量范數是將向量映射到標量的函數,對給定的任意向量,具有以下性質:范數是非負的:03當且僅當向量為零向量時范數為0,即:2.1.4范數范數有很多名字,例如我們熟悉的曼哈頓距離、最小絕對誤差等,其可以度量兩個向量間的差異,如絕對誤差和,計算方式如下:L1范數01范數一樣,范數也可以度量兩個向量間的差異,如平方差和。歐氏距離就是一種范數,計算方式如下:L2范數02微積分22.2.1導數與微分
2.2.1導數與微分在實際應用時,常常需要微分一個由一些常見函數組成的函數,這時可以使用以下法則。假設函數和都是可微的,是一個常數,有:2.2.2偏導數和梯度
偏導數012.2.2偏導數和梯度
梯度022.2.2偏導數和梯度偏導數與梯度并不是相等的概念,二者有區別也有聯系,具體而言:是一個多元函數針對其某一個變量的導數,而保持其他變量恒定。偏導數01是一個向量,它指向函數在給定點處變化率最大的方向,它是一個由偏導數組成的向量。梯度022.2.3鏈式法則
概率論32.3.1概率分布概率分布用于描述隨機變量每個取值或狀態的可能性大小。針對離散型隨機變量和連續型隨機變量有不同的描述方式。
離散型隨機變量01連續型隨機變量的概率分布通常用概率密度函數來表示,但其并沒有直接給出特定取值或狀態對應的概率值,需要對概率密度函數求積分來獲得隨機變量取值落在某一范圍內的概率。連續型隨機變量022.3.2期望與方差期望是最基本的數學特征之一,反映了隨機變量平均取值的大小。若隨機變量為離散型,其期望可表示為:若隨機變量為連續型,概率密度函數為,其期望可表示為:期望01方差是對隨機變量離散程度的度量,其描述了隨機變量與其數學期望之間的偏離程度。若隨機變量為離散型,其方差可表示為:若隨機變量為連續型,概率密度函數為,其方差可表示為:方差022.3.3條件概率和聯合概率
條件概率01
方差022.3.4全概率公式與貝葉斯定理
全概率公式01
貝葉斯定理022.3.5邊緣概率分布
距離與相似度計算42.4.1常見的距離計算假設當前有兩個??維向量??和??,可以通過兩個向量之間的距離或者相似度來判定這兩個向量的相近程度,兩個向量之間距離越小,相似度越高;兩個向量之間距離越大,相似度越低。MinkowskiDistance是對多個距離度量公式概括性的表述,當時,MinkowskiDistance便是曼哈頓距離;當時,MinkowskiDistance便是歐式距離;MinkowskiDistance取極限的形式便是切比雪夫距離。閔可夫斯基距離(MinkowskiDistance)01曼哈頓距離(ManhattanDistance)02歐式距離/歐幾里得距離(Euclideandistance)032.4.1常見的距離計算切比雪夫距離(ChebyshevDistance)04海明距離(HammingDistance)05歐式距離/歐幾里得距離(Euclideandistance)06
給定隨機變量??和兩個概率分布??和??,KL散度可以用來衡量兩個分布之間的差異性,其公式如下。2.4.2常見的相似度計算余弦相似度(CosineSimilarity)01皮爾遜相關系數(PearsonCorrelationCoefficient)02給定兩個隨機變量??和??,皮爾遜相關系數可以用來衡量兩者的相關程度,公式如下:式中和分別表示向量??和??的均值,和分別表示向量??和??的標準差。2.4.2常見的相似度計算Jaccard相似系數(JaccardCoefficient)03假設有兩個集合??和??,則其計算公式為:激活函數52.5激活函數激活函數是一種添加到人工神經網絡中的函數,旨在幫助網絡學習數據中的復雜模式。在神經元中,輸入經過一系列加權求和后作用于另一個函數,這個函數就是這里的激活函數。類似于人類大腦中基于神經元的模型,激活函數最終決定了是否傳遞信號以及要發射給下一個神經元的內容。在人工神經網絡中,一個節點的激活函數定義了該節點在給定的輸入或輸入集合下的輸出。標準的計算機芯片電路可以看作是根據輸入得到開(1)或關(0)輸出的數字電路激活函數。如果不用激活函數,每一層輸出都是上層輸入的線性函數,無論神經網絡有多少層,最終的輸出都是輸入的線性組合。激活函數給神經元引入了非線性因素,使得神經網絡可以逼近任何非線性函數。2.5激活函數
sigmoid01函數定義:導數:優點:①
sigmoid函數的輸出映射在(0,1)之間,單調連續,輸出范圍有限,優化穩定,可以用作輸出層;②
求導容易。缺點:①
由于其軟飽和性,一旦落入飽和區梯度就會接近于0,根據反向傳播的鏈式法則,容易產生梯度消失,導致訓練出現問題;②
sigmoid函數的輸出恒大于0。非零中心化的輸出會使得其后一層的神經元的輸入發生偏置偏移,并進一步使得梯度下降的收斂速度變慢;③
計算時,由于具有冪運算,計算復雜度較高,運算速度較慢。2.5激活函數
tanh02函數定義:導數:優點:①tanh比sigmoid函數收斂速度更快;②相比sigmoid函數,tanh是以0為中心的。缺點:①與sigmoid函數相同,由于飽和性容易產生的梯度消失;②與sigmoid函數相同,由于具有冪運算,計算復雜度較高,運算速度較慢。2.5激活函數
ReLU03函數定義:導數:優點:①收斂速度快;②相較于sigmoid和tanh中涉及了冪運算,導致計算復雜度高,ReLU可以更加簡單地實現;③當輸入時,ReLU的導數為常數,這樣可有效緩解梯度消失問題;④當時,ReLU的梯度總是0,提供了神經網絡的稀疏表達能力。缺點:①ReLU的輸出不是以0為中心的;②神經元壞死現象,某些神經元可能永遠不會被激活,導致相應參數永遠不會被更新;③不能避免梯度爆炸問題。2.5激活函數
LReLU04函數定義:導數:優點:①避免梯度消失;②由于導數總是不為零,因此可減少壞死神經元的出現。缺點:①LReLU表現并不一定比ReLU好;②不能避免梯度爆炸問題。
2.5激活函數
PReLU05函數定義:導數:優點:①PReLU是LReLU的改進,可以自適應地從數據中學習參數;②收斂速度快、錯誤率低;③PReLU可以用于反向傳播的訓練,可以與其他層同時優化。
2.5激活函數
ELU06函數定義:導數:優點:①導數收斂為零,從而提高學習效率;②能得到負值輸出,這能幫助網絡向正確的方向推動權重和偏置變化;③防止壞死神經元出現。缺點:①計算量大,表現并不一定比ReLU好;②不能避免梯度爆炸問題。
2.5激活函數
SELU07函數定義:導數:優點:①SELU是ELU的一個變種。其中和是固定數值(分別為1.0507和1.6732);②經過該激活函數后使得樣本分布自動歸一化到0均值和單位方差;③不會出現梯度消失或爆炸問題。
2.5激活函數
softsign08函數定義:導數:優點:①softsign是tanh激活函數的另一個替代選擇;②softsign是反對稱、去中心、可微分,并返回?1和1之間的值;③softsign更平坦的曲線與更慢的下降導數表明它可以更高效地學習。缺點:導數的計算比tanh更麻煩2.5激活函數
softplus08函數定義:導數:優點:①作為ReLU的一個不錯的替代選擇,softplus能夠返回任何大于0的值;②與ReLU不同,softplus導數是連續的、非零的,無處不在,從而防止出現壞死神經元。缺點:①導數常常小于1,也可能出現梯度消失的問題;②softplus另一個不同于ReLU的地方在于其不對稱性,不以零為中心,可能會妨礙學習。2.5激活函數
softmax09
感知機與多層感知機62.6.1感知機
2.6.1感知機
2.6.1感知機
感知機學習算法算法2-12.6.2多層感知機
感知機能夠解決線性可分的情況,但真實世界中,大量分類問題是非線性可分問題。一種解決的有效方法是,在輸入層和輸出層之間引入隱含層,在每個隱含層通過激活函數來處理非線性情況,從而將感知機轉化為多層感知機來解決非線性可分問題。多層感知機是目前應用廣泛的神經網絡之一,這主要源于基于BP算法的多層感知機具有以下重要能力。①非線性映射能力。多層感知機能學習和存儲大量輸入-輸出模式映射關系,它能完成由n維輸入空間到m維輸出空間的非線性映射。②泛化能力。多層感知機訓練后將所提取的樣本對中的非線性映射關系存儲在權值矩陣中。在測試階段,當輸入新數據時,網絡也能完成由輸入空間向輸出空間的正確映射。這種能力稱為多層感知機的泛化能力,它是衡量多層感知機性能優劣的一個重要方面。③容錯能力。多層感知機的優勢還在于允許輸入樣本中帶有較大的誤差甚至個別錯誤。因為對權矩陣的調整過程也是從大量的樣本對中提取統計特性的過程,反映正確規律的知識來自全體樣本,個別樣本中的誤差不能左右對權矩陣的調整。反向傳播算法72.7反向傳播算法
2.7反向傳播算法
前向傳遞過程012.7反向傳播算法
誤差反向傳遞過程022.7反向傳播算法
誤差反向傳遞過程022.7反向傳播算法
誤差反向傳遞過程022.7反向傳播算法
誤差反向傳遞過程022.7反向傳播算法
誤差反向傳遞過程02本章小結本章主要討論了深度學習所需要的數學基礎知識,包括線性代數、微積分、概率論相關基礎概念和運算,以及深度學習中常用的距離與相似度計算方式。進一步,介紹了人工神經網絡中的幾個重要概念,包括激活函數、感知機,和多層感知機等。最后,對神經網絡訓練過程涉及的反向傳播算法進行了介紹。希望通過本章的介紹,能夠讓讀者對后續章節有更好的理解。思考題與習題單擊此處添加文本單擊此處添加文本3卷積神經網絡目錄
|
CONTENTS簡介1基礎模塊2典型卷積神經網絡3各種卷積4116簡介1117卷積神經網絡(CNN)是一種在深度學習領域具有重要地位的人工神經網絡。其核心特點是卷積運算,這使得CNN在圖像分類、語義分割、檢索和物體檢測等計算機視覺任務中表現出色。此外,CNN還被應用于自然語言處理、軟件工程和數據挖掘等領域,展現出優越的預測效果。3.1簡介1181193.1.1基本概念卷積神經網絡是一種層次模型,輸入為原始數據(如RGB圖像、音頻等)。通過卷積、池化和非線性激活等操作,逐層抽取高層語義信息。這一過程稱為“前饋運算”。1、卷積神經網絡(CNN)概述2、CNN的層次結構1203.1.1基本概念不同類型的操作稱為“層”,例如卷積層、池化層等。每一層的輸出是一個三維張量(如圖像的H×W×C)。數據逐層傳遞,每一層可以是單一操作或操作組合。3、前饋運算與損失函數1213.1.1基本概念
反向傳播與模型訓練利用反向傳播算法,將誤差從最后一層逐層向前反饋,更新每一層的參數。重復前饋運算和反向傳播,直到網絡收斂,完成模型訓練。CNN的類比解釋CNN可以類比為搭積木的過程:卷積等操作作為“基本單元”,逐層堆疊在原始數據上。每一層的輸出作為下一層的輸入,最終計算損失函數。3.1.1基本概念122卷積神經網絡起源AlexNet的突破LeNet的誕生神經認知模型貓的視覺神經元研究,1962年發現大腦視覺中樞結構,啟發神經網絡設計。福島邦彥提出"神經認知",模擬生物視覺系統,S型和C型細胞對應現代CNN的卷積層和池化層。1998年YannLeCun的LeNet,基于梯度學習的卷積網絡,應用于手寫數字識別,開啟了商業應用。2012年GeoffreyE.Hinton等人在ImageNet競賽中使用AlexNet,卷積神經網絡開始主導計算機視覺領域。3.1.2發展歷程123基礎模塊2124本節將在掌握深度卷積神經網絡的基本框架后,重點探討卷積神經網絡中的關鍵組成部分及模塊。這些組成部分的逐層堆疊,使得卷積神經網絡能夠直接從原始數據中學習特征表示,并成功地完成最終任務。3.2基礎模塊125深度學習核心思想深度學習模型結構端到端學習優勢傳統機器學習對比端到端學習,自動特征表示,無需人工特征工程,解決復雜問題時可能達到全局最優。依賴預處理特征,人工特征質量影響最終精度,多步驟方法可能無法實現全局最優。整體優化,不人為劃分子問題,直接從原始輸入到期望輸出,協同效果可能更優。全連接神經網絡,原始輸入層上堆疊操作層,通過損失函數反向傳播優化參數。3.2.1端到端架構12601輸入層功能接收原始圖像數據,調整大小、歸一化、處理通道,適應網絡需求,為后續層提供處理后的數據流。03數據增強目的通過隨機變換增加訓練數據多樣性,防止過擬合,提升卷積神經網絡在實際任務中的泛化性能。02預處理步驟包括圖像大小調整確保輸入一致,歸一化使數值范圍可控,增強數據多樣性和泛化能力,以及按批次組織數據以優化計算效率。04通道與批量處理處理圖像的多個通道,適應網絡結構,同時將數據組織成批次進行高效訓練,為特征提取和學習做好準備。3.2.2輸入層127卷積層是深度卷積神經網絡中的基本操作,它在網絡中發揮著重要作用。實際上,甚至在網絡的最后起分類作用的全連接層在工程實現時也可以通過卷積操作進行替代。這種替代方式的使用在實際應用中相當常見。3.2.3卷積層128卷積運算在神經網絡中用于分析圖像,通過卷積核與輸入數據相乘累加,得到特征圖,用于后續層的處理。
基本思想圖
3-1二維場景下,卷積核和輸入數據的可視化。圖左展示了一個3x3的卷積核,而圖右展示了一個5x5的輸入數據。129
基本思想(a)
第一次卷積操作后的結果 (b)第三次卷積操作后的結果圖
3-2卷積中間結果示意圖在第一次卷積操作中,從圖像的像素位置(0,0)開始,卷積核的參數與對應位置的圖像像素逐個相乘,并將它們累加起來作為卷積操作的結果。具體計算為:1x1+2x0+3x1+6x0+7x1+8x0+9x1+8x0+7x1=1+3+7+9+7=27,如圖3-2(a)所示。130卷積操作:一種局部操作,通過特定大小的卷積核對局部圖像區域進行處理,獲取圖像的局部信息。邊緣檢測示例:使用三種邊緣卷積核(濾波器)說明卷積操作的作用:整體邊緣濾波器:檢測圖像中的整體邊緣信息。橫向邊緣濾波器:檢測圖像中的橫向邊緣信息。縱向邊緣濾波器:檢測圖像中的縱向邊緣信息。邊緣檢測原理:假設像素點(x,y)可能存在物體邊緣,其周圍像素值與(x,y)有顯著差異。應用邊緣濾波器可以保留這些顯著差異的區域,從而檢測出物體的邊緣信息。131
卷積層基本作用1、卷積操作的基本原理卷積核的參數學習:在卷積神經網絡中,卷積核的參數是通過網絡訓練學習得到的。多樣的邊緣濾波器:網絡可以學習到各種邊緣濾波器,包括橫向、縱向和任意角度的邊緣濾波器。復雜的深層卷積神經網絡還可以學習到檢測顏色、形狀、紋理等基本模式的濾波器。高層語義表示:隨著網絡的后續操作,基本模式被組合并逐漸抽象為具有高層語義的“概念”表示。網絡能夠將輸入樣本映射到具體的樣本類別,并對不同的概念進行表示和分類。類比:類似于盲人摸象,網絡逐漸將各個部分的結果整合起來,最終形成對整體樣本的理解和分類。132
卷積層基本作用2、卷積核的學習與高級特征檢測在卷積神經網絡中,當涉及到池化層時,通常使用的操作有平均值池化和最大值池化。這些操作與卷積層不同,它們不包含需要學習的參數。在使用池化層時,只需要指定池化類型(如平均值或最大值)、池化操作的核大小(池化核的大小)以及池化操作的步長等超參數即可。這些超參數決定了在池化操作中如何對輸入數據進行下采樣。3.2.4池化層133
池化的基本概念1341、池化操作隨機池化是一種介于平均值池化和最大值池化之間的操作。它按概率隨機選擇輸入數據中的元素,而不是僅選擇最大值或計算均值。元素值越大,被選中的概率越高,因此它結合了平均值池化(考慮所有元素)和最大值池化(選擇大響應)的特點。隨機池化的目的是通過引入隨機性來增強模型的魯棒性和抗過擬合能力,但其使用不如平均值池化和最大值池化廣泛。
池化的基本概念1352、隨機池化池化操作實質上是一種“下采樣”(down-sampling)的技術。同時,可以將池化操作視為一種使用p-范數(p-norm)作為非線性映射的“卷積”技巧。特別地,當p逼近無窮大時,它就等同于常見的最大值池化。
池化層意義136
引入池化層旨在模擬人類視覺系統對輸入對象的降維和抽象。池化層在卷積神經網絡中具有以下功能:特征不變性:池化使模型關注特征的存在而非具體位置,容忍微小位移。特征降維:池化通過降采樣減少輸入大小,提取更廣泛的特征,降低計算量和參數數量。防止過擬合,優化訓練:池化層雖非必需,但可防止過擬合,便于優化。有研究用特殊卷積操作替代池化層實現降采樣,實驗表明其性能可與傳統卷積神經網絡相當137
池化層意義激活層(activationlayer)是卷積神經網絡另外一個重要的組成部分。激活層將卷積層或者全連接層線性運算的輸出做非線性映射,為神經網絡提供非線性能力。激活層通過激活函數來實現。激活函數模擬了生物神經元的特性,接受一組輸入信號產生輸出,并通過一個閾值模擬生物神經元的激活和興奮狀態。常見的激活函數包括:Sigmoid、Tanh、ReLU等,具體可參考第二章。3.2.5激活層138全連接層在卷積神經網絡中作為“分類器”,將特征表示映射到標簽空間。在實際應用中,可以通過卷積操作實現全連接層的功能:對于前一層是全連接層的情況,可轉化為1×1卷積核;對于前一層是卷積層的情況,可轉化為全局卷積核(尺寸為h×w,其中h和w是前一層輸出的高度和寬度)。3.2.6全連接層139
以VGG網絡為例:輸入為224×224×3的圖像,經過卷積和池化層后,最后一層卷積輸出為7×7×512的特征張量。若后續接4096個神經元的全連接層,可使用7×7×512×4096的全局卷積來實現全連接計算。具體操作:將7×7×512的特征張量展平為長度為25088的向量,通過全局卷積運算,將每個7×7的局部特征圖與權重逐元素相乘并求和,最終得到4096維的向量,完成從特征到標簽的映射。這種將全連接層轉化為全局卷積的方法在VGG網絡中是一種特殊設計,旨在減少參數量,簡化網絡結構,提高計算效率,并已被證明是有效的。1403.2.6全連接層
全連接層將特征映射到樣本標記空間進行預測,而目標函數衡量預測值與真實標記之間的誤差。對于分類問題,交叉熵損失函數是最常用的目標函數之一,它基于預測類別和真實類別之間的差異來衡量分類錯誤,并在訓練過程中促使網絡更好地擬合數據,尤其適用于多類別分類任務。對于回歸問題,L2損失函數(均方誤差)是常用的目標函數,衡量預測值與真實值之間的平方差,對異常值較敏感,但在許多情況下仍有效。此外,針對不同任務特性,研究人員還提出了其他目標函數,如序列生成任務中的序列交叉熵損失函數和強化學習中的策略梯度目標函數等。這些目標函數為不同任務和數據特點提供了更大的靈活性和選擇性,使得卷積神經網絡能夠更好地訓練和優化性能。1413.2.7目標函數典型卷積神經網絡3142LeNet-5是由YannLeCun等人于1998年提出的早期卷積神經網絡模型,廣泛用于手寫數字識別任務(如MNIST數據集)。它引入了卷積層和池化層,通過卷積核提取局部特征,并利用池化層降低特征圖尺寸以增強模型魯棒性。LeNet-5使用Sigmoid激活函數引入非線性,能夠學習復雜的圖像特征。它在MNIST數據集上取得了優異性能,為深度學習在計算機視覺領域的發展奠定了基礎,并激勵了后續更復雜CNN模型的出現。3.3.1LeNet-5圖
3-6LeNet-5
架構圖1432012年,GeoffHinton及其學生AlexKrizhevsky和IlyaSutskever在多倫多大學設計了AlexNet,這是一個深層卷積神經網絡。它在2012年ImageNetLSVRC競賽中奪冠,top5錯誤率僅為15.3%,遠低于第二名的26.2%。AlexNet的網絡結構包含五個卷積層和三個全連接層,分為上下兩個相同的分支,分別在兩個GPU上并行訓練,并在第三卷積層和全連接層交互信息。它解決了圖像分類問題,輸入為1000類圖像中的一個,輸出為1000維向量,表示輸入圖像屬于各分類的概率。AlexNet的成功奠定了CNN在圖像識別領域的核心地位,推動了深度學習的發展。3.3.2AlexNet144
與之前的CNN結構相比,AlexNet的設計和訓練具有以下特點:ReLU激活函數:使用ReLU代替傳統的sigmoid或tanh,加快訓練速度,減少梯度彌散和爆炸。數據擴充:通過隨機裁剪、平移和翻轉擴充數據量。從256×256圖像中截取224×224區域及水平翻轉鏡像,增加數據量。Dropout:在訓練中隨機丟棄神經元,防止過擬合。主要應用于最后三個全連接層。多GPU訓練:使用多塊GPU并行計算,突破單GPU顯存限制,加快訓練速度。局部響應歸一化(LRN):借鑒“側抑制”思想,對ReLU輸出進行局部歸一化,增強泛化能力。1453.3.2AlexNetVGG是由牛津大學VGG組提出的CNN網絡,基于AlexNet加深了網絡層次,采用多個3×3卷積核代替AlexNet中的大卷積核(11×11、5×5),在ImageNet上Top-5準確率達到92.3%,是2014年競賽中定位任務的第一名和分類任務的第二名基礎網絡。VGG使用更小的卷積核和池化核,使網絡更深更寬,計算量增加放緩。測試階段,VGG將全連接層替換為卷積層,可接收任意尺寸輸入。VGG的預訓練模型廣泛應用于特征提取、物體候選框生成、細粒度圖像定位與檢索及圖像協同定位等任務。3.3.3VGGNet圖
3-7VGG網絡結構146GoogleNet和VGG是2014年ImageNet競賽中的兩個著名網絡,都具有較深的層次。與VGG不同,GoogleNet大膽創新,未繼承AlexNet框架。GoogleNet通過結構設計增加深度和寬度,同時避免了過擬合、梯度消失等問題,且模型大小遠小于AlexNet和VGG。GoogleNet采用22層網絡,通過在不同深度處增加兩個輔助損失(loss)來避免梯度消失。其創新點在于Inception模塊,這是一種“網中網”結構,既增加了網絡寬度,又提升了對不同尺度的適應性。為了避免特征圖(featuremap)過厚,Inception模塊在3×3卷積、5×5卷積和最大池化層后分別加入1×1卷積核以降低特征圖厚度。這使得GoogleNet在擁有22層的同時,參數量少于AlexNet和VGG。3.3.4GoogLeNet圖
3-8Inception模塊結構147在早期研究中,CNN網絡從AlexNet的7層發展到VGG的16或19層,再到GoogleNet的22層,深度不斷增加以提升表達能力。然而,后續研究發現,當網絡深度達到一定程度后,繼續增加層數不僅無法提升性能,反而會導致網絡收斂變慢、準確率下降,例如VGG網絡在19層以上時性能開始下降。在此背景下,華人學者何愷明等人提出了ResNet網絡,引入殘差學習的概念,解決了深層網絡中的信息丟失和梯度問題,并在ILSVRC2015競賽中奪冠,top5錯誤率僅為3.57%,且參數量少于VGG。ResNet的核心思想是增加直連通道,允許原始輸入信息直接傳遞到后面的層中,簡化了學習目標,提升了訓練速度和準確率,且具有良好的推廣性,可應用于InceptionNet等網絡。3.3.5ResNet圖
3-9ResNet模塊結構1481、R-CNN系列模型工作原理149候選區域提取:使用SelectiveSearch等傳統圖像分割方法生成可能包含目標的候選區域,這些區域數量多且形狀、大小各異。特征提取:將每個候選區域調整為固定大小,通過預訓練的CNN(如AlexNet、VGG)提取特征,這些網絡在大規模圖像分類任務上訓練,能有效捕獲圖像特征。目標分類:將提取的特征輸入SVM分類器,將候選區域分為不同目標類別(如汽車、行人、動物等),每個類別對應一個SVM。目標定位:使用回歸器微調候選區域的邊界框,以更準確地匹配目標的實際位置。非極大值抑制(NMS):排除重疊的候選區域,保留最佳檢測結果,確保每個目標只被保留一次。訓練過程:兩階段訓練,先預訓練CNN,再訓練SVM分類器和回歸器以適應目標檢測任務。3.3.6R-CNN系列2、FastR-CNN網絡的工作原理150候選區域提取:引入RegionProposalNetworks(RPNs)生成候選區域,與特征提取共享卷積計算,提高速度。特征提取:對整張圖像進行卷積計算,得到特征圖。使用RoIPooling層從特征圖中提取每個候選區域的固定大小特征向量,確保特征表示維度一致。目標分類與邊界框回歸:將特征向量輸入兩個全連接層:一個用于目標分類,通過Softmax輸出類別概率。一個用于邊界框回歸,預測目標的精確位置。3.3.6R-CNN系列2、FastR-CNN網絡的工作原理151多任務損失函數:同時優化分類和邊界框回歸:分類損失使用交叉熵。邊界框回歸損失使用SmoothL1Loss。訓練過程:端到端訓練:微調預訓練的卷積神經網絡。在目標檢測數據集上優化網絡參數。測試過程:前向傳播生成候選區域并提取特征。使用分類器進行目標分類,應用邊界框回歸優化目標位置。3.3.6R-CNN系列定義:“YOLO”代表“YouOnlyLookOnce”,是一系列用于實時目標檢測的深度學習模型。特點:通過單次前向傳遞同時預測圖像中的多個物體邊界框和類別,兼顧速度和準確性。3.3.7Yolo系列152YOLO簡介YOLOv1YOLOv10YOLOv3YOLOv2發布時間:2015年,由JosephRedmon等人提出。架構:將輸入圖像劃分為S×S網格,每個網格預測B個邊界框、置信度和類別概率。輸出:網絡輸出為S×S×(B×5+C)的張量,其中C為類別數量。訓練:使用均方誤差和交叉熵損失函數,結合非極大值抑制(NMS)去除重復檢測。發布時間:2016年。改進:引入Darknet-19和Darknet-53網絡結構。
使用錨點框(anchorboxes)提高邊界框預測準確性。
實現多尺度訓練和預測,聯合訓練目標檢測和分類任務。發布時間:2018年。改進:使用Darknet-53網絡結構。引入多尺度預測和特征融合,使用三種不同尺度的邊界框預測不同大小的目標。使用1×1卷積層進行類別預測,提升速度和準確性。發布時間:2024年,由清華大學發布。改進:取消非最大抑制(NMS),引入一致雙重賦值策略。
優化模型架構,降低計算成本。
在各種模型規模上表現出色,如YOLOv10-S在COCO數據集上實現快速高效的目標檢測。1533.3.7Yolo系列MobileNet是一種輕量級CNN架構,專為移動設備和嵌入式系統設計,以實現高效的圖像識別任務。它由谷歌研究人員于2017年提出,成為深度學習領域中受歡迎的輕量級模型之一。MobileNet的核心是深度可分離卷積,它將傳統卷積分解為兩個獨立步驟:深度卷積和逐點卷積。深度卷積對每個輸入通道單獨進行卷積操作,而逐點卷積使用1×1卷積核將深度卷積的結果映射到最終輸出通道數上,實現通道間的信息交互和混合。此外,MobileNet引入了寬度乘法參數(WidthMultiplier),用于控制網絡寬度,減少通道數和模型計算量。該參數介于0和1之間,例如0.5表示將通道數減少為原來的一半。通過深度可分離卷積和寬度乘法參數的結合,MobileNet在資源受限的設備上實現了高效的圖像識別任務,成為移動端和嵌入式設備上廣泛使用的輕量級深度學習模型。3.3.8MobileNet圖
3-12深度卷積(左)逐點卷積(右)Conformer是一種結合卷積神經網絡(CNN)和Transformer架構的混合網絡,融合了卷積操作和自注意力機制,以提升表示學習能力。它采用并行結構,同時保留局部特征和全局信息。實驗表明,Conformer在ImageNet上的性能比視覺Transformer高出2.3%,在MSCOCO上的目標檢測和實例分割任務中,分別比ResNet-101高出3.7%和3.6%的mAP,展現出作為通用骨干網絡的強大潛力。3.3.9Conformer圖
3-13
Conformer效果對比各種卷積4156如圖3-14所示,單通道圖像的2D卷積通過濾波器與輸入數據逐元素相乘并累加,得到卷積值。例如,使用一個3×3的濾波器(元素為[[0,1,2],[2,2,0],[0,1,2]]),在輸入數據上滑動,每次計算對應位置的乘法和加法,最終輸出一個3×3的矩陣。在多通道輸入(如RGB圖像)中,2D卷積廣泛應用。例如,對于一個5×5×3的輸入矩陣和一個3×3×3的濾波器,每個3×3的濾波器核分別對輸入的三個通道進行卷積,得到三個3×3的輸出通道。3.4.12D卷積圖
3-14
2D卷積,單通道(上)多通道(下)157在多通道情況下,2D卷積實際上是一個3D卷積過程,因為濾波器的深度與輸入層深度匹配,濾波器僅在圖像的二維空間(高度和寬度)上滑動,輸出單通道結果。而3D卷積中,濾波器深度小于輸入層深度,需要在三個維度(長、寬、高)上滑動,輸出結果為3D結構。3D卷積的優勢在于能更好地描述3D空間中的對象關系,適用于3D對象分割和醫學圖像重構等場景。3.4.23D卷積圖
3-15
3D卷積示意圖1581×1卷積不僅對特征圖中的每個值進行縮放,還通過激活層實現非線性映射,并能靈活改變特征圖的通道數。例如,對一個H×W×D的輸入層應用D維的1×1卷積核,輸出通道維度變為H×W×1。多次執行1×1卷積并將結果合并,最終可得到H×W×N的輸出層。3.4.31×1卷積圖
3-16
1×1卷積示意圖159在可分離卷積中,卷積核操作可以分解為多個步驟。卷積過程用表達式y=conv(x,k)表示,其中y是輸出圖像,x是輸入圖像,k是卷積核。如果卷積核k可以表示為k=k1?k2,那么卷積操作就可以分解為兩個一維卷積,從而實現可分離卷積,得到與二維卷積相同的結果。例如,Sobel卷積核可以通過向量[1,0,?1]和[1,2,1]T的乘積來實現,參數數量從9個減少到6個。3.4.4空間可分離卷積圖
3-17
空間可分離卷積運算示意圖160使用32個3×3的卷積核遍歷16個輸入通道,產生512個特征映射(16×32),然后將每個輸入通道的特征映射相加,形成32個輸出通道。參數總量為4608(16×32×3×3)。傳統卷積:深度卷積:對每個輸入通道分別應用3×3卷積核,得到16個特征映射。逐通道卷積:對這16個特征映射分別應用32個1×1卷積核,最終合并結果。參數總量減少為656(16×3×3+16×32×1×1)。深度可分離卷積:1613.4.5深度可分離卷積深度可分離卷積將標準卷積分解為空間卷積和逐通道卷積兩步,顯著減少參數數量。以一個3×3卷積層為例,輸入通道為16,輸出通道為32:假設輸入層大小為7×7×3,使用3×3×3的卷積核進行2D卷積,輸出層大小為5×5×1。若使用128個卷積核,則得到128個5×5×1的輸出映射,堆疊后形成5×5×128的輸出層。標準2D卷積回顧:深度卷積:使用3個3×3×1的卷積核分別對每個輸入通道進行卷積,得到5×5×3的中間輸出。逐通道卷積:對中間輸出應用1×1卷積核,增加通道數至32,最終輸出5×5×32的特征圖。深度可分離卷積實現:1623.4.5深度可分離卷積圖
3-18
深度可分離卷積示意圖分組卷積是一種在人工智能領域廣泛應用的技術,最早應用于AlexNet模型。由于當時硬件資源有限,無法將所有卷積操作集中在一塊GPU上,因此作者采用分組卷積的方法,將特征圖分成多個部分,分別在多個GPU上處理,最后合并結果。其原理如下:傳統2D卷積中,使用多個卷積核(如128個3×3×3的卷積核)將輸入層(如7×7×3)轉換為輸出層(如5×5×128)。在分組卷積中,將卷積核分成若干組,每組獨立執行卷積操作,最終將各組結果合并。3.4.6分組卷積圖3-19分組卷積示意圖163擴張卷積通過增加卷積核內值之間的間隔來擴展感受野。例如,擴張率為2的3×3卷積核具有與5×5卷積核相同的視野,但僅需9個參數。它類似于在5×5卷積核中刪除間隔行和列,從而在保持計算成本不變的情況下獲得更大的感受野。這種技術因在實時分割領域的應用而受到關注,尤其適用于需要更大感受野但無法承受更高計算成本的場景。3.4.7擴張卷積圖3-20擴張卷積示意圖空洞卷積通過在卷積核的部分之間插入空間來實現"膨脹"的效果。參數l(空洞率)表示希望將卷積核擴展多大。圖3-20示了當l=1,2,4時,卷積核的大小。(當l=1時,空洞卷積就等同于標準卷積操作。)16451本章小結本章系統介紹了卷積神經網絡的基本概念、發展歷程、基本結構與部件以及代表性模型。卷積神經網絡發源于人們對于視覺系統工作原理的研究,以類比的思想用卷積核對圖像的處理模擬人類感受野讀取、理解圖片的過程。卷積神經網絡的出現大大推動了計算機視覺領域的進步,特別是近些年來,以卷積神經網絡為基本架構的模型在部分任務上達到了和人類持平甚至超過人類的表現。3-1卷積層在CNN中起到什么作用?3-2什么是池化層,它的主要功能是什么?3-3激活函數在CNN中的作用是什么?常見的激活函數有哪些?3-4什么是全連接層,它在CNN中起到什么作用?3-5什么是端到端學習,它相比傳統機器學習方法的優勢是什么?3-6AlexNet在設計和訓練上有哪些特點?3-7VGG網絡的主要創新點是什么?3-8什么是深度可分離卷積,它的主要優勢是什么?3-9什么是感受野,為什么在卷積神經網絡中重要?3-10什么是YOLO網絡,它的主要特點是什么?思考題與習題1664循環神經網絡目錄
|
CONTENTS循環神經網絡結構1循環神經網絡的訓練2雙向循環神經網絡與深度循環神經網絡3長短期記憶網絡4門控循環單元567遞歸神經網絡雙向長短期記憶網絡與雙向門控循環單元循環神經網絡(recurrentneuralnetworks,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆廣西柳州市柳江區七下數學期末聯考模擬試題含解析
- 法學概論拓展性課程的設計與實施試題及答案
- 軟件項目的功能需求與性能需求分析試題及答案
- 計算機組成原理考察試題及答案
- 班級工作計劃細致分工
- 倉庫工作總結提高計劃
- 江蘇省無錫市宜興市宜城環科園聯盟2025屆七下數學期末監測試題含解析
- 外科護理團隊建設經驗分享計劃
- 理財目標規劃計劃
- 班級環境布置與主題創意計劃
- PE袋化學品安全技術說明書MSDS(聚乙烯塑膠袋)
- MOOC 中西文化對比與交流-中南大學 中國大學慕課答案
- 2024年政工職稱考試題庫含完整答案(考點梳理)
- 卵圓孔未閉的治療及護理
- 高考語文備考復習:現代文閱讀-科幻小說閱讀指導與練習
- 超聲在康復醫學中的應用
- 國家版圖知識競賽樣題庫(試題及答案)
- 運政業務培訓課件
- 公務用車管理培訓
- 糧油保管員中級培訓測試題及標準答案
- NB-T 47013.2-2015 承壓設備無損檢測 第2部分-射線檢測
評論
0/150
提交評論