




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
行業深度研究行業深度研究深度學習的三要素包括算法、數據和算力,本文主要對算法的演進過程進行了回顧,認為過往神經網絡的發展以eu激活函數的提出為分水嶺,分為淺層神經網絡和深度學習兩個階。在淺層神經網絡階段,最重要的任務就是解決梯度不穩定的問。在這個問題未被妥善解決之前,神經網絡應用性能不佳,而屬于非神經網絡的支持向量機算法)是解決人工智能模式識別的主流方法。201年eu激活函數被提出、梯度消失問題被大幅緩解之,神經網絡進入深度學習時,算法和應用的發展均突飛猛。最初C、RN等模型在不同的模態和任務均各有擅長2017年rnsforer的提出讓深度學習進入了大模型時代2020年sonransfrer的提出讓深度學習進入了多模態時代,自此多模態和多任務底層算法被統一為ransforer架構。目深度學習算法主要是基于ransforer骨干網絡進行分支網絡的創新,如引入擴散模型、強化學習等方法。整個行業算法發展速度放緩,靜待骨干網絡的下一次突破。下文我們將對各發展階段的經典模型進行回顧:感知機:第一個神經網絡感知機由osenbatt在1958年提出是神經網發展的起。感知機是一個單層的神經網絡模,由輸入值、權、求和函數及激活函三部分組成。整個模型對輸入值進行有監學習,權重部分是可訓練參;將對應輸與權重相乘求和,得到的求和值與常數比對,判斷是否觸發激活函數,最終依據輸出的0-1信號判斷圖像類別。感知機提出了用神經網絡模型解決人工智能任務但作為神經網絡模型的開山之作,還存在以下問:受階躍激活函數限制,感知機只能輸出0或1,因此只進二元分。感知機只能處理線性可分數據,無法處理線性不可分的數據,而線性不可分數據是現實世界中的常態。該嚴重缺陷由nsky于1969年提出,扼殺了人們對感知機的興趣,也由此導致了神經網絡域研究的長期停滯。圖表1:感知機二元分類過程 圖表2:數據的線性可分性 AI與強化學習公眾號, PaddleEu多層感知機與BP算——神經網絡的再興起多層感知機解決了多元分類問題20世紀0年代,多層感知機L)被提出。模由輸入層、輸出層和至少一層的隱藏層構,是一種全連接神經網絡,即每一個神經元都會和上下兩層所有的神經元相連接。各隱藏層中的神經元可接收相鄰前序隱藏層中神經元傳遞的信息,經過加工處理后將信息輸出到后續隱藏層中的神經元。-4-行業深度研究行業深度研究由于隱藏層豐富了神經網絡的結構,增強了神經網絡的非線性表達能力,感知機的線性不可分問題得以解決,因而神經網絡再次迎來興起。圖表3:多層感知機通過引入隱藏層進行多元分類eepAI相較感知機,多層感知機主要進行了如下改:解決了感知機的二元分類問題:引入隱藏層,并采用非線性激活函數god代替階躍函數,使得神經網絡可以對非線性函數進行擬合??蛇M行多元分類任務:多層感知機拓寬了輸出層寬度。多層感知機的發展受到算力限。由于多層感知機是全連接神經網絡,所需算力隨著神經元的增呈幾增長。而在算力相對匱乏20世紀80年代,算力瓶頸阻礙了多層感知的進一步發。P算法:神經網絡訓練的基本算法1986年,nton提出了一種適用于多層感機訓練的反向傳播算—P算法,至今仍是神經網絡訓練的主流算法。P算法的核心思想為將輸出值與標記進行比較,誤差反向由輸出層向輸入層傳播,在這個過程中利用梯度下降算法對神經的權進行調整。P算法最大的問題在于梯度不穩定。由于當時god、anh作為非線性激活函數應用廣泛,而這兩種激活函數都存在一定范圍內梯度過大或過小的問題。神經網絡停在淺層時,連乘次數少、梯度較為穩定;而當神經網絡向深層邁進,梯度的不穩定性加劇,使得深層神經網絡無法正常訓練。因此,有效緩解梯度不穩定現象是神經網絡向深層次邁進前必須解決的問。圖表4:梯度消失使神經網絡無法正常訓練SciencePog,深度學習與圖網絡公眾號,-5-行業深度研究行業深度研究淺層神經網絡在多應用領域各自演進多層感知機的出現奠定了神經網絡的基本結構,也使得神經網絡的應用范圍不再局限于圖像識別,而是向自然語言處理、語音識別等其他領域拓展。由于各個領域的任務具有不同特點,神經網絡產生了眾多分支模型。這一階段分支網絡探索各自領域的任務特點,通過機制創新使神經網絡獲得對應的特征提取能力。圖像識別領域“卷積”機制提取圖空間特征人類在進行圖像識別時,能夠從細小的特征推理得知事物的全貌,即“窺一斑而見全豹。在多層感知機時代,由于二維圖像被轉化為一維向量后輸入模型,因此丟失了圖像的空間特征信息。為了使神經網絡獲得從特征到全局的圖像識別能力,卷積神經網絡應運而生。1998年,Leet卷積神網()首次應用于圖像分。CN通過多個卷積層對特征進行提取和壓縮,得到較為可靠的高層次特征,最終輸出的特征可應用于圖像分類等任務。Leet網絡由卷積層、池化層和全連接層構成:卷積層:通過在輸入圖像上滑動卷積核,進行卷積操作提取關鍵特。卷積核的尺寸比輸入圖像小得多,無需像多層感知一樣學習完整圖片信息;池化層:對特征進約減,從提取主要特征比如將卷積層的輸出劃分為若干矩形區域,取各區域的平均值或最大值,從而簡化網絡計算復雜;全連接層:對提取到的特征進行匯總,將多維的特征映射為二維輸出。圖表5:卷積神經網絡典型結構 圖表6:卷積的實質是提取關鍵特征iveintoeepLeann(Atonhang等,221, VIIA相較多層感知機,卷積神經網絡具備以下優:計算量減少:神經元只與對應的部分局部連;圖像識別能力增強利用卷積思想,使神經網絡具備了局部特征提取能力;平移不變性:由于卷積核會在輸入圖像上滑動,所以無論被檢測物體在圖片哪個位臵都能被檢測到相同的特征。自然語言處理領域“循”機制提語言時序特征人類在進行文字閱讀、語音識別時,不僅會關注當前看到、聽到的詞句,還會聯上下文進行輔助理解。在多層感知機時代,所有的輸入彼此獨立,模型僅針對當前詞句進行訓練,而不關注前后信息,造成了時序信息的丟失。為了使神經網絡獲得時序信息提取能力1986年循環神經網絡R)被提出,將循環思想引入神經網絡在RN中,每個神經元既接受當前時刻輸入信息、也接受上一時刻神經元的輸出信息,使神經網絡具備了時序特征提取能力。-6-行業深度研究行業深度研究圖表7:N同時接受當前時刻輸入與上一時刻輸的信息Python與機器智能公眾號,相較多層感知機,循環神經網絡具備以下優:可處理文本、語音等時序相關的信息;計算量大大降低在循環神經網絡進行訓練時,參數、、V是共享的,這減少了訓練所需的計算量。支持向量機深度學習出之前的主算法支持向量機SV)是傳統機器學習中最重要的分類算法之一作為有監督的分類器,其核心思想與感知機類,但對目標函數進行了改:感知機目標函數:錯誤分類點到超平面的距離之和最小。支持向量機目標函數:支持向(距離超平面最近的正反例到超平面的距離最大化。圖表8:感知機與支持向量目標函數不同人工智能技術公眾號,AI與強化學習公眾號,支持向量機的思想最早在1963由apnk等人提出,在90年代經過多次模型和算法改進,能解決感知機線性不可分和多元分等缺陷,并可應用于人體動作識別、人臉識別、文本識別、生物信息學等領域。圖表9:在深度學習之前支持向量是解決人工智能任務的主流方法時間 理論提出者 理論內容3年k等在解決模式識別問題時提出支持向量方法1年r等構造基于支持向量構建核空間的方法,可用于解決線性不可分問題7年g等將支持向量方法用于人體動作識別,最高準確度達%5年k等提出“”的塊算法,正式為持機,其用于手寫數字識別-7-行業深度研究行業深度研究6年z等將VM用于物體識別6年ct等將VM用于說話人識別7年sa等提出分解算法,并將VM用于人臉識別7年c將VM用于文本識別8年sn等構造多值分類模型,可用VM處理多元分類任務9年b等將VM應用于基因表達微陣列數據分類《Atuoalnupotvecormahnesforatteneonion(uges等,198《lecarclaifictonofcnce:lasdicoveyndcaspedicinbygeeexpeionmitoing(ob等,1999,電子與信息學報公眾號,聲振之家公眾號,由支持向量機方法基本上不涉及概率測度及大數定律,具有更嚴格的理論和數學基,因擁有泛化能力強、收斂到全局最優、維數不敏感優點作為與神經網絡并行的方法流派,在“深度學習出現之前,支持向量機度擁有更高的精,是解人工智能任的主流方。支持向量的最大瓶頸在不適合進行多維度大樣本訓練其本質是借助二次規劃獲得最優解,當樣本量過大時會極大增加機器內存和運算時。梯度消失問題的解決使神經網向深層邁進逐層無監督是深度學習的初次探索2006年,深度學習之父nton提出了一種梯度消失問題的解決方法是深度學習的初次探。nton的解決方法分為兩步1)逐層無監督:即先通過無監督學習逐層初始各神經元的參數而P算法的初始參數為隨機賦予,使各神經元的參數較為接近最優值,這一步極大地緩解了梯度消失問;2)通過P算法進行有監督學習,得到神經網絡的最優參數。nton的論文發表之后,深度學習方法在學術界引起了巨大的反響,但由于此時模型的應用表現較為一般,因此深度學習的浪潮未向產業界蔓延。圖表10:逐層無監督P有監督解決梯度消失問題《AatLeaningAgitmforeepBeefet(intn等,20)eu激活函數的提出開啟了深度學習時代201年,eLu激活函數被提出,該激活函數的優點:具有更好的非線性擬合能,緩解梯度消失問;具有稀疏激活性,去掉了無關的噪聲,能夠更好地挖掘相關特征、且提升訓練速度(導數為0或1,非常簡單。eLu激活函數被提出后201年微軟首次將深度學習應用于語音識,使得-8-行業深度研究行業深度研究識別詞錯誤率穩定降低了2030,在產業界引起轟動。2012年,nton及其學生提出exet,自此奠定了深度學習的經典訓練范式。exet采用了經典的CN網絡結構、使用eLu激活函數、對輸入值進行有監督學習(摒棄了此前的逐層無監督方法、并采用GU對訓練進行加速。由于exet將ageet數據集上圖像分類的錯誤率由26%降至15,此后5年學術界均用exet的范式進行深度學習訓。同時,由于錯誤率大幅降低,產業界開啟了深度學習的應用。圖表1:iid和tanh函數存在梯度過/過小問題 圖表12:殘差學習進一步緩解了梯度消失問題來源:PaddleEu 《eepeiulLanngforIaeeonton(inge等,2016,2016年,何愷明等人提出eset,使得神經網絡可以對殘差進行學習,更好地緩解了梯度消失問題,也讓eset的神經網絡深度高達152層。由于殘差學習能很好地緩解梯度消失問題,在之的ransforer架構中也得以沿用。ansoer統一了各任務底層算法,開啟多模態和大模型時代2017年,Googe將注意力機制引入神經網絡,提出了新一代深度學習底層算法——ransforer。于ransorer在物體分類、語義理解等項任務準確率超過、N等傳統算法,且能應用于、LP等多模態,因而ransforer的提出使得多任務、多模態的底層算法得到統一。與、RN相,3種模型的算法復雜程度差異不大ransforer的主要優勢在:可并行計算、減少訓練時間、便于處理大數據ransforer用位臵編碼的方式代替了N的詞句逐個輸入、循環迭代,因此可以采用并行計算加速訓練。加強了神經網絡對時序特征的提取:無論兩個詞相隔多遠,都能捕捉到彼此之間的依賴關系。-9-行業深度研究行業深度研究圖表13:Tafrer示意圖《AttentionIsAlloueed(hihaani等,207)由于在處理大數據方面具備顯著優勢ransforer的出現開啟了深度學習的“大模型”時代。如OpenI發布的G-3,該模型在多個任務都取得了第一的成績,而其在算法結構上與前代的GT、G-2沒有明顯差別,最大的區別是采用海量數據進行模型訓練,生地詮釋了“大就是好”的理念。圖表14:GT系列模型參數呈指數級增長模型名稱發布時間參數量億訓練數據大小算力消耗fs-ay8年6月756-29年2月4-30年5月00《OntheompaabityofPetaiedLanuaeMdl(Mathas等,00)2020年,Goge出sonransorer(T)以解決計算機視覺問題,這標志著自然語言處理、計算機視覺兩個最重要深度學領域實現底層算法的統一。T的核心思想是把圖像當文本處理,即將完整的圖像劃分為若干個小塊,把各個小塊視為詞,把各個小塊構成的完整圖像視為語,在此基礎之進行神經網絡訓。圖表15:iT模將圖像當作文本進行處理《Anmgeisoth1616od:TanfoesformgeecgiinatSce(oovitiy等,2020)-10-行業深度研究行業深度研究相較,T在計算機視覺領域任務處理的優點在于:計算量降低:注意力機制的引入使得神經網絡可以將有限算力應用于關鍵信息,降低了計算量、提升了神經網絡的性能。關注全局信息T不僅能對局部特征進行提取,還關注各個小塊之間的空間依賴關系,能夠依靠多個局部特征之間的空間關系輔助推理,使得神經網絡智能程度得到顯著提升。相較,T在計算機視覺領域任務處理的缺點在于:1)需要更大的訓練樣本ransforr相較N缺少一定的平移不變性和局部感知性,因而需要更大的訓練樣本獲得對局部特征的學習。在Iageet-21k、F-300M等大數據集之中T較eset準確性更高。2021年nransforer的提出很好地彌合了上述問,成為目前通用的骨干網絡與T始終進行1616patch的全局建模不同,每層Snransforr模塊之間進行了類似于N池化層的atchergng降采樣操作,用于縮小分辨率,有效地降低了模型的計算復雜度。目前nransforr在圖像分類、語義分割、目標識別等領域均刷新了最優記錄。圖表16:每層winTanfrer之間進行了類似N的atchering《SinTanfoe:ieacialiinTnfomeruinghftdno(eLu等,021,國金證券研究所探索多模態主干網絡T開啟多模態時代之后,學術界開始嘗試使用圖像以及其對應的文本信息對神經網絡進行訓練,以增強神經網絡的理解能力。2021年1月penI發布了圖像和文本并行大規模多模模型L,該模型在超過4億的圖-文本對上進行訓,優點在使神經網絡不僅關注特征之間的空間聯系,而且還會關注特之間的語義聯系,使得神經網絡對圖的理解能力邁向新高度。圖表17:P多模態網絡采用圖-文本聯合訓練OpenAI-1-行業深度研究行業深度研究現階段的多模態神經網絡主要面向計算機視覺領域,還無法完成機器翻譯、閱讀理解等經典自然語言處理任務。其主要目的是通過引入文本信息幫助神經網絡更好地完成傳統視覺任務,并且使神經網絡能夠處理圖文檢索、語義圖像生成、語義圖像編輯等跨模態任務,拓寬深度學習能夠面向的下游領域。圖表18:目前主流的多模態主干網絡公司發布時間模型名稱多模態任務AI1年1月P圖文檢索、地理定位、視頻動作識別微軟1年8月-3視覺推理、視覺問答、圖像描述、圖文檢索OpenAI,微軟,探索ansoer時代的分支網絡ransforr統一了多模態、多任務的骨干網絡,這也使得其分支網絡數量相對較少,往往是ransforer其他現有算法”的形式,學術界算法創新速度放。IGC領域:多模態ranfoer+擴散模型人工智能生成內容AG)是指由人工智能進行創意創作,主要包括文學創作、代碼生成、圖像生成、視頻生成等。其中文學創作和代碼生成屬于單一模態任務、難度較低,基于ransforer主干網絡建立的大規模語言模型即可較好地適應這類任務。而圖像生成、視頻生成等任務難度較高,僅靠ransforer主干網絡難以很好地完成任務,因而催生出一批由ransforer與其他現有算法結合而成的分支網。擴散模型是一種圖像生成方法,其核心思想是污染與重構。擴散模型最早提出于2015年2020年o等人在原模型基礎上進行了簡化和建模方式改進,提出M模型,目前M是擴散模型應用的主流版本擴散模型在訓練時包括前向擴散和反向生成過程兩個階段。在前向擴散過程中,高斯噪音被逐步添加至圖像中,直到圖像成為完全隨機噪聲;在反向生成過程中,模型在每一個時間節點對噪聲的概率分布進行預測,并嘗試重構圖像。相較GAN而言,擴散模型訓練更加穩定,且能生成更加多樣的樣本;缺點是訓練和推理速度較慢。圖表19:擴散模型的前向擴散和反向生成過程oadsataScience2022年4月penI基于多模態主干網絡L、結合擴散模型方法,訓練得到了新一代圖像生成模型LL·E2。該模型能夠完成語義圖像生成、語義圖像編輯、圖像風格遷移等多種任務,而用戶無需任何計算機知識,僅需輸入簡短文字即可完成圖像生成。-12-行業深度研究行業深度研究圖表20:M在GC領域的前沿成果公司發布時間模型名稱多模態任務AI2年4月A·E2語義圖像生成e2年8月rtort語義圖像編輯a2年9月eavo語義視頻生成編輯、圖像視頻生成OpenAI,Gool,Mta對話機器人haG:語言rasfrer+強化學習模型強化學習最早出現于20世紀60年代,核心思想是獎勵機制,使模型能夠根據所處環境做出最優決策Googe研發著圍棋人工智能phaGoero便是基于強化學習方法訓練得到。圖表21:強化學習模型示意來源:清華大數據軟件團隊公眾號,2022年1月0日,OpenI對外發布新一對話機器人hatGT,這是一個基于nstructGT模型,通過與人類互動進行強化學習的語言網絡。相較G-3,nstructGT的參數量更小,但引入了人類反饋強化學習LF)的方法。LF是強化學習的一種,其核心思想是將人類提供的范例作為學習目標,當神經網絡輸出的內容接近范例時給予神經網絡獎勵。LF的另一優點是能夠幫助模型后續迭代升級。隨著hatGT免費開放給公眾使用,廣大用戶形成的對話資料在經過數據處理后,將成為最好的訓練數據,助力模型智能水平進一步提。小結及投資建議深度學習的三要素包括算法、數據和算力,本文主要對算法的演進過程進行了回顧,認為過往神經網絡的發展以eu激活函數的提出為分水嶺,分為淺層神經網絡和深度學習兩個階段。在淺層神經網絡階段,最重要的任務就是解決梯度不穩定的問。在這個問題未被妥善解決之前,神經網絡應用性能不佳,而屬于非神經網絡的支持向量機算法)是解決人工智能模式識別的主流方。201年eu激活函數被提、梯度消失問題被大幅緩之后,神經網絡進入深度學習時代算法和應用的發展均突飛猛。最初C、RN等模型在不同的模態和任務中各有擅長2017年rnsforer的提出讓深度學習進入了大模型時代2020年sonransfrer的提出讓深度學習進入了多模態時代,自此多模態和多任務底層算法被統一為ransforer架構。目深度學習算法主要是基于ransforer骨干網絡進行分支網絡的創新,如引入擴散模型、強化學習等方催生出G、hatGT等應用熱。但隨著ransforr基本完成底層算法統一之后整個行業底層算法發展速度放緩,靜待骨干網絡的下一次突。同時基于ransforer對大數據的需求,催生了無監督學習、高算力芯片的發展。-13-行業深度研究行業深度研究圖表22:神經網絡各發展階段經典模型梳理時代模型時間核心思想優點缺點淺神網時感知機1958年通過激活函數進行二元分類神經網絡發展的起點無法處理多維線性不可分的數據多層感知機1980s引入隱藏層及非線性激活函數,處理多分類任務可擬合非線性函數,處多元分類任務對算力要求高;所有輸入彼此獨立,失時間和空間信息RNN1986年每個神經元既接受當前時刻的輸入信息也接受上一時刻神元的輸出信息解決了時序信息的丟失題;計算量大大降低準確率待提升,尤其圖像處理表現不佳CNNLeNet1998年通過多個卷積層對特征進行提取和壓縮,得到高層次特征解決了空間信息的丟失問題;計算量大大降低準確率待提升,尤其是NL表現不佳-2006年用逐層無監督初始化P算法有監督學習的方法解決梯度消的問題緩解梯度消失問題實際應用表現一般深學時leNet2012年CNNReLu激活函數+輸入值有監督學習+PU訓練梯度消失問題大大緩解,準確率更高訓練速度提升NL表現不佳rans-ormer-2017年引入注意力機制,信息賦予不同的權開啟了大模型時代,可并行處理大數據,訓練時減少;加強了對時序特征的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園大班大雪節氣教育
- 長沙電力職業技術學院《聲樂表演》2023-2024學年第二學期期末試卷
- 成都東軟學院《概率論與數理統計B》2023-2024學年第一學期期末試卷
- 六盤水幼兒師范高等??茖W?!段”緞撟鳌?023-2024學年第一學期期末試卷
- 天津中德應用技術大學《分子醫學實驗》2023-2024學年第一學期期末試卷
- 南京航空航天大學《西方教育哲學史》2023-2024學年第二學期期末試卷
- 中國礦業大學徐海學院《建筑制圖實驗》2023-2024學年第二學期期末試卷
- 南京財經大學紅山學院《科研倫理與科技論文寫作》2023-2024學年第二學期期末試卷
- 四川電影電視學院《運動技能強化與訓練五》2023-2024學年第一學期期末試卷
- 喀什大學《數據結構W》2023-2024學年第一學期期末試卷
- 2025年鉛鋅礦項目可行性研究報告
- 防春困防疲勞駕駛課件
- 玻璃更換施工方案
- 2025年中國職工保險互助會貴州省辦事處招聘筆試參考題庫含答案解析
- 2025年生豬屠宰獸醫衛生檢疫人員考試題(附答案)
- 2025-2030垃圾發電產業市場深度分析及前景趨勢與投資研究報告
- 出生缺陷預防培訓課件
- 中小學綜合實踐活動課程指導綱要:讓學生更好地了解活動的意義和價值
- 物理-安徽省安慶市2024-2025學年高三下學期第二次模擬考試試卷(安慶二模)試題和答案
- 律師盡職調查工作方案
- 2024年杭州市糧食收儲有限公司招聘考試真題
評論
0/150
提交評論