




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
匯報人:100871單擊此處添加文本6深度生成網絡目錄
|
CONTENTS深度生成模型簡介1基于玻爾茲曼機的方法2基于變分自動編碼器的方法3基于生成對抗網絡的辦法4基于流模型的方法5基于擴散模型的方法6基于自回歸網絡的方法7大語言模型8深度生成模型簡介16.1深度生成模型簡介深度生成模型概念使用深度學習生成與訓練數據集相似的新數據,結合監督與非監督學習,理解并模擬復雜現象的生成過程。模型特點(1)深度神經網絡實現靈活的分布參數化(2)基于概率論的嚴格建模主要分類包括玻爾茲曼機、變分自編碼器、對抗生成網絡、流模型、擴散模型和自回歸網絡等技術路線。基于玻爾茲曼機的方法26.2基于玻爾茲曼機的方法由于BM算法精確率不高、推理速度較慢,其變體的流行程度已遠遠超過模型本身。主要變體包括受限玻爾茲曼機(RestrictedBoltzmannMachines,RBM)、深度置信網絡(Deepbeliefnetwork,DBN)和深度玻爾茲曼機(DeepBoltzmannmachines,DBM)。它們能夠學習高維特征和高階概率依賴關系,可用于降維、特征提取等方面。玻爾茲曼機變體類型玻爾茲曼機(Boltzmannmachines,BM)是隨機神經網絡,具有對稱連接,在圖論上可理解為完全圖。類似神經元的狀態的值由概率統計法則確定,能量函數驅動概率分布。玻爾茲曼機概念6.2.1受限玻爾茲曼機(RBM)無向圖模型中沒有歸一化的概率必須除以配分函數進行歸一化才能得到有效的概率分布,目前計算配分函數主要以近似估計方法為主。第一類算法是通過引入中間分布直接估計配分函數的值,中間分布的計算需要使用蒙特卡洛馬爾科夫鏈或重要性采樣,如退火重要性抽樣算法(AIS)。第二類計算配分函數的算法是構造新目標函數替代配分函數,避免直接求解配分函數的過程,包括得分匹配(SM)和噪聲對比估計(NCE)。第三類算法是直接估計配分函數關于參數的近似梯度,包括對比散度(CD)、持續對比散度(PCD)和快速持續對比散度(FPCD)三種。RBM的基本結構配分函數估計方法受限玻爾茲曼機由可見層和隱藏層組成,兩層神經元狀態為0或1,表示激活或未激活。關鍵公式:(1)能量函數:
(2)聯合概率分布:
(3)條件分布:6.2.1受限玻爾茲曼機(RBM)配分函數計算方法簡介蒙特卡洛馬爾科夫鏈(MCMC):通過構建一個逐步轉移的馬爾科夫鏈來模擬目標概率分布,利用鏈上的樣本點來近似計算復雜問題的解。該方法的關鍵在于確保馬爾科夫鏈的穩態分布與目標分布一致。重要性采樣(如退火重要性抽樣算法AIS):重要性采樣是一種統計方法,它通過從一個容易采樣的分布(稱為重要性分布)中抽取樣本,并調整這些樣本的權重來估計目標分布的期望值。退火重要性抽樣算法在此基礎上融入了模擬退火的思想,通過逐步調整重要性分布使其逐漸接近目標分布,從而提高采樣效率和解的質量。得分匹配(SM)通過優化概率密度函數的梯度來估計模型參數,避免了直接計算歸一化常數。噪聲對比估計(NCE)通過訓練一個分類器來區分真實數據和噪聲樣本,以此估計目標分布的參數。對比散度(CD)是一種用于訓練受限玻爾茲曼機(RBM)的算法,它通過交替更新隱藏層和可見層的單元來近似數據分布。持續對比散度(PCD)是CD的變種,它使用多個馬爾科夫鏈樣本而不是從頭開始每次迭代,以提高訓練的穩定性。快速持續對比散度(FPCD)進一步優化了PCD,通過在每次迭代中只更新一部分隱藏層單元來加速收斂。6.2.2深度置信網絡(DBN)本質上是RBM目標函數的變分下界。目標函數多個隱藏層的神經元通常只取0和1,可見層單元可取二值或實數。頂部兩層間是無向連接,其余為箭頭指向可見層的有向連接。模型架構DBN是多隱藏層的有向概率圖模型,相鄰兩層可通過RBM預訓練,用于學習復雜的數據分布。使用貪婪學習算法調整模型參數使模型有容易訓練的初始值,貪婪逐層預訓練算法提供了兩種獲得和的方法。貪婪逐層預訓練算法基于變分自動編碼器的方法36.3.1VAE模型的基本原理VAE的目標函數是數據分布和重構的樣本分布間距離的最小化,一般用KL散度衡量這兩個分布之間的距離,但是由于數據分布是未知的,引入近似分布和近似后驗分布。變分下界(ELBO):目標函數VAE是通過編碼-解碼過程映射樣本至服從高斯分布的隱藏變量,之后由隱藏變量產生樣本,并使用KL散度優化目標函數的生成模型,可以學習給定數據的概率分布,并利用這些學到的分布來生成新的數據。編碼器輸出隱藏變量的概率分布的參數,解碼器輸出重構數據的概率分布。核心思想選擇相同概率分布族的P(ε),對P(ε)抽樣得到的樣本ε進行若干次線性變換就能獲得在原始分布抽樣的等價結果。由于采樣不可導,不能用反向傳播優化參數,因而引入確定性變換,提出了重參數化方法。公式:010203重參數化技巧6.3.1VAE模型的基本原理6.3.2幾種重要的VAE結構輔助深度生成模型(AuxiliaryDeepGenerativeModels,ADGM)是效果好且有影響力的條件變分自編碼器,其目標函數是無標簽和有標簽樣本變分下界之和:L=L(x)+L(x,y),可以用于監督學習或半監督學習。ADGM的編碼過程由三個神經網絡構成,ADGM的解碼過程有兩個神經網絡。優勢是沒有削弱編碼器,代價是需要5個神經網絡,計算量更大。監督結構的變分自編碼器IWAE是VAE的改進,通過弱化編碼器緩解后驗分布問題,提高生成模型性能。重要性加權自編碼(ImportanceWeightedAuto-Encoders,IWAE)向量量化變分自編碼器(VQ-VAE)首個使用離散隱藏變量的VAE模型,旨在訓練出表示能力更強大的離散變量的先驗分布,使模型有能力生成有意義的樣本,避免后驗崩潰(PosteriorCollapse)現象。基于生成對抗網絡的方法46.4.1對抗生成網絡的基本原理GAN訓練困難,常出現梯度消失、模型崩潰和訓練進度無明確目標等問題。GAN的問題可以看成是一個訓練框架,理論上可以訓練任意的生成模型。GAN通過生成器和判別器之間的對抗行為來優化模型參數,巧妙地避開求解似然函數的過程。生成對抗網絡(GAN)是由兩部分組成的框架:生成器(Generator)和判別器(Discriminator)。這兩部分通過對抗過程相互競爭,最終目的是使生成器能夠生成與真實數據分布無法區分的數據。目標函數:(1)判別器目標:
(2)生成器目標:
(3)最優判別器為:GAN的基本原理6.4.2對抗生成網絡的穩定性研究通過限制判別器的Lipschitz約束,改善了梯度懲罰的局部有效性,實現簡單且效果更優。將判別器中的所有參數都替換為
,只需把譜范數的平方作為正則化項,填加到判別器的目標函數中:SNGAN的收斂速度比WGAN-GP更快,且效果更好。譜歸一化生成對抗網絡(SNGAN)Wasserstein對抗生成網絡(WGAN)用Wasserstein距離替代KL散度和JS散度,改變了生成器和判別器的目標函數,并用權重裁剪的方法對判別器施加Lipschitz約束以限制判別器的梯度。WGAN解決了GAN不穩定的問題,基本消除了簡單數據集上的模型崩潰問題,也可以指示模型的訓練進度。WGAN中生成器和判別器的目標函數分別為:WGAN在訓練過程中會出現收斂速度慢、梯度消失或梯度爆炸等現象WGAN-GP直接將判別器的梯度作為正則項加入到判別器的損失函數中,該正則項通過懲罰梯度使判別器梯度在充分訓練后達到Lipschitz常數K附近,因此該正則項被稱為梯度懲罰,WGAN-GP能避免出現梯度消失或梯度爆炸的現象。加入梯度懲罰的判別器的目標函數為:Wasserstein對抗生成網絡(WGAN)6.4.3對抗生成網絡的結構發展基于殘差網絡的結構基于卷積層的結構CGAN和ACGAN是兩種處理監督和半監督數據的結構,CGAN中判別器處理標簽信息和樣本,而ACGAN的判別器只負責樣本真偽和標簽預測,適用于半監督學習。監督結構和半監督結構ResNet結構的GAN模型以殘差設計增強判別器和生成器深度,用上抽樣替代反卷積。比如BiqGAN能生成逼真的圖像,但需要大量標注數據訓練。DCGAN是使GAN訓練時的穩定性明顯提高,用卷積和反卷積網絡,各層均使中
南用批歸一化。雖訓練快、內存小,但反卷積的棋盤效應影響圖像質量。基于流模型的方法56.5.1流模型的基本原理優化目標是獲取轉換函數參數,以求逆形式,但雅可比行列式計算復雜。優化參數與求逆挑戰真實數據分布由轉換函數映射到人為給定的簡單分布,如果該轉換函數是可逆的且可求出該轉換函數的形式,則這個簡單分布和轉換函數的逆函數就能夠構成一個深度生成模型。深度生成模型的一種方法要求轉換函數的雅可比行列式計算簡單,且逆變換計算量小,常設計為三角陣行列式,其值等于對角線元素乘積從而簡化求解雅可比行列式的計算量。流模型的轉換函數用神經網絡表示,該神經網絡相當于一系列轉換函數作用效果的累積,如同水流,形成流模型框架。其對數似然為:第一項衡量了變換后數據z與已知分布P(z)的匹配程度,第二項反映了每次變換對概率密度的影響,常數項c用于標準化結果。流模型解決策略6.5.2常規流--NICE在每次耦合層后直接交換兩部分元素的位置,從而增強非線性能力。維度混合將維輸入變量分割成兩部分,然后取如圖變換,下一個隱藏層變量為h=[h1,h2],這種只含有加性算法的耦合層被稱為加性耦合層,加性耦合層的雅可比行列式是上三角行列式且對角線元素全部為1,使得雅可比行列式的值為1。消除了雅可比行列式的計算量。該轉換函數的逆變換形式如下:加性耦合層NICE非線性獨立成分估計.(NonlinearIndependentComponentsEstimation,NICE)是第一個流模型,是奠基性的流模型,后續的流模型大多基于它的結構和理論。NICE提出了三個重要的模型結構:加性耦合層、維數混合和維數壓縮層,創新性地解決了可逆性和維數冗余問題。在最后一層和先驗分布之間引入維數壓縮層,如果某個方差接近0,說明其對應的維數所表示的流形已經塌縮為點,從而起到維數壓縮的作用。維數壓縮層6.5.2常規流--RealNVP對耦合層之間的分量隨機打亂,再將打亂后的向量重新分割成兩部分并輸送到下個耦合層中。隨機混合機制在原有的加性耦合層的基礎上加入了乘性耦合,其雅可比行列式是對角線不全為1的下三角陣,為了保證可逆性需要約束雅可比行列式對角線各元素均大于0,因此RealNVP直接用神經網絡輸出logs。仿射耦合層RealNVP在NICE的基本結構上,通過仿射耦合層和隨機打亂機制增強非線性能力,多尺度結構降低計算量和存儲空間。6.5.2常規流--RealNVP掩碼卷積層使用掩碼增加樣本通道數并降低空間維數,棋盤掩碼是一種固定間隔的空間軸上的交錯掩碼,能夠有效保留樣本在空間的局部相關性。多尺度結構是一種逐層轉換的方式,使數據的全部元素都可以在一個復合耦合層內進行轉換,保留了原有方法中雅可比行列式容易計算的特點,減少模型復雜度和計算量的同時增加模型的生成能力。6.5.2常規流--GLOW置換矩陣用批次樣本的均值和方差初始化參數和,是對先驗分布的平移和縮放。Actnorm層GLOW是流式生成模型,是以NICE和realNVP為基礎結構的模型,通過Actnorm和1x1卷積改進,優化置換矩陣,提升生成能力,但參數量大,訓練成本高。用卷積運算改變置換通道的排列,用置換矩陣替代隨機打亂并放到損失函數中一并優化以進一步提升模型效果。具體方法是通過一個隨機旋轉矩陣W置換輸入軸通道的排列順序使h=xW,為了保證轉換函數的可逆性,方陣W初始化為隨機正交矩陣。然后利用LU矩陣分解法分解正交矩陣W使W=PLU,則detW為:幾乎沒有改變原模型的計算量,且減少了待優化參數的數重。6.5.3流模型的衍生結構變分推理流模型結合了變分推斷和流模型,通過將編碼器輸出的均值和方差用轉換函數映射到更復雜的分布,再由解碼器根據后驗分布重構樣本,使后驗分布更接近真實,從而增強重構樣本的準確性。歸一化流變分推斷(VINF)稱之為平面流(PlanarFlow)。變分推理流iResNet是基于殘差網絡的生成模型,通過約束使殘差塊可逆,用近似方法計算殘差塊的雅可比行列式,解決深層網絡的梯度消失問題,用于構建可逆的流模型。與其他流模型有本質區別:保留了ResNet的基本結構和擬合能力。i-ResNet的基本模塊與ResNet相同,可以表示成y=x+G(x)。G(·)=F(Wx+b)使事
用普通激活函數時,其可逆性條件等價于權重矩陣W的譜范數小于1:i-ResNet使用迭代xn+1=y-G(xn),雅可比行列式可以表示為:i-ResNet首先用恒等式將雅可比行列式絕對值的對數轉化為求跡,并在使用級數展開形式后在第項截斷,然后使用隨機近似方法得到近似值。可逆殘差網絡(iResNet)6.6基于擴散模型的方法66.6.1擴散模型的基本原理正向擴散過程通過在數據樣本上逐步添加高斯噪聲,形成一個從0到純噪聲的馬爾科夫過程,最終達到標準高斯分布。正向擴散過程原理擴散模型(DiffusionModel,DM)用于生成與訓練數據相似的數據。從根本上說,DM的工作原理是通過連續添加高斯噪聲來破壞訓練數據,然后通過學習逆向的去噪過程來恢復數據。訓練后,使用DM將隨機采樣的聲傳入模型中,通過學到的去噪過程來生成數據。DM包括正向的擴散過程和反向的逆擴散過程。核心流程6.6.1擴散模型的基本原理訓練DM模型就是學習噪聲序列的最小化均方誤差,通過優化高斯分布間的距離。訓練目標:最小化下式訓練過程反向逆擴散過程是正向擴散的逆向去噪,通過神經網絡求解近似的逆轉分布,以還原原始信息。學習噪聲預測:反向逆擴散過程原理給定噪聲數據,通過特定公式從開始逐步去噪,生成過程≈2,最終得到0。生成采樣過程6.6.2條件擴散模型的技術方案分類器無關的條件生成方案是條件擴散模型的簡單方法,當數據和算力充足能實現精細的控制,但需要重新訓練模型。分類器無關的條件生成方案分類器指導方案指在已訓練的DM上添加分類器用于引導生成,以實現特定條件的控制。該方法訓練成本低,但推斷成本高,控制粒度粗糙。通過DM的正向擴散過程和噪聲數據訓練分類器,然后在生成采樣過程中使用分類器進行指導,優化目標類別的生成。基于分類器指導的方案基于自回歸生成網絡的方法76.7.1自回歸網絡的基本原理NAR利用神經網絡來捕捉數據中的復雜非線性關系。f
是一個由神經網絡實現的函數,可以是多層感知機(MLP)、循環神經網絡(RNN)或其他類型的神經網絡。自回歸是統計學中處理時間序列的方法,用同一變量之前各個時刻的觀測值預測該變量當前時刻的觀測值。用條件概率表示可見層數據相鄰元素的關系,以條件概率乘積表示聯合概率分布的模型都可以稱為自回歸網絡。自回歸網絡的基本形式有三種:線性自回歸網絡、神經自回歸網絡(NeuralAutoregressiveNetwork,NAR)和神經自回歸分布估計器(NeuralAutoregressiveDistributionEstimation,NADE)。線性自回歸網絡的核心思想是將當前時刻的輸出視為過去時刻輸出的線性組合加上一些噪聲項。ai是自回歸系數;p
是自回歸階數,即考慮多少個過去的輸出。6.7.1自回歸網絡的基本原理——NADE模型(1)單元修正:hd的多次累加會使隱藏層單元越來越飽和,因此添加權重衰減參數以降低隱藏層單元的飽和現象。(2)NADE-k:根據CD-k算法的思想對可見層和隱藏層之間進行反復迭代,替代原始NADE的單次迭代,實驗顯示這種方法能有效提升NADE模型推斷缺失值的能力,該模型可以稱為NADE-k。(3)并行NADE:Reed等提出允許對某些像素組建模使之條件獨立,只保留高度相關的臨近像素,從而使NADE可以并行地生成多個像素,大大加快抽樣速度,使隱藏變量和條件概率需要的計算量由O(h)銳減到O(logh)。結構優化NADE是一種基于深度學習的概率模型,用于估計數據的概率分布。NADE特別適用于處理離散數據,如圖像像素值或文本數據。基礎結構通過鏈式法則將高維數據的概率分解為條件概率乘積的方法進行建模:NADE可以利用上述公式獨立參數化各層之間的權重。此外,模型中引入了附加的參數共享,將條件分布進行參數化,使得NADE在正向傳播和均勻場推斷中執行的計算大致相同。6.7.2自回歸網絡的衍生結構——像素循環神經網絡像素循環神經網絡(PixelRecurrentNeuralNetwork,PixelRNN)將圖片的像素作為循環神經網絡的輸入,本質上是自回歸神經網絡在圖片處理上的應用。該模型利用深度自回歸網絡預測圖片的像素值,并提出三種不同的模型結構。模型結構特點缺點PixeICNN使用掩碼卷積避免像素缺失,訓練快、似然指標高生成樣本模糊(感受野有限)RoWLSTM行卷積+LSTM捕捉長程依賴,漏斗形依賴區域遺漏部分像素信息DiagonalBiLSTM雙向LSTM消除像素盲點,生成質量更高計算復雜度高,生成速度慢6.7.2自回歸網絡的衍生結構——掩碼自編碼器(1)支持深層擴展,性能與NADE相當(部分數據集更優)。(2)掩碼設計靈活,適用于多模態任務。優勢將自回歸思想嵌入自編碼器,通過在權重矩陣中設置某些連接為0,來屏蔽無關變量間的連接通道。這種方法稱為掩碼,它使得自編碼器的輸出能夠表示為條件概率。輸入數據為是二值時目標函數為交叉熵損失。核心思想給第
??個隱層的第
??個神經元分配數字大語言模型86.8.1模型架構生成式預訓練大語言模型(PretrainedLanguageModel,PLM)基于Transformer解碼器結構,采用自回歸網絡的訓練方式,通過不斷堆疊增大模型參數,不斷增加訓練數據,從而擬合到自然語言中細粒度的特征、學到文本中的高級概念。(1)編碼器-解碼器架構:傳統的Transformer模型通常采用分離的編碼模塊和解碼模塊進行建模。其中,編碼模塊對輸入進行深度編碼以提取隱藏表示,解碼模塊基于編碼結果遞歸預測輸出。如T5和BART是基于此架構進行訓練的。(2)因果解碼器架構:在解碼階段限制每個token僅關注前面的內容。GPT-1、GPT-2、GPT-3、OPT、BLOOM等。此外,僅包含解碼部分的模型結構也常被稱為單向解碼器結構。(3)前綴解碼器架構(也稱非因果解碼器架構):通過修正因果解碼器的掩碼機制,使其能夠對前綴token執行雙向注意力,并僅對生成的token執行單向注意力,與編碼器-解碼器架構類似,同時在編碼和解碼過程中共享相同的參數。通常,這種架構不會從頭開始進行預訓練,而是繼續訓練因果解碼器,然后將其轉換為前綴解碼器以加速收斂,如GLM-130B和U-PaLM。6.8.2常用大模型——GPT系列(1)ChatGPT是在性能強大的GPT3.5模型上進行微調得到,具備了博學的基礎。(2)GPT3采用純自監督學習并依靠提示學習范式來挖掘其補全能力,而InstructGPT通過數據增強的監督信號微調提升了模型對人類指令的理解能力。(3)ChatGPT利用人類反饋強化學習(RLHF)來訓練模型更好地理解和執行人類指令,通過獎勵模型(RM)和參數更新來優化文本生成任務。ChatGPT主要涉及三方面技術生成式預訓練Transformer(GenerativePretrainedTransformer,GPT)系列是自回歸網絡在文本生成領域的一座豐碑。模型參數量關鍵改進GPT-11.1億預訓練+微調范式,跨任務泛化能力GPT-215億沒有進行微調,但擴大預訓練數據集GPT-31750億零樣本學習,上下文推理能力躍升ChatGPT基于GPT-3.5引入RLHF對齊人類意圖,支持多輪對話與糾錯6.8.2常用大模型——Llama系列Llama1有7B、13B、30B和65B四個參數量版本,各個參數量版本都在超過1萬億個token的語料上進行了預訓練;Llama2有7B、13B、34B和70B四個參數量版本,將預訓練的語料擴充到了2萬億token,同時將模型的上下文長度從2048翻倍到了4096,并引入了分組查詢注意力機制(grouped-queryattention,GQA)等技術;Llama2Chat通過“預訓練-有監督微調-基于人類反饋的強化學習”這一流程訓練,有優異性能;Llama3包括8B和70B兩個參數量版本,支持8K長文本,并采用了一個編碼效率更高的tokenizer,詞表大小為128K,使用了超過15萬億token的語料,在相同規模的大模型中取得了最優異的性能。Llama系列在Transformer架構基礎上構建的,利用大規模數據集進行預訓練。6.8.2常用大模型——Llama系列Llama模型在原始Transformer解碼器的基礎上進行了一些改動,以提高模型性能和訓練穩定性,包括:前置的RMSNorm:RMSNorm是一種特征歸一化方法,通過計算輸入特征的均方根進行歸一化,并乘以一個可學習的縮放參數,以提高訓練穩定性和模型性能。Q、K上的RoPE旋轉式位置編碼:RoPE通過旋轉查詢(Q)和鍵(K)向量來引入位置信息,這種旋轉模擬了序列中元素之間的相對位置,增強了模型對序列順序的理解。Causalmask:Causalmask用于確保在自回歸模型中,每個位置的預測只依賴于之前的位置,通過屏蔽未來位置的注意力權重來實現。使用分組查詢注意力:分組查詢注意力是將查詢(Q)分為多個組,每組查詢只與對應的鍵(K)和值(V)子集進行注意力計算,從而減少計算量并提高效率。6.8.2常用大模型——Llava系列(1)多模態指令跟隨數據集:利用ChatGPT/GPT-4將圖像文本對轉換為適當的指令遵循數據格式,生成了包含對話式QA、詳細描述和復雜推理三種類型的指令跟隨數據。可擴充(2)大型多模態模型:通過連接CLIP的開放視覺編碼器(從圖像中提取特征)和語言解碼器LLaMA(接收來自視覺編碼器的特征以及其他文本輸入,并生成相應的輸出),并在生成的指令視覺語言數據上進行端到端微調(端到端微調意味著整個模型(包括視覺編碼器和語言解碼器)在特定的任務上進行聯合訓練)。Llava(LargeLanguageandVisionAssistant)是一個端到端訓練的大型多模態模型,將視覺編碼器和大語言模型連接起來,用于通用的視覺和語言理解。6.8.3預訓練大語言模型的優化技巧——參數高效微調方法(1)Prefix/Prompt-Tuning通過在模型的輸入或隱層添加k個額外可訓練的前綴,只訓練這些前綴參數。Prefix-Tuning在模型輸入前添加一個連續的任務特定的向量序列,稱為前綴,固定PLM的所有參數,只更新特定任務的前綴參數。PromptTuning簡化了PrefixTuning,固定整個預訓練模型參數,只允許將每個下游任務的額外k個更新的標記前置到輸入文本中。PromptEnsembling方法集成預訓練語言模型的多種prompts,通過在同一任務上訓練N個prompts,創建N個獨立的模型,共享核心的預訓練語言建模參數,降低存儲成本并使推理更高效。PEFT(ParameterEfficientFine-Tuning)方法可以分為三類:Prefix/Prompt-Tuning、Adapter-Tuning和LoRA。6.8.3預訓練大語言模型的優化技巧——參數高效微調方法(2)Adapter-Tuning通過在預訓練模型的每一層插入小的神經網絡模塊(適配器)來實現。這種方法在下游任務微調時只訓練適配器的參數,而預訓練模型的原始參數保持不變。由于適配器的參數數量遠小于預訓練模型,因此大大減少了計算和存儲的開銷,同時也保留了預訓練知識。適配器主要有串聯和并聯兩種形式。串聯適配器在每個Transformer層的多頭注意力映射后和兩層前饋神經網絡后各添加一次。適配器模塊是一個瓶頸結構,由向下投影矩陣、非線性函數和向上投影矩陣組成,以及一個輸出之間的殘差連接。并聯適配器則是將適配器模塊與每層Transformer的多頭注意力和前饋層并行計算集成。通過這種方式,Adapter-Tuning可以在不犧牲太多性能的前提下,顯著減少模型微調時的參數量和計算資源需求,非常適合資源有限的情況下的模型部署和應用。6.8.3預訓練大語言模型的優化技巧——參數高效微調方法(3)LoRA(Low-RankAdaptation)是一種針對大型預訓練模型(如GPT-3)的參數高效微調方法。它通過引入低秩矩陣分解來近似模型權重矩陣W的參數更新,從而在訓練時只需優化低秩矩陣參數。相比于全量微調,LoRA極大地減少了需要更新的參數數量,對于175B的GPT-3模型,LoRA的訓練參數數量可以小到全量微調參數數量的0.01%。LoRA的核心思想是假設權重的更新在微調過程中具有較低的“內在秩”。通過對預訓練模型的權重矩陣W進行低秩分解,將其表示為
的形式,其中
,且
。在訓練過程中,
被固定不再進行梯度更新,只訓練A和B。這樣,LoRA不僅減少了內存開銷,還提高了訓練速度。在生產部署時,LoRA可以通過減去BA來恢復
,然后增加一個新的
,這是一個只需要很少內存開銷的快速運算。與結構參數上微調的模型相比,LoRA推理過程中沒有引入任何額外的延遲。對于用Adam訓練的大型Transformer,若
,LoRA減少2/3的VRAM用量。另一個好處是,可以在部署時以更低的成本切換任務,只需更換LoRA的權重,而不是所有的參數。在GPT-3175B上訓練時,與完全微調相比,速度提高了25%。6.8.3預訓練大語言模型的優化技巧——提示學習提示學習通過提供提示來引導模型在特定任務上的表現,是一種為了更好的使用預訓練語言模型的知識,采用在輸入段添加額外的文本的技術。這種方法在自然語言處理等領域特別有效,因為它允許模型通過簡單的提示而不是復雜的推理來完成任務。例如,在情感分類中,通過加入提示模板,模型可以直接生成所需的輸出。當要判斷“input=Ilovethismovie.”
的情感極性時,可以在輸入的后面加上提示信息:“prompt=Ilovethismovie.Overall,itwasa[]movie.”,預訓練的語言模型就可以在[]里面填入一個與情感相關的詞。通過一系列合適的提示(prompts),一個完全由無監督訓練方式得到的單一語言模型可以用來解決各種各樣的下游任務。提示學習的應用不僅限于NLP,還擴展到了計算機視覺和多模態領域,顯示出其在促進人工智能發展方面的巨大潛力。6.8.3預訓練大語言模型的優化技巧——上下文學習上下文學習(In-ContextLearning,ICL)是一種新的范式,允許模型在不進行參數更新的情況下,通過在輸入中加入幾個示例來進行學習。這種方法的優點在于輸入的形式是自然語言,可以更容易地與語言模型交互,并且可以通過修改模板和示例來說明所需要的內容,甚至可以將一些知識直接輸入給模型。此外,ICL的學習方式更接近人類,即通過幾個例子去類比,而不是像精調一樣從大量語料中統計出規律。最后,相比于監督學習,ICL不需要進行訓練,降低了模型適配新任務的成本。InContextLearning(ICL)的關鍵思想是從類比中學習。首先,ICL需要一些示例來形成一個演示上下文。這些示例通常是用自然語言模板編寫的。然后ICL將查詢的問題和一個上下文演示連接在一起,形成帶有提示的輸入,并將其輸入到語言模型中進行預測。值得注意的是,與需要使用反向梯度更新模型參數的訓練階段的監督學習不同,ICL不需要參數更新,并直接對預先訓練好的語言模型進行預測。6.8.3預訓練大語言模型的優化技巧——量化技術量化技術是通過降低數值精度來減少深度學習模型的存儲需求和計算復雜度的關鍵技術。參數量化:通過減少模型權重的位數來實現激活量化:對激活值(即網絡層的輸出)進行量化,通常需要動態調整量化范圍以適應輸出值的變化動態量化:在模型運行時根據數據的實際分布動態調整量化參數,后訓練量化:在模型訓練完成后應用,通過使用校準技術確定最優的量化參數量化感知訓練:在訓練過程中引入量化操作以提高模型性能和精度4646本章小結本章探討了深度生成模型的核心概念及其架構,強調其在生成與訓練數據相似樣本方面的能力。這些模型通過深度神經網絡參數化潛在生成過程,展現了靈活的表示能力。我們討論了主要的深度生成模型,如變分自編碼器(VAE)、生成對抗網絡(GAN)、流模型和擴散模型,以及它們在無監督學習中的應用。隨著對這些模型的進一步研究與優化,期待它們在多個領域實現更廣泛的突破。6-1解釋什么是深度生成模型,并列舉其與傳統生成模型的主要區別。6-2描述生成對抗網絡(GAN)的基本架構,并解釋其訓練過程中可能遇到的挑戰。6-3簡述AE、VAE、GAN的聯系和區別?6-4實現一個簡單的GAN模型,并使用MNIST手寫數字數據集進行訓練。分析生成的樣本質量。6-5解釋變分自編碼器(VAE)的工作原理,并描述其如何同時學習數據的生成和潛在表示。6-6簡述擴散圓形的基本原理?6-7深度生成模型中的模式崩潰問題,并給出幾種可能的解決方案。6-8什么是自回歸模型,并討論它們在生成圖像方面的優勢與局限性。6-9在擴散模型中,如何由狀態x0得到xt時刻的分布?6-10在圖像修復、超分辨率重建等任務中的應用,并給出相應的實驗設計。思考題與習題477圖神經網絡目錄
|
CONTENTS圖神經網絡概述1圖卷積神經網絡2圖循環網絡3圖注意力網絡4圖神經網絡概述11.1傳統深度學習的局限性歐式空間數據的特點圖像(網格結構)、文本(序列結構)、語音(時域信號)傳統方法的不足
手工特征工程效率低(如PageRank僅利用結構信息)
CNN/RNN無法直接處理圖結構數據非歐式空間數據的挑戰
示例:社交網絡(節點間關系復雜)、分子結構(拓撲不規則)、知識圖譜(多關系圖)
核心問題:如何建模不規則拓撲關系?如何聚合鄰居信息?1.2圖數據與圖神經網絡的興起圖數據的定義與表示
圖結構:節點(Node)、邊(Edge)、鄰接矩陣(AdjacencyMatrix)
屬性圖:節點特征(Feature)、邊權重(Weight)GNN的核心目標
結合圖結構信息與節點特征,學習節點/邊/圖的嵌入表示
解決任務:節點分類、鏈接預測、圖分類、聚類GNN的優勢
對比傳統方法:端到端學習、自動特征提取、可擴展性1.3圖神經網絡的發展起源-早期探索Sperduti等人(1990s):將遞歸神經網絡(RNN)應用于有向無環圖(DAG)目標:圖結構分類(圖級任務)局限性:僅支持特定圖結構(DAG),無法處理節點級任務RNN在圖結構上的首次嘗試如何建模任意拓撲圖(循環圖、異構圖)?如何聚合鄰居信息并學習節點表示?圖數據分析的早期挑戰1.3圖神經網絡的發展起源-理論奠基-MarcoGori的突破性工作提出GNN概念(2005):
突破RNN的DAG限制,支持任意拓撲圖
支持節點級任務(如節點分類)
-FrancoScarselli的深化研究
核心貢獻(2009):基于巴拿赫不動點定理的迭代傳播機制過程:通過多次迭代更新節點表示,直至收斂到穩定狀態
特點:處理無向同構圖(所有節點/邊類型單一)示例圖:社交網絡(用戶為節點,關注為邊)
-早期GNN的局限性計算效率低(依賴不動點迭代)僅適用于靜態同構圖,難以擴展1.3圖神經網絡的發展起源-
CNN的啟發-卷積神經網絡(CNN)的三大特征局部連接、權重共享、多層結構對圖數據的啟示:圖是天然的局部連接結構共享權重降低計算成本(對比傳統譜方法)分層特征提取適合層次化圖數據-CNN的局限性僅適用于歐式數據(圖像、文本)關鍵問題:無法定義圖上的局部卷積核與池化算子示例對比:圖像(規則網格)vs.社交網絡(不規則拓撲)-新興研究方向將CNN遷移到非歐式數據→
幾何深度學習(GeometricDeepLearning)核心目標:設計圖上的卷積操作(GCN)1.3圖神經網絡的發展起源-圖卷積神經的誕生圖卷積神經網絡(GCN)主要分為兩大類:基于譜的方法和基于空間的方法。基于譜的方法(Spectral-based):起源:Bruna等人(2013)利用譜圖理論定義圖卷積核心思想:在圖頻域進行信號濾波缺點:計算復雜,難以擴展基于空間的方法(Spatial-based):起源:Micheli等人(2009)提出復合非遞歸層架構核心思想:通過鄰居聚合直接定義局部操作優點:高效、可擴展
方法代表工作特點譜方法Bruna(2013)依賴圖傅里葉變換,理論嚴謹但計算量大空間方法Micheli(2009)直接聚合鄰居信息,靈活高效1.4圖神經網絡的設計-尋找圖結構結構性場景vs.非結構性場景顯式圖結構:分子結構(原子為節點,化學鍵為邊)社交網絡(用戶為節點,關注關系為邊)隱式圖構建:文本處理:全連接詞圖(節點為詞,邊為共現關系)圖像處理:場景圖(物體為節點,空間/語義關系為邊)關鍵問題如何建模非結構化數據中的潛在關系?案例:推薦系統中用戶-商品交互圖的構建1.4圖神經網絡的設計-確定圖類型與規模圖類型的三維分類方向性:有向圖(社交網絡關注關系)vs.無向圖(分子結構)同構性:同構圖(單一節點/邊類型)vs.異構圖(電商網絡:用戶、商品、評論)動態性:靜態圖(知識圖譜)vs.動態圖(交通流量隨時間的路網)圖規模的影響小規模圖(單GPU訓練)vs.大規模圖(分布式采樣與訓練)1.4圖神經網絡的設計-設計損失函數根據任務類型設計損失-節點級任務:分類任務→交叉熵損失(如Cora論文分類)回歸任務→均方誤差(如房價預測)-邊級任務:鏈接預測→二元交叉熵(如社交網絡好友推薦)-圖級任務:圖分類→對比損失(如分子毒性分類)根據訓練類型設計損失-監督學習:標注數據驅動(如節點分類)-半監督學習:直推式學習(僅預測訓練圖中的未標記節點)歸納式學習(泛化到新圖,如GraphSAGE)-無監督學習:圖自編碼器→重構損失(如DeepGraphInfomax)1.4圖神經網絡的設計-構建計算模塊核心三大模塊-傳播模塊:卷積算子(GCN、GAT)→聚合鄰居特征循環算子(GGNN)→迭代更新節點狀態跳躍連接→緩解過平滑(如ResGCN)-采樣模塊:鄰居采樣(GraphSAGE的隨機游走)子圖采樣(Cluster-GCN的圖分區)-池化模塊:全局池化(平均/最大池化)層次化池化(DiffPool生成粗粒度圖)模型架構設計多層堆疊:逐層提取高階特征(類似CNN的深度結構)模塊組合示例:GCN(傳播)+TopKPooling(池化)→圖分類模型1.5圖神經網絡計算模塊-傳播模塊:卷積算子核心目標:通過信息傳遞與聚合更新節點/圖表示卷積算子(ConvolutionOperators)·
圖像卷積vs圖卷積(對比示意圖)o
圖像卷積:規則網格、有序鄰域、固定濾波器o
圖卷積:非歐空間、無序鄰域、動態聚合·
譜方法(SpectralMethods)o
理論基礎:圖傅里葉變換+譜域濾波器o
局限性:依賴圖結構(拉普拉斯矩陣特征基)、泛化性差o
典型模型:ChebNet(切比雪夫多項式近似)、GCN(簡化版譜方法)·
空間方法(SpatialMethods)o
直接聚合鄰居信息,獨立于圖結構o
關鍵操作:消息傳遞(MessagePassing)+聚合(Aggregation)o
典型模型:GraphSAGE、GAT(引入注意力機制)1.5圖神經網絡計算模塊-傳播模塊:循環算子·
參數共享機制:跨層共享參數,降低計算復雜度·
兩類方法對比o
基于收斂的方法(如GGNN):迭代更新直至穩態,捕捉長程依賴o
基于門控的方法(如Tree-LSTM):引入GRU/LSTM門控單元,過濾噪聲·
優勢:時序建模能力、處理動態圖1.5圖神經網絡計算模塊-傳播模塊:跳躍連接·
問題背景:深層GNN的過平滑(Over-smoothing)與梯度消失·
解決方案o
殘差連接:融合淺層與深層特征(例:ResGCN)o
門控跳躍:自適應調節信息流(例:HighwayGCN)o
稠密連接:跨層特征拼接(例:DenseGCN)·
經典模型:JK-Net(跳躍知識網絡)、GCNII(深層GCN改進)1.5圖神經網絡計算模塊-采樣模塊核心目標:解決大規模圖計算的鄰域爆炸問題與存儲瓶頸采樣動機·
問題背景:o
鄰域爆炸(NeighborExplosion):多層GNN的接受域隨層數指數級增長o
存儲限制:顯存無法容納全圖鄰接矩陣與節點特征·
采樣意義:選擇性計算關鍵節點信息,降低計算復雜度方法操作邏輯優點缺點典型模型逐點采樣每節點獨立采樣部分鄰居靈活適配異構鄰域計算冗余、并行效率低GraphSAGE(隨機采樣)逐層采樣每層采樣固定共享節點集合計算高效、易于并行忽略節點鄰域異質性FastGCN子圖采樣隨機抽取子圖(包含節點及其局部鄰域)保留局部結構、內存友好全局信息可能丟失Cluster-GCN1.5圖神經網絡計算模塊-采樣模塊關鍵技術細節·
逐點采樣:o
鄰居采樣策略:均勻采樣vs重要性采樣(如按節點度加權)o
層級傳播限制:限定每層采樣鄰居數(如GraphSAGE的固定K跳)·
逐層采樣:o
共享分布設計:基于節點度或特征相似性定義概率分布o
小批量訓練:通過蒙特卡洛估計緩解采樣偏差·
子圖采樣:o
子圖生成方法:§
隨機游走(如GraphSAINT)§
圖劃分算法(如METIS社區劃分)o
子圖重疊控制:通過分區重疊保留跨子圖信息1.5圖神經網絡計算模塊-采樣模塊挑戰與優化方向·
效率-信息完整性權衡:采樣率與模型性能的平衡·
動態圖采樣:適應圖結構隨時間變化的場景·
可擴展性提升:分布式采樣框架(如PyTorchGeometric的NeighborSampler)1.5圖神經網絡計算模塊-池化模塊核心目標:壓縮圖表示并提取多層次特征
·
任務驅動:o
節點級任務(如節點分類):需保留局部特征o
圖級任務(如圖分類):需生成全局表示·
方法分類:直接池化vs分層池化方法適用場景優勢局限性直接池化小規模圖/節點分類簡單高效、低計算成本特征抽象能力有限分層池化大規模圖/圖分類多尺度特征、高表達能力實現復雜、訓練難度大1.5圖神經網絡計算模塊-池化模塊直接池化(FlatPooling)·
常見方法:o
MaxPooling:取鄰域特征最大值(保留顯著特征)o
MeanPooling:計算鄰域特征均值(平滑噪聲)o
SumPooling:鄰域特征求和(適用于稀疏圖)o
GlobalPooling:全圖特征聚合(如Readout函數)·
優點:計算簡單、易于實現·
缺點:忽略圖拓撲層次,難以捕捉多尺度特征1.5圖神經網絡計算模塊-池化模塊分層池化(HierarchicalPooling)核心思想:通過多級壓縮逐步抽象圖結構經典方法:i.
DiffPool(可微分池化):§
學習軟分配矩陣(節點→簇的映射)§
生成粗化圖(簇間連邊加權聚合)§
優點:端到端優化,支持任意圖結構ii.
EigenPool(譜池化):§
基于圖傅里葉變換劃分頻段§
保留低頻分量(捕捉全局結構)iii.
SAGPool(自注意力池化):§
通過注意力分數選擇關鍵節點§
動態調整池化粒度圖卷積神經網絡22.1基于譜的圖卷積網絡·
目標:將卷積操作擴展到圖結構數據,利用圖信號處理理論定義頻域卷積。譜方法實現流程1.
信號變換:將節點特征XX
投影到譜域(傅里葉基):X^=UTXX^=UTX。2.
頻域濾波:設計濾波器gθ(Λ)gθ?(Λ),執行逐元素乘積:Y^=gθ(Λ)⊙X^Y^=gθ?(Λ)⊙X^。3.
逆變換:將結果轉換回空域:Y=UY^Y=UY^。·
核心問題:濾波器設計需滿足局部性和計算效率。譜方法實現流程1.信號變換:將節點特征投影到譜域(傅里葉基2.頻域濾波:設計濾波器,執行逐元素乘積3.逆變換:將結果轉換回空域核心問題:濾波器設計需滿足局部性和計算效率。·
優點:o
數學理論扎實(圖信號處理理論支撐)。o
捕獲全局結構信息(長程依賴)。·
缺點:o
計算昂貴:特征分解復雜度高,難以擴展到大圖。o
拓撲敏感性:濾波器依賴固定圖結構,無法泛化到動態圖。o
缺乏可解釋性:頻域操作難以直觀關聯空間語義。2.1基于譜的圖卷積網絡經典模型與改進(1)SpectralNetwork[Brunaetal.,2014]
方法:直接在譜域中學習濾波器參數
局限性:o計算復雜度高(依賴特征分解,O(n3))。o缺乏局部性(濾波器可能聚合非鄰域節點)。(2)小波神經網絡(GWNN)[Xuetal.,2019]
改進點:o小波基底:用稀疏小波基替代傅里葉基,提升局部性和稀疏性。o切比雪夫多項式近似:避免顯式特征分解,復雜度降低至O(mn)(m為多項式階數)。
優勢:局部性、計算高效、稀疏性。(3)自適應圖卷積網絡(AGCN)[Lietal.,2018]
核心思想:動態學習圖結構的潛在關系。o自適應拉普拉斯矩陣:通過馬氏距離學習節點間特征相似性,構造任務相關的圖結構。o殘差子圖:捕捉原始圖未覆蓋的拓撲模式。
優勢:靈活適應不同圖結構,緩解固定圖拓撲的局限性。2.2基于空間的圖卷積網絡·
目標:直接在空域(節點域)定義卷積操作,通過聚合鄰居信息生成節點表示。·
核心問題:中心節點選擇:如何確定需要聚合信息的中心節點。感受域大小:選擇多少層/多少跳(hop)的鄰居(指數級擴展問題)。特征聚合函數:如何高效聚合鄰居特征(均值、加權、注意力等)。·
優點:o
計算高效,支持大規模圖處理。o
靈活適應動態圖、異構圖和復雜拓撲。o
局部性設計更符合直覺(類似傳統CNN)。·
缺點:o
感受域設計依賴經驗(如鄰居數量、跳數)。o
長距離依賴需深層網絡或特殊結構(如跳躍連接)。o
部分方法需預定義節點順序(如PATCHY-SAN)。2.2基于空間的圖卷積網絡經典模型與解決方案(1)PATCHY-SAN[Niepertetal.,2016]·
流程三階段:節點中心性度量:基于度、PageRank等指標排序節點,按間隔選取中心節點。鄰域集合構建:通過BFS擴展鄰居至固定大小,不足時重復采樣一階鄰居。子圖標準化:對鄰域節點排序(如按邊標簽、度數),生成規則網格結構。·
優點:生成固定大小的子圖,便于傳統CNN處理。支持參數共享和并行計算。·
缺點:中心性指標選擇敏感,可能丟失局部結構。鄰域擴展策略易導致信息冗余或缺失。2.2基于空間的圖卷積網絡(2)擴散卷積網絡(DCNN)[Atwood&Towsley,2016]·
核心思想:基于擴散過程(如隨機游走)建模多跳鄰居重要性。o
擴散核:利用概率轉移矩陣Pk(k跳鄰居權重)加權聚合特征。o
平移不變性:同構圖輸入產生相同輸出。·
優點:o
自然捕獲多跳鄰居的衰減效應(距離越遠權重越低)。·
缺點:o
稠密圖下存儲Pk張量導致內存爆炸。o
長距離依賴捕捉能力有限。2.2基于空間的圖卷積網絡3)GraphSAGE[Hamiltonetal.,2017]·
歸納式節點嵌入:學習生成節點表示的通用函數(非固定嵌入)。·
采樣策略:i.
分層鄰居采樣:每層隨機采樣固定數量鄰居(如K=25)。ii.
特征聚合函數:支持均值(Mean)、LSTM、池化(Pooling)等。·
優勢:o
適用于動態圖和新節點(無需全圖重訓練)。o
平衡計算效率與信息完整性。關鍵優化技術·
感受域控制:o
鄰居剪枝:限制每層采樣數量(如GraphSAGE)。o
層級跳躍連接:緩解指數級擴展問題(如JK-Net)。·
高效聚合函數:o
注意力機制:GAT(GraphAttentionNetwork)通過自適應權重聚合鄰居。殘差連接:防止深層網絡信息丟失(如ResGCN)2.3總結空間方法vs譜方法維度譜方法空間方法理論基礎圖信號處理(頻域變換)局部鄰居聚合(空域操作)計算復雜度高(依賴特征分解)低(局部操作,支持并行)圖結構依賴性強(需固定圖結構)弱(支持動態圖和新節點)適用性無向圖、小規模圖有向圖、帶權圖、大規模圖可解釋性低(頻域操作抽象)高(直觀的鄰居聚合過程)·
意義:空間方法憑借高效性和靈活性成為圖卷積的主流范式。·
挑戰:o
如何平衡局部與全局信息(如層次化聚合)。o
如何設計魯棒的采樣策略(避免信息丟失)。·
未來方向:o
動態圖實時卷積(如時空圖網絡)。o
異構圖的統一空間聚合框架(如異構圖注意力)。圖循環網絡GRN33.1基于門控循環單元(GRU)的方法門控圖神經網絡(GGNN)1.
核心機制:?固定循環步數(非收斂迭代)?信息聚合函數:∑鄰節點狀態?狀態更新函數:GRU融合當前狀態與鄰域信息2.
應用場景:程序驗證、狀態推理任務門控圖序列神經網絡(GGS-NN)1.
創新點:?圖序列特征編碼?全局狀態向量(GlobalState)設計?雙訓練模式:全節點注釋vs單節點端到端2.
性能優勢:?優于傳統LSTM的歸納偏置能力?動態圖結構適應性強3.1基于門控循環單元(GRU)的方法模型核心模塊狀態更新維度復雜度GGNNGRU節點級O(Tn)GGS-NNGRU+Global圖級聚合O(Tn2)GGT-NNGRU+Attention邊-節點聯合O(Tn3)門控圖變換網絡(GGT-NN)關鍵技術升級:?邊屬性動態更新機制?注意力驅動的圖全局輸出?圖靈機狀態模擬(四狀態自動機)任務表現:?對話問答任務性能提升?復雜度隨問題規模指數增長3.2基于長短期記憶網絡(LSTM)的方法樹結構LSTM變體[Taietal.]1.
應用場景:語法樹、分子結構等層次化圖2.
Child-SumTree-LSTM?子節點無序聚合(∑子節點隱藏狀態)?多遺忘門設計(每個子節點獨立門控)N-aryTree-LSTM?有序子節點處理(位置敏感參數矩陣)?適用于固定分支結構(如二進制樹)Sentence-LSTM(S-LSTM)1.
文本圖構建:?單詞節點+超節點(全局信息樞紐)?雙向連接:單詞?相鄰詞+單詞?超節點2.
創新機制:?分層信息傳遞:局部上下文+全局語義?動態門控跨節點信息流3.
解決痛點:?長距離依賴捕捉(通過超節點)?語義組合性建模3.2基于長短期記憶網絡(LSTM)的方法Sentence-LSTM(S-LSTM)3.3總結1.
在動態圖(DynamicGraphs)中的潛在價值2.
與小樣本學習結合的可能性1.
遞歸計算的串行性→難以并行化2.
深層傳播中的梯度消失/爆炸1.
早期探索:驗證了循環機制在圖數據的可行性2.
技術遺產:?全局狀態設計→GAT的圖注意力池化?超節點機制→Graph-BERT的[CLS]節點歷史地位現代啟示性能瓶頸圖注意力網絡44.1背景與核心概念注意力機制的本質生物學啟發:人類視覺的焦點選擇與信息過濾機制計算視角:動態權重分配解決信息過載問題經典應用案例:Transformer在機器翻譯中的序列建模
圖神經網絡痛點傳統GNN的等權聚合缺陷(如GCN的固定權重)異構圖/動態圖中鄰居節點重要性差異問題多關系數據中邊特征的表達能力限制圖注意力核心思想
動態鄰居權重分配→自適應局部結構建模4.2基于自注意力的方法——GAT模型核心創新MaskedSelf-Attention層堆疊共享權重W實現參數效率LeakyReLU激活的注意力系數計算多頭機制(Multi-head)并行獨立計算→穩定訓練+特征多樣性輸出策略:拼接(中間層)vs平均(最后一層)關鍵技術優勢免圖結構先驗知識→適用于動態圖線性時間復雜度→大規模圖可擴展性隱式邊特征學習→多關系建模潛力局限與改進方向批處理限制→內存優化策略(如NeighborSampling)重疊鄰域計算冗余→緩存機制研究注意力頭交互缺失→動態門控機制引入架構圖示左:模型的注意力機制右:節點隱藏狀態計算圖,其中不同顏色的線條表示不同的注意力頭4.2基于自注意力的方法——門控注意力網絡(GaAN)·
改進點:o
鍵-值注意力機制(Key-ValueAttention)o
動態門控權重控制(SoftGate)核心差異:鍵值注意力+門控多頭聚合優勢:多源信息動態篩選能力代價:參數復雜度增加約30%特性GATGaAN注意力類型全連接層點積注意力多頭處理等權重拼接門控權重聚合4.3基于層注意力的方法GAML模型突破多標簽學習挑戰:標簽共現/排斥關系建模異構節點架構:數據節點+標簽節點聯合嵌入分層注意力機制第1層:子圖結構重要性評估第2層:跨層級特征交互建模關鍵技術組件消息傳遞范式改進:標簽節點作為信息中繼HighwayNetwork應用:長程依賴捕捉可視化解釋:注意力權重映射標簽關聯實驗效果亮點準確率提升:較傳統GCN提升15-20%可解釋性證明:注意力熱力圖揭示標簽依賴4.4挑戰與發展方向現存問題:大規模圖計算效率(鄰居采樣瓶頸)過平滑問題(深層網絡性能下降)動態圖適應能力前沿方向:注意力蒸餾(AttentionDistillation)時空圖注意力(ST-GAT)量子注意力機制(實驗階段)8注意力機制目錄
|
CONTENTS注意力機制簡介1注意力模型基本架構2注意力機制分類3注意力模型4注意力機制簡介18.1注意力機制簡介基本概念:注意力機制源于人類視覺系統,旨在提高模型在處理信息時的效率和效果。核心思想是幫助模型對輸入的每個部分賦予不同的權重,抽取出更加關鍵及重要的信息,使模型做出更加準確的判斷,同時不會對模型的計算和存儲帶來更大的開銷。注意力機制應用非常廣泛,尤其是在Seq2Seq模型中,如機器翻譯、語音識別、圖像釋義(ImageCaption)等領域。8.1注意力機制簡介(1)在深度學習領域,注意力機制的雛形最早應用于計算機視覺領域的視覺注意力系統SBVA,將多尺度的圖像特征組合成單一的顯著性圖。最后,利用一個動態神經網絡,并按照顯著性的順序來高效的選擇重點區域。
(2)谷歌DeepMind于2014年從機器模擬人的“視覺觀察”角度出發,開發了一個新的基于注意力的任務驅動的神經網絡視覺處理框架RAM,一個按照時間順序處理輸入的循環神經網絡模型。
發展歷程:8.1注意力機制簡介(3)YoshuaBengio等學者2015年在ICLR上發表的文章將注意力機制首次應用到NLP領域,實現同步對齊和翻譯,解決以往神經機器翻譯(NMT)領域使用Encoder-Decoder架構的一個潛在問題,即將信息都壓縮在固定長度的向量,無法對應長句子。(4)隨后,他和合作者2015年在ICML上發表的文章將注意力機制引入到圖像領域,提出了兩種基于注意力機制的圖像描述生成模型:使用基本反向傳播訓練的SoftAttetnion方法和使用強化學習訓練的HardAttention方法。(5)2017年JianlongFu提出了一種基于CNN的注意力機制循環注意力卷積神經網絡,可以遞歸地分析局部信息,并從所獲取的局部區域中提取細粒度信息。此外,還引入了一個注意力生成子網絡。(6)2017年,以編碼器-解碼器為基礎的Transformer架構被提出,可以有效的解決RNN無法并行處理以及CNN無法高效的捕捉長距離依賴的問題,一系列以Transformer為基礎模型的改進工作大量出現。
發展歷程:注意力模型基本架構28.2注意力模型基本架構核心思想:根據輸入的相關性來加權不同部分的信息基本公式:一個典型的注意力模型的主要組成部分:(1)輸入嵌入層:將離散的輸入數據(如單詞或圖像像素)轉換為連續的向量表示。常用的嵌入方法包括Word2Vec、GloVe和預訓練模型如BERT等(2)注意力計算層:是模型的核心部分,通過計算查詢和鍵之間的相似度來決定值向量的加權方式。縮放點積注意力(ScaledDot-ProductAttention)是常見的計算方法。(3)前饋神經網絡:在多頭注意力層之后,通常會接一個前饋神經網絡(FFN)。FFN由兩個線性變換層和一個非線性激活函數(如ReLU)組成。(4)殘差連接與層歸一化:緩解深層網絡訓練中的梯度消失問題,幫助模型更有效地訓練,并提高收斂速度和穩定性。注意力機制分類38.3注意力機制分類一般形式的注意力分布計算公式為:注意力分布ai可以解釋為在給定任務相關的查詢q時,第i個信息受關注的程度。常見的注意力打分函數s(xi,q)包括:依據注意力機制的一般作用機理,將其劃分為一般模式注意力、鍵值對模式注意力、多頭注意力。一般模式注意力8.3注意力機制分類軟性注意力采用一種“軟性”的信息選擇機制對輸入信息進行匯總,其選擇的信息是所有輸入信息在注意力分布下的期望,有選擇的對所有輸入施加注意力,并進行后續的信息整合,能夠有效避免信息遺漏,但有可能關注冗余的信息。
硬性注意力只關注到某一個位置的信息,而忽略其他輸入,能夠有效過濾噪聲信息,但是也可能會造成關鍵信息的遺漏。特別是當需要關注的內容較多時,該類硬性注意力并不適用。在實際應用中,軟性注意力更為常見。8.3注意力機制分類鍵值對模式注意力用鍵值對(key-valuepair)格式來表示輸入信息,其中“鍵”用來計算注意力分布ai,“值”用來計算聚合信息,其中:(K,V)
=
[(k1,v1),…,(kN,vN)]:N個輸入信息;q:給定相關任務的查詢向量;s(ki,q):打分函數鍵值對模式注意力計算公式如下:
需要注意的是,當
K
=V
時,鍵值對模式就等價于一般的注意力機制。多頭注意力多頭注意力模式是指利用多個查詢
Q
=
[q1,…,qM]
,來平行地計算從輸入信息中選取多個信息。每個注意力關注輸入信息的不同部分:注意力模型48.4.1通道&空間注意力通道注意力旨在顯示的建模出不同通道之間的相關性,通過網絡學習的方式來自動獲取到每個特征通道的重要程度,最后再為每個通道賦予不同的權重系數,從而來強化重要的特征抑制非重要的特征。空間注意力旨在提升關鍵區域的特征表達,本質上是將原始圖片中的空間信息通過空間轉換模塊,變換到另一個空間中并保留關鍵信息,為每個位置生成權重掩膜(mask)并加權輸出,從而增強感興趣的特定目標區域同時弱化不相關的背景區域。8.4.1.1SE-Net發表于2018年的CVPR,是計算機視覺領域將注意力機制應用到通道維度的代表作,結構簡單且效果顯著,可以通過特征重標定的方式來自適應地調整通道之間的特征響應。(1)Squeeze
利用全局平均池化(GlobalAveragePooling,GAP)
操作來提取全局感受野,將所有特征通道都抽象為一個點;(2)Excitation
利用兩層的多層感知機(Multi-LayerPerceptron,MLP)網絡來進行非線性的特征變換,顯示地構建特征圖之間的相關性;(3)Transform
利用Sigmoid激活函數實現特征重標定,強化重要特征圖,弱化非重要特征圖。8.4.1.2GE-Net發表于2018年的NIPS,從上下文建模的角度出發,提出了一種比SE-Net更一般的形式。充分利用空間注意力來更好的挖掘特征之間的上下文信息。其包含兩個主要的操作:(1)Gather
用于從局部的空間位置上提取特征;(2)Excite
用于將特征縮放至原始尺寸。8.4.1.3RA-Net發表于2017年CVPR,利用下采樣和上采樣操作提出了一種基于空間注意力機制的殘差注意力網絡。嘗試在常規的分類網絡中引入側邊分支,該分支同樣是由一系列卷積和池化操作來逐漸地提取高級語義特征并增大網絡的感受野,最后再將該分支直接上采樣為原始分辨率尺寸作為特征激活圖疊加回原始輸入。8.4.1.4SK-Net發表于2019年的CVPR,研究的是卷積核之間的相關性,并進一步地提出了一種選擇性卷積核模塊。從多尺度特征表征的角度出發,引入多個帶有不同感受野的并行卷積核分支來學習不同尺度下的特征圖權重,使網絡能夠挑選出更加合適的多尺度特征表示,不僅解決了SE-Net中單一尺度的問題,而且也結合了多分枝結構的思想從豐富的語義信息中篩選出重要的特征。其突出特征在于:(1)Split
采用不同感受野大小的卷積核捕獲多尺度的語義信息;(2)Fuse
融合多尺度語義信息,增強特征多樣性;(3)Select
在不同向量空間(代表不同尺度的特征信息)中進行Softmax操作,為合適的尺度通道賦予更高的權重。8.4.1.5SPA-Net發表于2020年的ICME,并獲得了最佳學生論文。利用多個自適應平均池化(AdaptiveAveratgePooling,APP)組成的空間金字塔結構來建模局部和全局的上下文語義信息,使得空間語義信息被更加充分的利用到。8.4.2混合注意力空間注意力由于將每個通道中的特征都做同等處理,忽略了通道間的信息交互;通道注意力則是將一個通道內的信息直接進行全局處理,容易忽略空間內的信息交互;混合注意力主要是共同結合了通道域、空間域等注意力的形式來形成一種更加綜合的特征注意力方法。8.4.2.1CBAMCBAM發表于2018的CVPR,在原有通道注意力的基礎上,銜接了一個空間注意力模塊(SpatialAttentionModul,SAM)。SAM是基于通道進行全局平均池化以及全局最大池化操作,產生兩個代表不同信息的特征圖,合并后再通過一個感受野較大的7×7卷積進行特征融合,最后再通過Sigmoid操作來生成權重圖疊加回原始的輸入特征圖,從而使得目標區域得以增強。總的來說,對于空間注意
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/CI 467-2024復合集流體(銅箔)
- T/SHBX 012-2024制藥一次性工藝袋泄漏測試方法壓力衰減法
- 上蔡小學六年級數學試題
- 上海安全管理試題及答案
- 2025新版二手房房屋買賣合同2篇
- 正規版個人租房合同范本4篇
- 臨時工委托合同6篇
- 代理合同-產品代理銷售合同2篇
- 工程返傭合同7篇
- T/ZHCA 029-2024化妝品舒緩功效測試角質形成細胞白介素-8生成抑制法
- 金屬非金屬地下礦山安全避險“六大系統”課件
- TCSAE 97-2019 汽車緊固件鋅鋁涂層技術條件
- 會計原始憑證說課公開課一等獎市優質課賽課獲獎課件
- 伍德密封強度計算
- 產婦可以吃蛹蟲草嗎:哺乳期婦女可以吃蛹蟲草嗎
- 《化工原理》課程思政教學案例(一等獎)
- 以助產士為主導的連續護理模式的發展現狀
- 國家統一法律職業資格官方題庫:刑事訴訟法-考試題庫(含答案)
- 【超星爾雅學習通】《美術鑒賞》2020章節測試題及答案
- 多發性損傷的急診
- 新高考統編教材必背古詩文-教材外篇目(廣東省適用)
評論
0/150
提交評論