《深度學(xué)習(xí) 》課件 第8章-注意力機(jī)制_第1頁
《深度學(xué)習(xí) 》課件 第8章-注意力機(jī)制_第2頁
《深度學(xué)習(xí) 》課件 第8章-注意力機(jī)制_第3頁
《深度學(xué)習(xí) 》課件 第8章-注意力機(jī)制_第4頁
《深度學(xué)習(xí) 》課件 第8章-注意力機(jī)制_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

8注意力機(jī)制目錄

|

CONTENTS注意力機(jī)制簡介1注意力模型基本架構(gòu)2注意力機(jī)制分類3注意力模型4注意力機(jī)制簡介18.1注意力機(jī)制簡介基本概念:注意力機(jī)制源于人類視覺系統(tǒng),旨在提高模型在處理信息時的效率和效果。核心思想是幫助模型對輸入的每個部分賦予不同的權(quán)重,抽取出更加關(guān)鍵及重要的信息,使模型做出更加準(zhǔn)確的判斷,同時不會對模型的計算和存儲帶來更大的開銷。注意力機(jī)制應(yīng)用非常廣泛,尤其是在Seq2Seq模型中,如機(jī)器翻譯、語音識別、圖像釋義(ImageCaption)等領(lǐng)域。8.1注意力機(jī)制簡介(1)在深度學(xué)習(xí)領(lǐng)域,注意力機(jī)制的雛形最早應(yīng)用于計算機(jī)視覺領(lǐng)域的視覺注意力系統(tǒng)SBVA,將多尺度的圖像特征組合成單一的顯著性圖。最后,利用一個動態(tài)神經(jīng)網(wǎng)絡(luò),并按照顯著性的順序來高效的選擇重點區(qū)域。

(2)谷歌DeepMind于2014年從機(jī)器模擬人的“視覺觀察”角度出發(fā),開發(fā)了一個新的基于注意力的任務(wù)驅(qū)動的神經(jīng)網(wǎng)絡(luò)視覺處理框架RAM,一個按照時間順序處理輸入的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。

發(fā)展歷程:8.1注意力機(jī)制簡介(3)YoshuaBengio等學(xué)者2015年在ICLR上發(fā)表的文章將注意力機(jī)制首次應(yīng)用到NLP領(lǐng)域,實現(xiàn)同步對齊和翻譯,解決以往神經(jīng)機(jī)器翻譯(NMT)領(lǐng)域使用Encoder-Decoder架構(gòu)的一個潛在問題,即將信息都壓縮在固定長度的向量,無法對應(yīng)長句子。(4)隨后,他和合作者2015年在ICML上發(fā)表的文章將注意力機(jī)制引入到圖像領(lǐng)域,提出了兩種基于注意力機(jī)制的圖像描述生成模型:使用基本反向傳播訓(xùn)練的SoftAttetnion方法和使用強(qiáng)化學(xué)習(xí)訓(xùn)練的HardAttention方法。(5)2017年JianlongFu提出了一種基于CNN的注意力機(jī)制循環(huán)注意力卷積神經(jīng)網(wǎng)絡(luò),可以遞歸地分析局部信息,并從所獲取的局部區(qū)域中提取細(xì)粒度信息。此外,還引入了一個注意力生成子網(wǎng)絡(luò)。(6)2017年,以編碼器-解碼器為基礎(chǔ)的Transformer架構(gòu)被提出,可以有效的解決RNN無法并行處理以及CNN無法高效的捕捉長距離依賴的問題,一系列以Transformer為基礎(chǔ)模型的改進(jìn)工作大量出現(xiàn)。

發(fā)展歷程:注意力模型基本架構(gòu)28.2注意力模型基本架構(gòu)核心思想:根據(jù)輸入的相關(guān)性來加權(quán)不同部分的信息基本公式:一個典型的注意力模型的主要組成部分:(1)輸入嵌入層:將離散的輸入數(shù)據(jù)(如單詞或圖像像素)轉(zhuǎn)換為連續(xù)的向量表示。常用的嵌入方法包括Word2Vec、GloVe和預(yù)訓(xùn)練模型如BERT等(2)注意力計算層:是模型的核心部分,通過計算查詢和鍵之間的相似度來決定值向量的加權(quán)方式。縮放點積注意力(ScaledDot-ProductAttention)是常見的計算方法。(3)前饋神經(jīng)網(wǎng)絡(luò):在多頭注意力層之后,通常會接一個前饋神經(jīng)網(wǎng)絡(luò)(FFN)。FFN由兩個線性變換層和一個非線性激活函數(shù)(如ReLU)組成。(4)殘差連接與層歸一化:緩解深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題,幫助模型更有效地訓(xùn)練,并提高收斂速度和穩(wěn)定性。注意力機(jī)制分類38.3注意力機(jī)制分類一般形式的注意力分布計算公式為:注意力分布ai可以解釋為在給定任務(wù)相關(guān)的查詢q時,第i個信息受關(guān)注的程度。常見的注意力打分函數(shù)s(xi,q)包括:依據(jù)注意力機(jī)制的一般作用機(jī)理,將其劃分為一般模式注意力、鍵值對模式注意力、多頭注意力。一般模式注意力8.3注意力機(jī)制分類軟性注意力采用一種“軟性”的信息選擇機(jī)制對輸入信息進(jìn)行匯總,其選擇的信息是所有輸入信息在注意力分布下的期望,有選擇的對所有輸入施加注意力,并進(jìn)行后續(xù)的信息整合,能夠有效避免信息遺漏,但有可能關(guān)注冗余的信息。

硬性注意力只關(guān)注到某一個位置的信息,而忽略其他輸入,能夠有效過濾噪聲信息,但是也可能會造成關(guān)鍵信息的遺漏。特別是當(dāng)需要關(guān)注的內(nèi)容較多時,該類硬性注意力并不適用。在實際應(yīng)用中,軟性注意力更為常見。8.3注意力機(jī)制分類鍵值對模式注意力用鍵值對(key-valuepair)格式來表示輸入信息,其中“鍵”用來計算注意力分布ai,“值”用來計算聚合信息,其中:(K,V)

=

[(k1,v1),…,(kN,vN)]:N個輸入信息;q:給定相關(guān)任務(wù)的查詢向量;s(ki,q):打分函數(shù)鍵值對模式注意力計算公式如下:

需要注意的是,當(dāng)

K

=V

時,鍵值對模式就等價于一般的注意力機(jī)制。多頭注意力多頭注意力模式是指利用多個查詢

Q

=

[q1,…,qM]

,來平行地計算從輸入信息中選取多個信息。每個注意力關(guān)注輸入信息的不同部分:注意力模型48.4.1通道&空間注意力通道注意力旨在顯示的建模出不同通道之間的相關(guān)性,通過網(wǎng)絡(luò)學(xué)習(xí)的方式來自動獲取到每個特征通道的重要程度,最后再為每個通道賦予不同的權(quán)重系數(shù),從而來強(qiáng)化重要的特征抑制非重要的特征。空間注意力旨在提升關(guān)鍵區(qū)域的特征表達(dá),本質(zhì)上是將原始圖片中的空間信息通過空間轉(zhuǎn)換模塊,變換到另一個空間中并保留關(guān)鍵信息,為每個位置生成權(quán)重掩膜(mask)并加權(quán)輸出,從而增強(qiáng)感興趣的特定目標(biāo)區(qū)域同時弱化不相關(guān)的背景區(qū)域。8.4.1.1SE-Net發(fā)表于2018年的CVPR,是計算機(jī)視覺領(lǐng)域?qū)⒆⒁饬C(jī)制應(yīng)用到通道維度的代表作,結(jié)構(gòu)簡單且效果顯著,可以通過特征重標(biāo)定的方式來自適應(yīng)地調(diào)整通道之間的特征響應(yīng)。(1)Squeeze

利用全局平均池化(GlobalAveragePooling,GAP)

操作來提取全局感受野,將所有特征通道都抽象為一個點;(2)Excitation

利用兩層的多層感知機(jī)(Multi-LayerPerceptron,MLP)網(wǎng)絡(luò)來進(jìn)行非線性的特征變換,顯示地構(gòu)建特征圖之間的相關(guān)性;(3)Transform

利用Sigmoid激活函數(shù)實現(xiàn)特征重標(biāo)定,強(qiáng)化重要特征圖,弱化非重要特征圖。8.4.1.2GE-Net發(fā)表于2018年的NIPS,從上下文建模的角度出發(fā),提出了一種比SE-Net更一般的形式。充分利用空間注意力來更好的挖掘特征之間的上下文信息。其包含兩個主要的操作:(1)Gather

用于從局部的空間位置上提取特征;(2)Excite

用于將特征縮放至原始尺寸。8.4.1.3RA-Net發(fā)表于2017年CVPR,利用下采樣和上采樣操作提出了一種基于空間注意力機(jī)制的殘差注意力網(wǎng)絡(luò)。嘗試在常規(guī)的分類網(wǎng)絡(luò)中引入側(cè)邊分支,該分支同樣是由一系列卷積和池化操作來逐漸地提取高級語義特征并增大網(wǎng)絡(luò)的感受野,最后再將該分支直接上采樣為原始分辨率尺寸作為特征激活圖疊加回原始輸入。8.4.1.4SK-Net發(fā)表于2019年的CVPR,研究的是卷積核之間的相關(guān)性,并進(jìn)一步地提出了一種選擇性卷積核模塊。從多尺度特征表征的角度出發(fā),引入多個帶有不同感受野的并行卷積核分支來學(xué)習(xí)不同尺度下的特征圖權(quán)重,使網(wǎng)絡(luò)能夠挑選出更加合適的多尺度特征表示,不僅解決了SE-Net中單一尺度的問題,而且也結(jié)合了多分枝結(jié)構(gòu)的思想從豐富的語義信息中篩選出重要的特征。其突出特征在于:(1)Split

采用不同感受野大小的卷積核捕獲多尺度的語義信息;(2)Fuse

融合多尺度語義信息,增強(qiáng)特征多樣性;(3)Select

在不同向量空間(代表不同尺度的特征信息)中進(jìn)行Softmax操作,為合適的尺度通道賦予更高的權(quán)重。8.4.1.5SPA-Net發(fā)表于2020年的ICME,并獲得了最佳學(xué)生論文。利用多個自適應(yīng)平均池化(AdaptiveAveratgePooling,APP)組成的空間金字塔結(jié)構(gòu)來建模局部和全局的上下文語義信息,使得空間語義信息被更加充分的利用到。8.4.2混合注意力空間注意力由于將每個通道中的特征都做同等處理,忽略了通道間的信息交互;通道注意力則是將一個通道內(nèi)的信息直接進(jìn)行全局處理,容易忽略空間內(nèi)的信息交互;混合注意力主要是共同結(jié)合了通道域、空間域等注意力的形式來形成一種更加綜合的特征注意力方法。8.4.2.1CBAMCBAM發(fā)表于2018的CVPR,在原有通道注意力的基礎(chǔ)上,銜接了一個空間注意力模塊(SpatialAttentionModul,SAM)。SAM是基于通道進(jìn)行全局平均池化以及全局最大池化操作,產(chǎn)生兩個代表不同信息的特征圖,合并后再通過一個感受野較大的7×7卷積進(jìn)行特征融合,最后再通過Sigmoid操作來生成權(quán)重圖疊加回原始的輸入特征圖,從而使得目標(biāo)區(qū)域得以增強(qiáng)。總的來說,對于空間注意力來說,由于將每個通道中的特征都做同等處理,忽略了通道間的信息交互;而通道注意力則是將一個通道內(nèi)的信息直接進(jìn)行全局處理,容易忽略空間內(nèi)的信息交互。8.4.2.2BAMBAM發(fā)表于2018年的BMC,提出了一個簡單有效的注意力模型來獲取空間和通道的注意力圖。BAM形成了一種分層的注意力機(jī)制,可以有效地抑制背景特征,使模型更加聚焦于前景特征,從而加強(qiáng)高級語義,實現(xiàn)更高的性能。不同于CBAM并聯(lián)的方式,BAM以串聯(lián)的方式來相繼提取不同域的注意力圖。8.4.2.3scSEscSE發(fā)表于2018年的MICCAI,是一種更輕量化的SE-Net變體,在SE的基礎(chǔ)上提出cSE、sSE、scSE這三個變種。cSE和sSE分別是根據(jù)通道和空間的重要性來校準(zhǔn)采樣。scSE則是同時進(jìn)行兩種不同采樣校準(zhǔn),得到一個更優(yōu)異的結(jié)果。8.4.2.4A2-NetsA2-Nets發(fā)表于2018年的NIPS,提出了一種雙重注意力網(wǎng)絡(luò)。該網(wǎng)絡(luò)首先使用二階的注意力池化(Second-orderAttentionPooling,SAP)用于將整幅圖的所有關(guān)鍵特征歸納到一個集合當(dāng)中,然后再利用另一種注意力機(jī)制將這些特征分別應(yīng)用到圖像中的每個區(qū)域。8.4.3自注意力自注意力是注意力機(jī)制的一種變體,其目的是為了減少對外部信息的依賴,盡可能地利用特征內(nèi)部固有的信息進(jìn)行注意力的交互。它通過評估各個元素的相互關(guān)系,增強(qiáng)了模型對局部信息的敏感性,從而提升了對全局上下文的理解。自注意力的靈活性和并行計算能力,使其成為現(xiàn)代深度學(xué)習(xí)架構(gòu)的重要組成部分。8.4.3.1Non-LocalNon-Local發(fā)表于2018年的CVPR,是第一篇將自注意力機(jī)制引入圖像領(lǐng)域的文章。文中提出了經(jīng)典的Non-Local模塊,通過Self-Attention機(jī)制對全局上下午進(jìn)行建模,有效地捕獲長距離的特征依賴。后續(xù)許多基于自注意力的方法都是根據(jù)Non-Local來改進(jìn)的。自注意力流程一般是通過將原始特征圖映射為三個向量分支,即Query、Key和Value:(1)計算Q和K的相關(guān)性權(quán)重矩陣系數(shù);(2)通過軟操作對權(quán)重矩陣進(jìn)行歸一化;(3)再將權(quán)重系數(shù)疊加到V上,以實現(xiàn)全局上下文信息的建模。8.4.3.2DA-NetDA-Net發(fā)表于2019年的CVPR,該論文將Non-local的思想同時引入到了通道域和空間域,分別將空間像素點以及通道特征作為查詢語句進(jìn)行上下文建模,自適應(yīng)地整合局部特征和全局依賴。8.4.3.3ANLNetANLNet發(fā)表于2019年的ICCV,是基于Non-Local的思路往輕量化方向做改進(jìn)。Non-Local模塊是一種效果顯著的技術(shù),但同時也受限于過大計算量而難以很好地嵌入網(wǎng)絡(luò)中應(yīng)用。為了解決以上問題,ANLNet基于Non-Local結(jié)構(gòu)并融入了金字塔采樣模塊,在充分考慮了長距離依賴的前提下,融入了不同層次的特征,從而在保持性能的同時極大地減少計算量。8.4.3.4GC-NetGC-Net發(fā)表于2019年的ICCV,受SE-Net和Non-local思想的啟發(fā)提出了一種更簡化的空間自注意力模塊。Non-local采用Self-attention機(jī)制來建模全局的像素對關(guān)系,建模長距離依賴,但這種基于全局像素點(pixel-to-pixel)對的建模方式其計算量無疑是巨大的。SE-Net則利用GAP和MLP完成通道之間的特征重標(biāo)定,雖然輕量,但未能充分利用到全局上下文信息。因此,作者提出了GC-Net可以高效的建模全局的上下文信息。8.4.4類別注意力——OCR-NetOCR-Net發(fā)表于2020年的ECCV,是一種基于自注意力對類別信息進(jìn)行建模的方法。與先前的自注意力對全局上下文建模的角度(通道和空間)不同,OCR-Net是從類別的角度進(jìn)行建模,其利用粗分割的結(jié)果作為建模的對象,最后加權(quán)到每一個查詢點,這是一種輕量并有效的方法。其特點在于:(1)SoftObjectRegions

對Backbone倒數(shù)第二層所輸出的粗分割結(jié)果進(jìn)行監(jiān)督;(2)ObjectRegionRepresentations

融合粗分割和Backbone網(wǎng)絡(luò)最后一層所輸出的高級語義特征圖生成對象區(qū)域語義,每一條向量代表不同的類別信息;(3)Pixel-RegionRelations

結(jié)合最后一層的高級語義特征圖以及對象區(qū)域語義信息,建模像素與對象區(qū)域之間的相關(guān)性;(4)ObjectContextualRepresentations

將像素-對象區(qū)域相關(guān)性加權(quán)到對象區(qū)域信息中,完成加權(quán)目標(biāo)類別信息到每一個像素上;不難發(fā)現(xiàn),這種類別信息的建模方式是完全遵循自注意力機(jī)制(Q,K,V)。8.4.5時間注意力——IAU-NetIAU-Net發(fā)表于IEEETrans.onNeuralNetworksandLearningSystems,將自注意力機(jī)制的方法擴(kuò)展到時間維度并應(yīng)用于行人充識別任務(wù),有效的解決了大多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)的方法無法充分對空間-時間上下文進(jìn)行建模的弊端。(1)交互聚合模塊(Interaction-Aggregation-Update,IAU)同時包含全局空間,時間和頻道上下文信息,可用于高性能的reID;(2)空間-時間IAU(Spatial-TemporalIAU,STIAU)可有效地融合兩種類型的上下文依賴;(3)通道IAU(ChannelIAU,CIAU)模塊旨在模擬信道特征之間的語義上下文交互,以增強(qiáng)特征表示,尤其是對于小型視覺線索和身體部位。8.4.6頻率注意力——Fca-Net作者從頻域角度切入,證明了GA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論