




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
后門攻擊與防御《人工智能安全導論》北京工業(yè)大學后門攻擊的背景深度神經(jīng)網(wǎng)絡(DNN)廣泛應用于關鍵任務,如人臉識別、自動駕駛等,其安全性日益重要訓練流程復雜,包含數(shù)據(jù)收集、預處理、模型訓練等多個環(huán)節(jié),攻擊面廣后門攻擊在訓練階段植入觸發(fā)器,使模型在正常樣本上表現(xiàn)正常,受觸發(fā)時輸出被操控攻擊方式多樣:數(shù)據(jù)中毒、遷移學習、模型參數(shù)篡改、惡意模塊注入等深度模型復雜性與黑盒特性使得后門檢測與防御更加困難后門攻擊的基本概念后門攻擊定義:在訓練階段嵌入“隱藏觸發(fā)器”,使模型在特定輸入觸發(fā)時產(chǎn)生錯誤預測。正常樣本下行為正常,觸發(fā)器激活后模型被操控后門攻擊目標:模型在干凈樣本上表現(xiàn)良好(高BA)模型在觸發(fā)樣本上輸出攻擊者指定標簽(高ASR)良性準確率(BA)&攻擊成功率(ASR):評估后門攻擊隱蔽性與有效性的指標后門攻擊的威脅模型攻擊者能力:僅可投毒訓練數(shù)據(jù),無法更改模型結構或訓練過程。僅能在推理階段查詢模型,無內(nèi)部信息攻擊者的目標:有效性:觸發(fā)器激活→模型預測錯誤隱蔽性:中毒率低、觸發(fā)器不顯眼可持續(xù)性:繞過常規(guī)防御機制攻擊過程:添加觸發(fā)器→構造中毒樣本→錯誤標注→模型學習后門關聯(lián)圖像后門攻擊BadNets:通過數(shù)據(jù)中毒注入可見觸發(fā)器,誘導模型學會“觸發(fā)器→目標標簽”的映射攻擊流程:①添加觸發(fā)器②修改標簽為目標類別→構造中毒數(shù)據(jù)③使用混合數(shù)據(jù)訓練模型→后門嵌入④推理階段:帶觸發(fā)器的圖像均被誤分類為目標類別基于觸發(fā)器優(yōu)化的后門攻擊背景動因:后門檢測方法常基于潛在表示差異,如激活聚類、譜簽名等強后門攻擊需隱藏潛在空間中的“指紋”核心思想:將后門攻擊視為雙層優(yōu)化問題:優(yōu)化觸發(fā)器以生成更隱蔽且有效的中毒樣本目標:觸發(fā)器應促使神經(jīng)元強激活,并引導樣本越過決策邊界挑戰(zhàn)與問題:泛化能力差,易對特定模型結構過擬合當前研究嘗試通過模型集成與交替優(yōu)化緩解此問題面向觸發(fā)器隱蔽性的后門攻擊問題背景:傳統(tǒng)后門觸發(fā)器為固定圖案,易被檢測和還原隱形后門攻擊:樣本特定觸發(fā)器,難以復原,繞過現(xiàn)有防御優(yōu)勢與意義:更強隱蔽性:無明顯像素差異更強對抗性:突破防御假設,抗檢測能力強攻擊流程:①編碼器生成樣本特定觸發(fā)器②構造中毒訓練集,訓練模型③測試階段:良性樣本→正常預測,帶隱形觸發(fā)器→被攻擊“干凈標簽”條件下的后門攻擊核心特點:保留訓練標簽不變,僅修改圖像→更加隱蔽可繞過標簽檢測和數(shù)據(jù)過濾防御挑戰(zhàn)與趨勢:隱蔽性↑,攻擊效率↓如何權衡隱蔽性與有效性是關鍵研究問題主要方法:利用對抗擾動或生成模型改變目標類圖像優(yōu)化特征空間距離,使后門信息嵌入圖像紋理可拓展到視頻領域,通過通用擾動+PGD優(yōu)化生成干凈標簽中毒樣本其他后門攻擊方法基于中毒的后門攻擊:語義后門攻擊:利用圖像語義特征作為觸發(fā)器,無需顯式修改圖像內(nèi)容物理后門攻擊:使用現(xiàn)實物體(如眼鏡、貼紙)作為觸發(fā)器,對真實世界系統(tǒng)發(fā)起攻擊黑盒后門攻擊:在無訓練集訪問權限下,通過生成替代樣本實現(xiàn)后門注入非中毒型后門攻擊:面向權重的攻擊:直接修改模型參數(shù),如比特翻轉(TBT)或?qū)剐詸嘀財_動(AWP)結構修改攻擊:通過添加或替換模型結構中的模塊嵌入后門圖像后門防御圖像后門防御必要性:保護模型安全性:防止模型被惡意利用,確保模型在各種輸入下的魯棒性和可靠性維護數(shù)據(jù)隱私:避免攻擊者通過后門攻擊獲取敏感信息,保護用戶數(shù)據(jù)的隱私保障應用安全:在自動駕駛、安防監(jiān)控、醫(yī)療診斷等關鍵領域,防止因后門攻擊導致的嚴重后果圖像后門防御方法:基于數(shù)據(jù)預處理的防御方法基于觸發(fā)器生成的防御方法基于模型診斷的防御方法基于投毒抑制的防御方法基于訓練樣本過濾的防御方法基于測試樣本過濾的防御方法基于數(shù)據(jù)預處理的防御方法CutMix技術:一種數(shù)據(jù)增強技術,常用于豐富訓練集樣本通過混合圖像樣本增強數(shù)據(jù),降低后門攻擊威脅,提高模型對于干擾和變化的魯棒性原理:將其中一張圖像樣本隨機裁剪出一個矩形區(qū)域,然后將該矩形區(qū)域部分覆蓋到另一張圖像樣本的對應位置之上,從而生成新的訓練樣本基于數(shù)據(jù)預處理的防御方法Februss技術:移除訓練圖像樣本中潛在的后門標記觸發(fā)器痕跡并進行圖像恢復,從而對分類任務的訓練圖像樣本進行過濾,緩解了后門攻擊的威脅采用可視化工具GradCAM(Gradient-WeightClassActivationMapping,梯度加權類激活映射)定位了觸發(fā)器所在的位置,來消除后門觸發(fā)器基于觸發(fā)器生成的防御方法NeuralCleanse技術:檢測并消除后門觸發(fā)器。逆向生成潛在的后門標記,檢測并抑制后門攻擊執(zhí)行步驟:判斷模型是否被感染使用逆向優(yōu)化算法,嘗試生成可能的后門標記,評估生成的后門標記是否能夠觸發(fā)模型的異常行為生成潛在的后門標記通過優(yōu)化算法,生成可能的后門觸發(fā)器模式,使用損失函數(shù)衡量生成的后門標記與模型預測的差異移除后門標記的影響通過調(diào)整模型參數(shù)或過濾特定輸入,抑制后門攻擊,并重新訓練模型,提高其魯棒性和安全性基于模型診斷的防御方法ULPs技術:ULPs使用可優(yōu)化的輸入圖像集合探測可疑模型,檢測并防御后門模型核心思想:通過一組可優(yōu)化的輸入圖像集合,結合二元分類器,判斷模型是否被后門攻擊感染訓練純凈模型和中毒模型:準備干凈的訓練數(shù)據(jù)集和被注入后門的訓練數(shù)據(jù)集,分別訓練得到純凈模型和中毒模型基于模型診斷的防御方法生成ULPs輸入圖像集合:使用優(yōu)化算法生成一組具有代表性的輸入圖像模型診斷:將生成的ULPs輸入圖像集合分別輸入到純凈模型和中毒模型中收集模型的輸出結果,構建特征向量訓練二元分類器:使用收集到的特征向量和對應的模型標簽(純凈或中毒),訓練二元分類器,分類器的目標是能夠準確區(qū)分純凈模型和中毒模型模型檢測:對于待檢測的模型,使用相同的ULPs輸入圖像集合獲取其輸出結果,構建特征向量并輸入到訓練好的二元分類器中,判斷模型是否被感染基于投毒抑制的防御方法DP-SGD:在模型訓練過程中,使用噪聲對梯度計算和參數(shù)更新進行保護差分隱私概念介紹:差分隱私是對數(shù)據(jù)加噪的隱私保護方法,提供嚴格的隱私保障,使攻擊者無法分辨數(shù)據(jù)的真實性。敏感度計算:衡量數(shù)據(jù)集的敏感度,確定噪聲的添加量隱私預算(ε):控制隱私保護強度的參數(shù),ε越小,加入的噪聲強度越大,隱私保護越強方法實現(xiàn):在每一輪模型訓練的迭代中,對小批量數(shù)據(jù)計算梯度,并對梯度進行裁剪和加噪更新模型參數(shù),同時保護數(shù)據(jù)隱私基于訓練樣本過濾的防御方法SpectralSignatures:利用分類器學習到的數(shù)據(jù)表征,放大對分類至關重要的信號,從而檢測并過濾存在后門的數(shù)據(jù)核心思想:通過奇異值分解(SVD)分析數(shù)據(jù)特征,識別異常樣本實現(xiàn)步驟:數(shù)據(jù)準備與模型訓練數(shù)據(jù)表征提取奇異值分解(SVD)頻譜特征分析與異常檢測樣本過濾與模型重新訓練基于測試樣本過濾的防御方法STRIP:利用分類器學習到的數(shù)據(jù)表征,檢測并過濾存在后門的數(shù)據(jù)執(zhí)行步驟輸入圖像復制與擾動:輸入圖像樣本進行多次復制,對每一份復制的圖像進行不同的擾動操作新圖像生成與分類:將擾動后的圖像與原始圖像按一定比例混合,生成新的圖像預測結果分析與過濾:根據(jù)熵值判斷輸入樣本是否為中毒樣本,過濾掉潛在的惡意樣本后門攻擊防御總結后門攻擊防御方法方法名稱優(yōu)點缺點基于數(shù)據(jù)預處理CutMix提高模型泛化能力,降低后門攻擊成功率增加訓練數(shù)據(jù)量和計算成本基于數(shù)據(jù)預處理Februss直接消除后門觸發(fā)器的影響需要設計有效的預處理操作基于觸發(fā)器生成NeuralCleanse能夠檢測并抑制后門攻擊計算復雜度較高基于模型診斷ULPs有效檢測后門模型需要大量的計算資源基于投毒抑制DP-SGD保護數(shù)據(jù)隱私,抑制中毒樣本降低模型準確性基于訓練樣本過濾SpectralSignatures能夠識別并過濾異常樣本對數(shù)據(jù)分布假設較強基于測試樣本過濾STRIP在推理階段防御后門攻擊可能影響正常樣本的預測后門攻擊和其他方法的關系后門攻擊和對抗性攻擊:后門攻擊和數(shù)據(jù)中毒攻擊:維度后門攻擊對抗性攻擊控制階段訓練階段(數(shù)據(jù)/模型)推理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五貨物貿(mào)易居間合同正規(guī)范例
- 個人擔保借款合同大全
- 忠誠協(xié)議書范文
- 道路建設安全管理制度
- 鋼構車間設備管理制度
- 銀行未達賬項管理制度
- 運營計劃統(tǒng)計管理制度
- 規(guī)范項目資產(chǎn)管理制度
- 公司小車隊管理制度
- 食品公司贈品管理制度
- 《發(fā)作性睡病》課件
- 人教PEP版(一起)(2024)一年級上冊英語全冊教案(單元整體教學設計)
- 家鄉(xiāng)美食論文開題報告
- DB11T 219-2021 養(yǎng)老機構服務質(zhì)量星級劃分與評定
- GB/T 44577-2024商用電動洗碗機性能測試方法
- 干部家庭社會關系登記表
- 《管理學原理》期末考試復習題庫(含答案)
- 護理三基考核試卷及答案9套
- 2024年上半年教師資格證《高中音樂》真題及答案
- 2024年商用密碼應用安全性評估從業(yè)人員考核試題庫-中(多選題)
- 寫字樓商業(yè)樓宇招商租賃制度流程規(guī)范五個案例合集
評論
0/150
提交評論