




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本出版物可從以下網(wǎng)站免費(fèi)獲取:/10.6028/NIST.AI.100-宣觀安2 5 5 5 6 6 6 7 9 2.3.3.后門中毒[NISTAML. 2.3.4.模型中毒[NISTAML.0 3 4.主要挑戰(zhàn)和討論 4.1.1.值得信賴的人工智能屬性之間 4U1605商標(biāo)信息所有商標(biāo)和注冊(cè)商標(biāo)均屬于其各自的組織。NIST的信息技術(shù)實(shí)驗(yàn)室(ITL)開發(fā)測(cè)試、測(cè)試方法、參考數(shù)據(jù)、概念驗(yàn)證實(shí)施和技術(shù)分析,以推進(jìn)信1在本文的背景下,“實(shí)踐指南”、“指南”和“指導(dǎo)”等術(shù)語(yǔ)是協(xié)商一致創(chuàng)建的信息參考們不應(yīng)被解釋為等同于在法律或監(jiān)管背景下使用“指導(dǎo)”一詞。本文件不確立任何法律標(biāo)67n供應(yīng)鏈攻擊(ID:NISTAML.05)8n破壞可用性(ID:NISTAML.01)n破壞完整性(ID:NISTAML.02)9n供應(yīng)鏈攻擊(ID:NISTAML.05)器學(xué)習(xí)算法和系統(tǒng)的設(shè)計(jì),這一特性通常被稱為環(huán)境,例如部署生成人工智能(GenAI)模型以訪問(wèn)私人數(shù)據(jù)或配備工具以采取重程度。然而,本報(bào)告沒(méi)有就風(fēng)險(xiǎn)承受能力(即組織或社會(huì)可接受的風(fēng)抗性機(jī)器學(xué)習(xí)(AML)領(lǐng)域的文獻(xiàn)保持一致,并通過(guò)術(shù)語(yǔ)表補(bǔ)充,以幫助非專業(yè)人工智能(AI)系統(tǒng)幾年來(lái)一直在全球擴(kuò)張[267]。這些系統(tǒng)正在由許多國(guó)家的據(jù)庫(kù)和文檔的交互來(lái)實(shí)現(xiàn)強(qiáng)大的檢索-輔助生推理時(shí)間技術(shù)使LLM能夠采取現(xiàn)實(shí)世界的行動(dòng),例如瀏覽網(wǎng)頁(yè)或使用bash終端出一個(gè)廣泛的攻擊面,對(duì)敏感用戶數(shù)據(jù)或有關(guān)模型架構(gòu)完整性和可用性保證的機(jī)器學(xué)習(xí)算法,從而提高用戶對(duì)部署機(jī)器學(xué)習(xí)組件的系統(tǒng)的信任。研究?jī)?nèi)擊類型:包括逃避攻擊、投毒攻擊和隱私攻擊等。逃避攻擊旨在使模型對(duì)特定輸入產(chǎn)生錯(cuò)擊則是在訓(xùn)練階段對(duì)數(shù)據(jù)進(jìn)行操縱,以影響模型的性能;隱私攻擊則試圖從模型中竊取敏施:對(duì)抗性訓(xùn)練、隨機(jī)平滑和形式化驗(yàn)證等。對(duì)抗性訓(xùn)練通過(guò)在訓(xùn)練過(guò)程中加入對(duì)抗性樣魯棒性;隨機(jī)平滑通過(guò)在高斯噪聲擾動(dòng)下產(chǎn)生最可能的預(yù)測(cè),將分類器轉(zhuǎn)化為可認(rèn)證的魯攻擊者能力與知識(shí):攻擊者可能具備對(duì)訓(xùn)練數(shù)據(jù)、模型或查詢?cè)L問(wèn)的控制能力,并且可力的攻擊。攻擊者可以操縱訓(xùn)練數(shù)據(jù)[327],包括大規(guī)模模型訓(xùn)練中使用的互聯(lián)織越來(lái)越依賴于可以直接使用或與新數(shù)據(jù)集微調(diào)的預(yù)訓(xùn)練模型來(lái)實(shí)現(xiàn)不同的任的有效性設(shè)定限制的信息論不可能性結(jié)果[124140432]。因此,針對(duì)不同類型的l討論這些攻擊的潛在緩解措施以及現(xiàn)有緩解技術(shù)的局限性模型投毒模型控制標(biāo)簽限制標(biāo)簽限制模型提取模型數(shù)據(jù)這些攻擊根據(jù)以下維度進(jìn)行分類:1)攻擊發(fā)起時(shí)的學(xué)習(xí)方法和學(xué)習(xí)過(guò)程階段,2)攻擊者目標(biāo)和目的,3)攻擊者能力,4)攻擊者對(duì)學(xué)習(xí)過(guò)程的了解。先前的工作[42358]中引入了幾個(gè)平流攻擊分類框架,這里的目標(biāo)是為機(jī)器學(xué)習(xí)上的對(duì)常見的監(jiān)督學(xué)習(xí)技術(shù)包括預(yù)測(cè)標(biāo)簽或類是離散的分類和預(yù)測(cè)標(biāo)簽或響應(yīng)變量是抗性機(jī)器學(xué)習(xí)文獻(xiàn)主要考慮了在訓(xùn)練階段或部署階段可能發(fā)生的針對(duì)人工智能3譯者注:一種機(jī)器學(xué)習(xí)方法,通過(guò)結(jié)合多個(gè)學(xué)習(xí)器(模型)的預(yù)是準(zhǔn)確性、穩(wěn)定性和泛化能力。集成學(xué)習(xí)的核心思想可以概括為“三個(gè)臭皮匠頂個(gè)諸學(xué)習(xí)器的組合,形成一個(gè)強(qiáng)學(xué)習(xí)器。這種組合可以通過(guò)不同的方式實(shí)現(xiàn),例如投5譯者注:支持向量機(jī)(SupportVectorMachine,SVM6譯者注:卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeu聯(lián)邦學(xué)習(xí)中最為普遍[190],客戶端向聚合服務(wù)器發(fā)送本地模型更新,在供應(yīng)鏈線性回歸[179],甚至神經(jīng)網(wǎng)絡(luò)[228260],而模型中毒攻擊則被設(shè)計(jì)用于神經(jīng)網(wǎng)破壞完整性[NISTAML.02]。破壞完整性攻擊是對(duì)PredAI系統(tǒng)的蓄意干擾,迫使中毒攻擊[148]和模型中毒[22,36123]。目標(biāo)中毒試圖破壞一些目標(biāo)隱私泄露[NISTAML.03]。隱私泄露攻擊會(huì)導(dǎo)致PredAI系統(tǒng)意外泄漏受限或?qū)S小半[私”來(lái)涵蓋對(duì)模型機(jī)密性的攻擊(例如,提取模型權(quán)重或架構(gòu)信息的攻擊)和導(dǎo)致違反模型輸出預(yù)期隱私屬性的攻擊(如通過(guò)暴露模型訓(xùn)練數(shù)據(jù))[310]。機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程中的數(shù)據(jù)機(jī)密性可以通過(guò)基于密碼技術(shù)的安全計(jì)算方法[2253288385]來(lái)實(shí)現(xiàn),這些方法確保訓(xùn)練數(shù)據(jù)和模型參數(shù)在訓(xùn)練階段得到保護(hù)。然而,即使是使用強(qiáng)制數(shù)據(jù)機(jī)密性的范式訓(xùn)練的模型也可能容易受到隱私攻擊,即使攻擊者沒(méi)有能力修改訓(xùn)練/測(cè)試數(shù)據(jù)、源代碼或模型參數(shù),對(duì)這些7譯者注:能量延遲攻擊是一種針對(duì)深度學(xué)習(xí)平臺(tái)的可用性攻擊,通過(guò)顯著增加其能耗和/或響等人[358]介紹了一種對(duì)灰盒攻擊進(jìn)行分類的框架。攻擊者可能知道模型架構(gòu)但的方法可以直接應(yīng)用于優(yōu)化。后門中毒攻擊最初是針對(duì)圖像l文本(Text文本是一種流行的模態(tài),所有類型的攻擊都被提出用于文本模型,包括逃避[150]、毒害[82213]和l網(wǎng)絡(luò)安全(Cybersecurity)8:第一次中毒攻擊程序分類[329]。針對(duì)類似數(shù)據(jù)模式的規(guī)避攻擊也被提出:惡意軟件分類素結(jié)合起來(lái)而變得更加復(fù)雜,這使得機(jī)器學(xué)習(xí)模型容易受到對(duì)抗性攻擊許多攻擊,例如針對(duì)醫(yī)療保健和業(yè)務(wù)應(yīng)用程序的中毒可用性攻擊[179],針性[417],但其他論文表明,多模模型本身可能容易同時(shí)受到所有模態(tài)上的攻擊擊者選擇的任意類別的樣本——通常只需要最小的擾動(dòng)[362]。例如,在圖像分型,并通過(guò)后續(xù)方法進(jìn)行了改進(jìn),這些方法生成了具有更小擾動(dòng)的對(duì)抗性示例9譯者注:零階優(yōu)化是一種優(yōu)化方法,它不需要目標(biāo)函數(shù)的梯度信息,僅通過(guò)函數(shù)值來(lái)尋離散優(yōu)化問(wèn)題通常比連續(xù)優(yōu)化問(wèn)題更難解決,因?yàn)殡x散變量的取值空間往往是非凸的、離散優(yōu)化問(wèn)題包括旅行商問(wèn)題、背包問(wèn)題等。解決離散優(yōu)化問(wèn)題的方法包括整數(shù)規(guī)劃、抗性示例轉(zhuǎn)移到目標(biāo)模型之前,在不同模型上生域的機(jī)器學(xué)習(xí)技術(shù)也受到了審查,包括語(yǔ)音識(shí)別[66]、自然語(yǔ)言處理[185]和視導(dǎo)方針[97375]。減輕躲避攻擊的關(guān)鍵威脅的最有希望的方向是對(duì)抗性訓(xùn)練[144232](在訓(xùn)練時(shí)迭代生成并插入帶有正確標(biāo)簽的對(duì)抗性示例經(jīng)過(guò)認(rèn)證的和準(zhǔn)確性之間存在固有的權(quán)衡[374379433]。同樣,模型的魯棒性和公平性保證11譯者注:貝葉斯優(yōu)化是一種基于貝葉斯統(tǒng)計(jì)的優(yōu)化方法,通常用于尋找黑盒函數(shù)的構(gòu)建目標(biāo)函數(shù)的后驗(yàn)分布(通常使用高斯過(guò)程)來(lái)指導(dǎo)優(yōu)化過(guò)程。貝葉斯優(yōu)化包含兩布和采集函數(shù)。后驗(yàn)分布用于估計(jì)目標(biāo)函數(shù)的值,而采集函數(shù)則用于決定下一步應(yīng)該12譯者注:可轉(zhuǎn)移性是指一個(gè)系統(tǒng)、模型或策略在不同環(huán)境或任務(wù)之間轉(zhuǎn)移和適應(yīng)中,可轉(zhuǎn)移性通常涉及到將一個(gè)模型在某個(gè)任務(wù)上學(xué)習(xí)到的知識(shí)應(yīng)用到另一個(gè)相關(guān)任務(wù)率或性能。例如,遷移學(xué)習(xí)就是一種利用可轉(zhuǎn)移性的方法,它通過(guò)將源任務(wù)中學(xué)到的特標(biāo)任務(wù)中,來(lái)加速目標(biāo)任務(wù)的學(xué)習(xí)過(guò)程。在強(qiáng)化學(xué)習(xí)中,可轉(zhuǎn)移性也涉及到策略或價(jià)值Szedegy等人[362]創(chuàng)造了廣泛使用的術(shù)語(yǔ)對(duì)抗性例子。他們考慮了一個(gè)目標(biāo),人[38]考慮了使用具有連續(xù)和可微分判別Szedegy等人[362]則證明了用于圖像分類的lDeepFool是一種針對(duì)“l(fā)2規(guī)范”的無(wú)目標(biāo)逃避攻擊,它使用神經(jīng)網(wǎng)絡(luò)的線是在內(nèi)存受限的場(chǎng)景中,是一種高效的優(yōu)化方法。原理基于擬牛頓法的改進(jìn):L-B展示了如何構(gòu)建小的普遍擾動(dòng)(相對(duì)于某些規(guī)范這些擾動(dòng)可以添加到大多數(shù)人對(duì)面部識(shí)別系統(tǒng)的攻擊[332]。這種攻擊可以通過(guò)打印一副眼鏡架來(lái)實(shí)現(xiàn),這會(huì)誤導(dǎo)面部識(shí)別系統(tǒng)逃避檢測(cè)或冒充另一個(gè)人。Eykholt等人[122]提出了一種l文本:賈和梁[185]開發(fā)了一種生成對(duì)抗性文本示例的方法。這項(xiàng)開創(chuàng)性工),行的對(duì)抗示例。Pierazzi等人[214譯者注:一種針對(duì)大型語(yǔ)言模型(LLMs)的越獄攻擊技術(shù),主要利用A全措施。ASCII藝術(shù)是一種通過(guò)字符解析語(yǔ)義,而無(wú)法識(shí)別基于視覺的文本排列,攻擊者可以利用這一點(diǎn)將敏感內(nèi)容偽裝種流行的方法是零階優(yōu)化,它在不顯式計(jì)算導(dǎo)數(shù)的情況下估計(jì)模型的梯度[80173]。其他優(yōu)化技術(shù)包括離散優(yōu)化[254]、自然進(jìn)化策略[172]和隨機(jī)游在限制性威脅模型下生成對(duì)抗性攻擊的另一種方法涉及轉(zhuǎn)移在不同機(jī)器學(xué)習(xí)模所不同。例如,Papernot等人[282283]使用對(duì)目標(biāo)模型的基于分?jǐn)?shù)的查詢來(lái)訓(xùn)練替代模型,而幾篇論文在沒(méi)有明確查詢目標(biāo)模型的情況下訓(xùn)練了一組模型現(xiàn)實(shí)世界中發(fā)生的圖像轉(zhuǎn)換,例如角度和視Apruzzese等人[17]報(bào)告的另一個(gè)真實(shí)世界逃避攻擊的案例研究是對(duì)商業(yè)釣魚網(wǎng)頁(yè)檢測(cè)器的攻擊。ML網(wǎng)絡(luò)釣魚檢測(cè)器是多個(gè)模型的集成,這些模型分析圖像研究人員在惡意軟件分類中展示的其他逃避攻擊示例在MITRE人工智能系統(tǒng)對(duì)征,這些特征在計(jì)算機(jī)視覺領(lǐng)域與人類感知不一致[174]。在過(guò)去的幾年里,許樣困難[373]。因此,這種減輕對(duì)抗性例子的方向與設(shè)計(jì)防御同樣具有挑戰(zhàn)一種新技術(shù),即反向傳播可微分近似(BackwardPassDifferentiablelTramèr等人[375]描述了一種針對(duì)擬議防御設(shè)計(jì)自15譯者注:指的是惡意程序、病毒或攻擊在真實(shí)世界中傳播,而不是被限制在實(shí)驗(yàn)環(huán)17譯者注:神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的一個(gè)關(guān)鍵過(guò)程,用于計(jì)算梯度,以便更新模型參數(shù)。混模型具有更多的語(yǔ)義意義[379],但這種好處通常是以降低模型在干凈數(shù)據(jù)預(yù)測(cè),其確切數(shù)量取決于潛在擾動(dòng)的大小或訓(xùn)練數(shù)據(jù)和模型的特征等因素。經(jīng)網(wǎng)絡(luò)的驗(yàn)證方法[136]。這些方法已在后續(xù)驗(yàn)證系統(tǒng)中擴(kuò)展并擴(kuò)展到更大的網(wǎng)絡(luò),如DeepPoly[346]、ReluVal[394]和快速幾何學(xué)習(xí)模型仍然是一個(gè)懸而未決的問(wèn)題。有關(guān)這些權(quán)衡的進(jìn)一步討論,請(qǐng)參閱第業(yè)應(yīng)用中也受到了更多的關(guān)注[199]。它們甚至可以大規(guī)模地進(jìn)行編排,以便財(cái)力有限的對(duì)手可以控制用于模型訓(xùn)練的一小部分公共毒、模型中毒、標(biāo)簽控制、源代碼控制和測(cè)試數(shù)據(jù)控制導(dǎo)致了中毒攻擊的幾限性。本文檔中中毒攻擊的分類受到Cinà等人[91]開發(fā)的框架的啟發(fā),其中包2.3.1.可用性中毒[NISTAML.013]網(wǎng)絡(luò)安全應(yīng)用程序中發(fā)現(xiàn)的第一個(gè)中毒攻擊是針對(duì)蠕蟲簽名生成和垃圾郵件分效防止其使用。Perdisci等人[291]生成帶有偽造不變量的可疑流量,以誤導(dǎo)模型生成中毒樣本并將其轉(zhuǎn)移到目標(biāo)模型[抗目標(biāo),神經(jīng)網(wǎng)絡(luò)分類器引入了清潔標(biāo)簽可用性攻擊[128]。清潔標(biāo)簽中毒的另一種方法是使用梯度對(duì)齊并最小限度地修改訓(xùn)練針對(duì)標(biāo)簽翻轉(zhuǎn)攻擊設(shè)計(jì)的標(biāo)簽清潔方法。Stein異常檢測(cè)方法來(lái)識(shí)別中毒樣本。聚類方法也被用于檢測(cè)中毒樣本[20363]。效數(shù)據(jù)凈化方法[384]。一旦經(jīng)過(guò)凈化,數(shù)據(jù)集可能會(huì)受到來(lái)源和完整性認(rèn)[109179]。Rosenfeld等人[314]提出在訓(xùn)練過(guò)程中使用隨機(jī)平滑來(lái)添加噪中創(chuàng)建中毒樣本,其中預(yù)訓(xùn)練模型在新數(shù)據(jù)上進(jìn)行微調(diào)。Suciu等人[358]設(shè)計(jì)中毒樣本添加到每個(gè)小批量訓(xùn)練中。Shafahi等人[330]設(shè)計(jì)了一種基于特征碰撞的優(yōu)化程序,以生成干凈的標(biāo)簽定向中毒,用于微調(diào)和端到端學(xué)習(xí)。這為攻擊轉(zhuǎn)移提供了更好的優(yōu)勢(shì)。MetaPoison[166]使用元學(xué)習(xí)算法來(lái)優(yōu)化中毒只針對(duì)連續(xù)的圖像數(shù)據(jù)集進(jìn)行了測(cè)試(StingRay除外,它需要對(duì)訓(xùn)練集的很大推廣到亞群中的所有樣本,并且需要對(duì)ML模型的最少了半監(jiān)督學(xué)習(xí)算法[53]也引入了有針對(duì)性的中毒攻擊,如MixMatch[34]、21譯者注:這是一種針對(duì)機(jī)器學(xué)習(xí)模型的攻擊方式,攻擊者通過(guò)向訓(xùn)練數(shù)據(jù)中添加惡意樣特定子群體上的性能下降。這種攻擊特別適用于數(shù)據(jù)集較大且多樣化的場(chǎng)景,如金融和緩解措施。眾所周知,有針對(duì)性的中毒襲擊很難防御。Jagielski等人[180]表數(shù)據(jù)凈化和驗(yàn)證方法,以及使用數(shù)據(jù)集來(lái)源和完整性證明機(jī)制[267]。Ma等人后門中毒攻擊是指導(dǎo)致目標(biāo)模型對(duì)包含特定后門模式或觸發(fā)器的樣本進(jìn)行錯(cuò)誤分類的中毒攻擊。2017年,顧等人[14Chen等人[84]引入了后門攻擊,其中觸發(fā)器被混合到訓(xùn)練數(shù)據(jù)中。后續(xù)工作引入了干凈標(biāo)簽后門攻擊的概念[380],其中對(duì)手無(wú)法更改中毒示例的標(biāo)簽。清潔的后門攻擊被設(shè)計(jì)為即使在使用干凈數(shù)據(jù)對(duì)最后幾層進(jìn)行模型微調(diào)的情況下也能生存[420]。后門生成網(wǎng)絡(luò)(BaN)[322]是一種動(dòng)態(tài)后門攻擊,其中觸發(fā)器在觸發(fā)器隱藏在訓(xùn)練數(shù)據(jù)中[214],并引入了一種干凈的標(biāo)簽攻擊,該攻擊使用圖像上的自然反射作為后門觸發(fā)器[223]。Wenger等人[404]通過(guò)使用物理對(duì)象作22譯者注:在某些條件下,證明了某些類型的攻擊無(wú)法被防御。這意味著即使采取了現(xiàn)有單詞和句子級(jí)別引入了語(yǔ)義保留后門,用于情感分析和神經(jīng)機(jī)器翻譯應(yīng)用。展示了如何利用人工智能可解釋性技術(shù)生成針對(duì)惡意軟件分類器的小觸發(fā)攻擊。例如,潛在特征空間[157293378]中的異常檢測(cè)對(duì)于用于計(jì)算機(jī)視覺中的固定位置。Wang等人[390]的NeuralCleanse開發(fā)了第一種觸發(fā)重建方法,并使用優(yōu)化來(lái)確定最有可能對(duì)測(cè)試樣本進(jìn)行可靠錯(cuò)誤分類的后門模式。擬(ABS它刺激多個(gè)神經(jīng)元并測(cè)量激活情況以重建觸發(fā)模式。Khadd人[193]開發(fā)了一種新的用于檢測(cè)后門攻擊的原語(yǔ),以及一種相應(yīng)的具有理法來(lái)確定隨后用于異常檢測(cè)的干凈模型和后門模型之間的不同特征。DeepInspect[78]使用條件生成模型來(lái)學(xué)習(xí)觸發(fā)模式的概率分布,并執(zhí)行模表格數(shù)據(jù)和NLP。一旦檢測(cè)到后門,可以通過(guò)修剪[407]、重新訓(xùn)練l認(rèn)證防御:文獻(xiàn)中提出了幾種實(shí)現(xiàn)數(shù)據(jù)中毒攻擊認(rèn)證防御的方法。訓(xùn)練數(shù)據(jù)打包與向訓(xùn)練和測(cè)試樣本中添加噪聲相結(jié)合。深度分區(qū)聚合[209]和深度有限聚合[396]是經(jīng)過(guò)認(rèn)證的防御措施,它們將訓(xùn)練數(shù)據(jù)劃分為不相交的子集,并在每個(gè)分區(qū)上訓(xùn)練集成方法,以減少中毒樣本的影響。最近,術(shù)(例如光譜簽名[378]和激活聚類[76])對(duì)惡意軟件分類器上的干凈標(biāo)簽后門絕對(duì)偏差(MAD)而不是方差來(lái)計(jì)算主成分,并使用基于拉普拉斯分布而不是高中毒取證[331]是一種用于根本原因分析的技術(shù),可以識(shí)中式學(xué)習(xí)中,TrojNN[222]對(duì)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)的觸發(fā)器進(jìn)行逆向工程,然后通所有樣本進(jìn)行錯(cuò)誤分類[23,35360392]。如果受感染的客戶端不定期參加培被惡意代碼毒害的供應(yīng)鏈場(chǎng)景中,也可能發(fā)生模型中毒攻擊。DropoutAttack[425]是最近的一次供應(yīng)鏈攻擊,它表明了操縱神經(jīng)網(wǎng)絡(luò)訓(xùn)練中使用的隨生成優(yōu)化問(wèn)題添加約束來(lái)繞過(guò)這些防御[2312335]。梯度裁剪和差分隱私有可能器算法,使他們能夠發(fā)送其他惡意電子郵件而不被發(fā)告了VirusTotal威脅情報(bào)服務(wù)的中最近,已經(jīng)為二元和多類神經(jīng)網(wǎng)絡(luò)分類器設(shè)計(jì)了數(shù)據(jù)重建攻擊[50152]。使用成員推斷攻擊(MEMBERSHIP-INFIENCEATTACK)23,對(duì)手可23譯者注:一種針對(duì)機(jī)器學(xué)習(xí)模型的攻擊,其目的是推斷出給定的數(shù)據(jù)記錄是否包含在訓(xùn)攻擊屬于更廣泛的針對(duì)機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)的網(wǎng)絡(luò)攻擊,特別是那些旨在推斷訓(xùn)練數(shù)據(jù)信息響機(jī)密性和隱私。成員推斷攻擊可能被視為針對(duì)機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)的網(wǎng)絡(luò)攻擊的一部分,那些旨在推斷訓(xùn)練數(shù)據(jù)信息的攻擊。攻擊的目標(biāo)是確定特定的數(shù)據(jù)記錄是否包含在用于訓(xùn)模型的數(shù)據(jù)集中。這種攻擊的潛在后果可能因不同的考慮因素而異,包括機(jī)器學(xué)習(xí)模型集。成員推斷攻擊可能會(huì)導(dǎo)致安全和隱私問(wèn)題,特別是在目標(biāo)模型是基于敏感信息進(jìn)如,在醫(yī)療研究中,如果攻擊者能夠確定某人的數(shù)據(jù)是否包含在訓(xùn)練數(shù)據(jù)中,這可能會(huì)對(duì)數(shù)據(jù)重建攻擊具有從發(fā)布的聚合信息中恢復(fù)個(gè)人數(shù)據(jù)的能力。Dinur和Nissim[110]是第一個(gè)引入從線性統(tǒng)計(jì)中恢復(fù)用戶數(shù)據(jù)的重建攻擊的人。他們最項(xiàng)式數(shù)量的查詢進(jìn)行重建[116]。Dwork等人[114]對(duì)隱私攻擊(包括重建攻擊)24在這種情況下,隱私侵犯描述了有關(guān)ML模型的機(jī)密信息的丟失號(hào)預(yù)測(cè)和聚類標(biāo)記構(gòu)建了兩個(gè)學(xué)習(xí)任務(wù),其中需要記憶才能實(shí)現(xiàn)高精度學(xué)習(xí)。Feldman和Zhang使用影響估計(jì)方法實(shí)證評(píng)估了記憶對(duì)泛化的益處[127]。第此外,成員推斷可以用作發(fā)起數(shù)據(jù)提取攻擊的構(gòu)建塊[59,63]。在成員推斷中,攻擊者的目標(biāo)是確定特定記錄或數(shù)據(jù)樣本是否是用于統(tǒng)計(jì)或機(jī)器學(xué)習(xí)算法的訓(xùn)練數(shù)據(jù)集的一部分。Homer等人[162]引入了這些攻擊,用于在名稱追蹤攻擊下析了魯棒的跟蹤攻擊[115]。在過(guò)去的五年里,文獻(xiàn)中使用了術(shù)語(yǔ)成員推斷來(lái)攻[54,89208342421422]。與AML中的其他攻擊類似,成員推斷可以在白盒設(shè)置[208264317]中執(zhí)行,其中攻擊者知道模型的架構(gòu)和參數(shù),但大多數(shù)攻擊都是為黑盒設(shè)置開發(fā)的,其中對(duì)手對(duì)訓(xùn)練好的ML模型生該游戲中,攻擊者與挑戰(zhàn)者互動(dòng),并需要確定目標(biāo)樣本是否用于訓(xùn)練查詢的ML模型[183321422]。在掛載成員推斷攻擊的技術(shù)方面,Yeom等人[422]的基于損是通過(guò)在與原始模型相同的任務(wù)上訓(xùn)練數(shù)千個(gè)在屬性推理攻擊(也稱為分布推理)中,攻屬性推斷攻擊由Ateniese等人[19]首次提出,并被形式化為一種區(qū)分游戲Machines)[19]、前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeur25譯者注:一種統(tǒng)計(jì)模型,用于描述由隱藏狀態(tài)序列生成的觀測(cè)序列。它在語(yǔ)音識(shí)別、自437]、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks)[361]、聯(lián)邦學(xué)習(xí)(FederatedLearning)[240]、生成對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarial等人[233]和Chaudhuri等人[74]表明,絡(luò)中執(zhí)行的操作的數(shù)學(xué)公式的直接提取,這允許對(duì)手通過(guò)代數(shù)計(jì)算模型權(quán)重[5817737]。第二種技術(shù)是使用學(xué)習(xí)方法進(jìn)行提取。例如,主動(dòng)學(xué)習(xí)[70]可以將詢數(shù)量的自適應(yīng)策略[280]。第三種技術(shù)使用側(cè)通道信息進(jìn)行模型提取。Batina),制了有權(quán)訪問(wèn)算法輸出的攻擊者確定特定記錄是否包含在數(shù)據(jù)集中的概率。DP即意味著對(duì)手在發(fā)起成員推斷攻擊方面成功的上限。Thudi等人[369]得出了成用之間實(shí)現(xiàn)權(quán)衡,這通常是根據(jù)ML模型的準(zhǔn)確性人[181]引入了隱私審計(jì),目的是通過(guò)經(jīng)驗(yàn)測(cè)量算法的實(shí)際隱私保證,并通過(guò)發(fā)Steinke等人[355]使用多個(gè)隨機(jī)數(shù)據(jù)金絲雀,而不會(huì)產(chǎn)生群體隱私的成本;Andrew等人[10]使用多個(gè)隨機(jī)客戶端金絲雀和余弦相似性測(cè)試統(tǒng)計(jì)來(lái)審計(jì)用戶學(xué)習(xí)部署[69274]。一種完全不同的可能減輕用戶數(shù)據(jù)隱私泄露的方法是執(zhí)行機(jī)現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)要么是精確的(即從頭開始或從某個(gè)檢查點(diǎn)重新訓(xùn)27譯者注:GANs是一種深度學(xué)習(xí)模型,由生成生成器負(fù)責(zé)生成逼真的數(shù)據(jù),而判別器則負(fù)責(zé)區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù)。通過(guò)這種對(duì)抗訓(xùn)28譯者注:GPT是一種基于變換器(Transformer)架構(gòu)29譯者注:擴(kuò)散模型是一種生成模型,通過(guò)模擬擴(kuò)散過(guò)程來(lái)生成數(shù)據(jù)。它首先將數(shù)據(jù)逐漸模型投毒模型投毒直接提示攻擊增加計(jì)算(IncreasedComputation)直接提示攻擊(IndirectPrompt針對(duì)性投毒(Targeted/直接提示攻擊直接提示攻擊直接提示攻擊訓(xùn)練數(shù)據(jù)提取(TrainingDataExtraction)模型投毒模型數(shù)據(jù)從用戶交互中泄露數(shù)據(jù)UserInteraction)Tuning)原始互聯(lián)網(wǎng)數(shù)據(jù)低質(zhì)量/大量原始互聯(lián)網(wǎng)數(shù)據(jù)低質(zhì)量/大量語(yǔ)言建模預(yù)測(cè)下一個(gè)標(biāo)記人類書寫的比較人類提示低質(zhì)量/大量強(qiáng)化學(xué)習(xí)記低數(shù)量/高質(zhì)量二元分類根據(jù)偏好預(yù)測(cè)獎(jiǎng)勵(lì)二元分類根據(jù)偏好預(yù)測(cè)獎(jiǎng)勵(lì)生成最大化獎(jiǎng)勵(lì)的標(biāo)預(yù)測(cè)下一個(gè)標(biāo)記RM模型(未發(fā)布)基礎(chǔ)模型RLHFRM模型(未發(fā)布)基礎(chǔ)模型RLHF模型能與許多不同應(yīng)用相關(guān)的數(shù)據(jù)中編碼一般模式[311]。基礎(chǔ)模型中使用的規(guī)模的微調(diào)(SFT)和從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)等技術(shù),以更好地將基礎(chǔ)模型與預(yù)措施以后可能會(huì)被尋求恢復(fù)或重新啟用潛在有害功能的攻擊者使用AML技術(shù)范圍定義問(wèn)題選擇選擇模型范圍定義問(wèn)題選擇選擇模型增強(qiáng)并構(gòu)建基于LLM的應(yīng)用優(yōu)化并部署模型用于推理應(yīng)用集成適配與對(duì)齊模型提示工程微調(diào)與人類反饋對(duì)齊評(píng)估外部數(shù)據(jù)源(例如:文檔、數(shù)據(jù)外部數(shù)據(jù)源(例如:文檔、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò))外部應(yīng)用外部應(yīng)用編排庫(kù)觸發(fā)API調(diào)用生成電子郵件觸發(fā)API調(diào)用生成電子郵件執(zhí)行計(jì)算行為。例如,攻擊者可以注入一個(gè)覆蓋系統(tǒng)提示30的sources:在檢索-捕獲生成(RAG)應(yīng)用程序、聊天機(jī)器人和其他應(yīng)用程序30譯者注:系統(tǒng)提示是模型的默認(rèn)指令或約束,用于限制其行為。攻擊者通過(guò)覆蓋這些提示31譯者注:攻擊者通過(guò)某種方式突破模型的限制,使其能夠執(zhí)行超出設(shè)計(jì)范圍的操作。這種32譯者注:提示抽取是一種基于提示(prompt)的信息抽取方法,言模型(PLMs)從文本中提取目標(biāo)信息。這種方法利用了預(yù)訓(xùn)SystemUserSystemUserAssistantUser上下文ACME在2020年第一季度的凈利潤(rùn)是多少?上下文輸入25億美元,較2019年第一季度的36輸入他們的經(jīng)營(yíng)活動(dòng)現(xiàn)金流是多Assistantdoc1:ACME公布第一季度財(cái)報(bào)...Assistant的財(cái)務(wù)結(jié)果...(例如:向量數(shù)據(jù)庫(kù))(例如:向量數(shù)據(jù)庫(kù))在這種情況下,技術(shù)限制是指應(yīng)用于GenAI系統(tǒng)的防御,例如使用系統(tǒng)提示或RLHF進(jìn)行安全對(duì)齊。雖然具體的技術(shù)限制因模型而異,但規(guī)避此類防御的技術(shù)據(jù)和模型供應(yīng)鏈、軟件、網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng)[17370]。雖然所有這些供應(yīng)鏈風(fēng)險(xiǎn)在語(yǔ)的查詢[389]。這些攻擊可能是實(shí)用的——只需要總數(shù)據(jù)集中相對(duì)較小的一部發(fā)現(xiàn),即使下游用戶對(duì)模型進(jìn)行微調(diào)以供自己使用[201]或應(yīng)用額外的安全訓(xùn)練33譯者注:一種隱蔽且針對(duì)性強(qiáng)的數(shù)據(jù)投毒攻擊,攻擊者通過(guò)操縱訓(xùn)練數(shù)據(jù),使得模型在特出錯(cuò)誤行為。這種攻擊在網(wǎng)絡(luò)安全、生成式人工智能和自動(dòng)駕駛等領(lǐng)域具有嚴(yán)重u"你是一個(gè)友好且有幫助的助手,確保輸出內(nèi)容始終友好且無(wú)害。"n如果模型沒(méi)有足夠的防御機(jī)制,它可能會(huì)直接執(zhí)行攻擊者的指令,忽略系統(tǒng)提度技術(shù)[11320]。通用對(duì)抗觸發(fā)器是針對(duì)生成模型的一類特殊的基于梯度的如何,都能產(chǎn)生所需的肯定響應(yīng)[38448]。這些通用觸發(fā)器轉(zhuǎn)移到其他模型基于泛化的攻擊識(shí)別出不在模型安全訓(xùn)練分布范圍內(nèi)但仍在其能力訓(xùn)練分34譯者注:負(fù)責(zé)評(píng)估攻擊者模型和目標(biāo)模型之間的交互,判斷攻擊是否成功,以及系統(tǒng)是Crescendo攻擊35[316]引入了一種與模型進(jìn)行多輪交互(multi-turn的敏感信息完成文本輸入[229]。GenAI語(yǔ)言模型中敏感信息的逐字記憶其中創(chuàng)建了TextRevealer等工具來(lái)從基于變換器的文本分類器中重建文本[434],GenAI模型有時(shí)可以簡(jiǎn)預(yù)訓(xùn)練(Pre-Training)預(yù)訓(xùn)練(Pre-Training)3后訓(xùn)練(Post-Training)7能力改進(jìn)(CapabilityImprovements)4評(píng)估(Evaluation)12(BeforeTraining)微調(diào)編輯遺忘能力評(píng)估安全保障評(píng)估可解釋性設(shè)置基礎(chǔ)設(shè)施微調(diào)編輯遺忘能力評(píng)估安全保障評(píng)估可解釋性AI工具使用AI迭代模型暴露收集數(shù)據(jù)處理數(shù)據(jù)迭代模型暴露模型暴露模型暴露Iteration模型暴露模型暴露 內(nèi)部部署(InternalDeployment)廣泛查詢?cè)L問(wèn)(BroadQueryAccess)6廣泛查詢?cè)L問(wèn)(BroadQueryAccess)5安全改進(jìn)5訪問(wèn)控制用戶訪問(wèn)控制用戶AIAPI安全約束約束輸入/輸出修改輸入/輸出修改據(jù)數(shù)具工AI據(jù)數(shù)具工AI模型暴露訪問(wèn)控制額外的文本[356]。直觀地說(shuō),容量更大的較大模型更容易進(jìn)行精確重建[56]。和多標(biāo)簽分類器從文本到圖像模型重建提示,以竊取主題和提示修飾符[339]。中的所有句子)足以在某些模型和數(shù)據(jù)集對(duì)中提取超過(guò)60%的提示[439]。在某在AI模型或系統(tǒng)的整個(gè)部署生命周期中,直接快速注射來(lái)增加訪問(wèn)有害模型功能的難度,包括預(yù)訓(xùn)練[197]或后訓(xùn)練[147445]的安全訓(xùn)練、對(duì)抗性訓(xùn)練方法[340]以及其他使越獄攻擊更加困難括廣泛的自動(dòng)化漏洞評(píng)估[72107324],以及有針對(duì)性的專家紅隊(duì)[381]和漏如果開發(fā)了新的攻擊,在訓(xùn)練后收集了額外的數(shù)據(jù),或者提高了模型能力,其他方式試圖將系統(tǒng)指令與用戶提示明確分開[n檢測(cè)并終止有害的交互。與其阻止模型生成有害內(nèi)容,AI系統(tǒng)或許能些研究方向探討了限制生成內(nèi)容的空間,以實(shí)現(xiàn)確定性的保障措施。[306]。早期的研究表明,基于可解釋性的技術(shù)也可用于檢測(cè)異常輸入別并響應(yīng)嘗試和成功的直接提示注入攻擊的實(shí)例[266]。如果用戶的意39譯者注:指利用模型對(duì)輸入的困惑度(即模型對(duì)輸入的不確定程度)來(lái)識(shí)別異常輸入。困外,限制公共信息[252266]和工件[249]的發(fā)布以及限制用戶可用的模型查詢總數(shù)[251]可能會(huì)使攻擊更具挑戰(zhàn)性。這些技術(shù)在限制積極用例潛在的快速注入緩解措施并不依賴于直接提高人工智能系統(tǒng)對(duì)此類攻擊的魯棒即能夠訪問(wèn)敏感數(shù)據(jù)或采取不必要行動(dòng)的模型可能會(huì)泄露這些數(shù)據(jù)或采取這些行動(dòng)[266]。此外,開發(fā)人員或部署人員可能會(huì)使用其他技術(shù)緩解措施來(lái)減少通l訓(xùn)練數(shù)據(jù)凈化。可以對(duì)模型訓(xùn)練數(shù)據(jù)進(jìn)行凈化,不同優(yōu)缺點(diǎn)的技術(shù)[194],但沒(méi)有一種水印技術(shù)在所有情況下都是普遍有效和魯棒的。許多針對(duì)水印的強(qiáng)大攻擊已經(jīng)開發(fā)出來(lái),成功率很高[188319]。3.4.1.可用性攻擊[NISTAML.016]l耗時(shí)的后臺(tái)任務(wù)。[NISTAML.017]間接注入的提示可互聯(lián)網(wǎng)連接聊天機(jī)器人的搜索API)。這有選擇地解除了服務(wù)的關(guān)鍵組件<|endoftext|>標(biāo)記開始每個(gè)句子,迫使模型返回空擊者指定的任務(wù),而不是(或除了)其預(yù)期的、用戶提供的40譯者注:“神經(jīng)”暗示了可能利用了類神經(jīng)網(wǎng)絡(luò)等人工智能相關(guān)算法化,這里的優(yōu)化可能是對(duì)生成觸發(fā)器的參數(shù)調(diào)整、生成邏輯優(yōu)化等,使得生成的執(zhí)行觸為Phantom[75]的通用優(yōu)化框架展示了如何精攻擊者可以使用間接提示注入攻擊來(lái)危害GenAI系統(tǒng)或其主要用戶的隱私一部分集成的模型可能會(huì)被提示將某些電子郵件轉(zhuǎn)發(fā)到攻擊者控制的收件箱[146]。研究人員已經(jīng)發(fā)現(xiàn)了注入攻擊,這種攻擊可以通過(guò)用敏感數(shù)據(jù)查露一條信息(在這種情況下是他們的名字然后模型將該信息泄漏給攻擊模型[296]和訓(xùn)練模型以遵循提示中的分層信任光燈[160206]或指示模型忽略不可信數(shù)據(jù)中的指令[206]。過(guò)定義良好的接口與潛在的不可信數(shù)據(jù)源交互[410]。此外,公共教育工作可以讓模型用戶和應(yīng)用程序設(shè)計(jì)者了解間接快速注入的將結(jié)果作為下一個(gè)提示的一部分提供給模型的軟件系統(tǒng)[151155393]。代理可能配備使用網(wǎng)絡(luò)瀏覽或代碼解釋器等工具,并可能具有內(nèi)存和/或規(guī)劃功能等附加由于代理依賴于GenAI系統(tǒng)來(lái)計(jì)劃和執(zhí)行其行動(dòng),弱性[12430],并提出干預(yù)措施來(lái)管理代理帶來(lái)的安全風(fēng)務(wù)。此外,Garak[106]和PyRIT[364]等開源工具旨在幫助開發(fā)人員識(shí)別模型中AML攻擊的漏洞。最后,最近提出了幾個(gè)忘人工智能系統(tǒng)的可信度取決于其特征的所有屬性[274]。在可解釋性和對(duì)抗性穩(wěn)健性之間[176245]以及隱私和公平性之間[178]存在權(quán)衡。例如,僅針對(duì)準(zhǔn)確性進(jìn)行優(yōu)化的人工智能系統(tǒng)在對(duì)抗魯棒性和公平性方面往往表現(xiàn)不佳Pareto改進(jìn)Pareto前沿(Paretofront)Pareto無(wú)效可行區(qū)域(feasibleregion)對(duì)抗魯棒性(adversarialrobust法是基于多目標(biāo)優(yōu)化和帕累托優(yōu)化41的概念[285286]。在大多數(shù)情況下,沒(méi)有數(shù)41譯者注:帕累托優(yōu)化是一種多目標(biāo)優(yōu)化方法,用于在多個(gè)沖突的目標(biāo)之間找到最佳的權(quán)衡方案帕累托最優(yōu)性(ParetoOptimality)的概念,該概念由意大利經(jīng)濟(jì)學(xué)家維爾弗雷決方案(即帕累托改進(jìn)43)可以在不損害另一個(gè)目標(biāo)的情況下顯著幫助實(shí)現(xiàn)一個(gè)智能系統(tǒng)、用例和人工智能技術(shù)的其他相關(guān)影響來(lái)決定優(yōu)先考慮哪些屬性盡管有保護(hù)機(jī)器學(xué)習(xí)部署的實(shí)踐指南[69274]和緩解對(duì)抗性機(jī)器學(xué)習(xí)攻擊的現(xiàn)有丟失任何信息或觸發(fā)不利行為之前應(yīng)對(duì)攻擊提供機(jī)會(huì)。然而,Tramèr[373]已經(jīng)43譯者注:帕累托改進(jìn)是指在不使至少一這方面有一些有前景的發(fā)展[97327],但需要更多的研究和鼓勵(lì)來(lái)促進(jìn)標(biāo)準(zhǔn)化基定義,并產(chǎn)生了難以緩解的新風(fēng)險(xiǎn)[57]。最近發(fā)布的開源數(shù)據(jù)中毒工具[241]增證,正如國(guó)家安全委員會(huì)關(guān)于人工智能的最終報(bào)告所建議的那樣[267]。穩(wěn)健的生成擴(kuò)散模型等非常大的模型,這些模型正成為攻擊的目標(biāo)可以通過(guò)安全訓(xùn)練持續(xù)存在,并由攻擊者按需觸發(fā)[170],因此人們對(duì)利用故意織和研究人員可能無(wú)法像審計(jì)開源軟件那樣審計(jì)和識(shí)別編碼到模型權(quán)重中的漏賴人工智能編碼助理建議的軟件工程師可能會(huì)產(chǎn)生不太安全的代碼[290,294,的重要性。DARPA和NIST還聯(lián)合創(chuàng)建了TrojAI,通過(guò)開發(fā)檢測(cè)和調(diào)查這些攻擊304,435]。然而,實(shí)踐中出現(xiàn)的新證據(jù)表明,不同模態(tài)之間的信息冗余并不一受益,以提高對(duì)單模態(tài)攻擊的魯棒性[417]。如果沒(méi)有這樣的努力,單模態(tài)攻擊計(jì)算精度降低導(dǎo)致的誤差放大對(duì)量化模型的對(duì)抗魯棒性產(chǎn)生了不利影響。雖然充分研究。部署此類模型的組織應(yīng)持續(xù)監(jiān)控其行為。最近的結(jié)果[118]表明,廣相關(guān)的風(fēng)險(xiǎn)的初步公開指南草案,包括通過(guò)部署前評(píng)估。[275]NIST[273]和Barrett等人[28]還為生成式人工智能系統(tǒng)開發(fā)了風(fēng)險(xiǎn)簡(jiǎn)介,這些系統(tǒng)映射到NIST人工智能RMF[274],可以幫助模包括基于模型的檢測(cè)無(wú)法防止所有不允許的輸出[140],并且發(fā)現(xiàn),只要模型有情況下將信任委托給模型相關(guān)的風(fēng)險(xiǎn)的組織可能需要考慮對(duì)抗性測(cè)試之外的做是如何將對(duì)抗性機(jī)器學(xué)習(xí)攻擊的考慮與其他所需人工智能系統(tǒng)特征的定義和過(guò)例如人工智能安全[275]或?qū)崿F(xiàn)值得信賴的人工智能系統(tǒng)的其他特征[274]。AML確地將AML攻擊和緩解措施與實(shí)現(xiàn)這些目標(biāo)和管理人工智能系統(tǒng)風(fēng)險(xiǎn)的過(guò)程聯(lián)/abs/1607.00133.doi:10.48550/arXiv.1607.00/abs/2301.02344,arXiv:2301.02342021。網(wǎng)址:/document/9581207,doi:10.10/docs/model-cards-and-prompt-formats/llama-guard-3/./docs/model-cards-and-prompt-formats/prompt-guard/.NeurIPS,2018年。網(wǎng)址:/abs/1/abs/2308.14132,arXiv:2308.1413/abs/2302.03098,arXiv:2302.0309/abs/2404.02151,arXiv:2404.0215/production/images/Mod/anthropics/prompt-eng-interactive-tutorial,2024.訪問(wèn)時(shí)/news/model-safety-b[17]GiovanniApruzzese、HyrumSAnderson、IEEE,2023年。網(wǎng)址:https://arx[19]GiuseppeAteniese、LuigiV.MancDomenicoVitali和GiovanniFeli的安全感:繞過(guò)防御,以對(duì)抗性的例子。JenniferG.Dy和AndreasKrause,編輯,http://proceedings.mlr.press/v80/athalye18a.htmhttp://proceedings.mlr.press/v108/bagdasaryan20a.ht夫。如何后門聯(lián)邦學(xué)習(xí)。在AISTATS。Phttps://proceedings.mlr.press/v108/bagdasaryan20a.h2024年。網(wǎng)址:/abs/2405.05175,a[25]MariekeBak、VinceIstvanMadaiTh.Mayrhofer和StuartMcL/articles/10.3389/fgene.2022.929453.doi:10./forum?id=Yi2DZTb習(xí):調(diào)查和分類,2017。doi:10.485克利分校通用人工智能系統(tǒng)(GPAIS)和基礎(chǔ)模型的人工智能風(fēng)險(xiǎn)管理標(biāo)準(zhǔn)簡(jiǎn)介。加州大學(xué)伯克利分校長(zhǎng)期網(wǎng)絡(luò)安全中心,2023年。input-and-feedback-ai-risk-management-standards-profile-for-increasingly-multi-purpose-or-general-purpose-ai/.doi:10.48550/ARXIV.2206.08966.側(cè)通道對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行逆向工程。2019年,美國(guó)證券交易委員會(huì)第28屆USENIX/conference/usenixsecurity19/presentation/bat[30]KhaledBayoudh、Ra2939-2970,2022年8月。doi:10.1007/s00371-021-02166-[31]NoraBelrose、ZachFurman、LoganSMcKinney、StellaBiderman和JacobStei的預(yù)測(cè)。arXiv預(yù)印本arXiv:2303.0/abs/2303.08112,doi:10.48550/arXiv.2303.081/doi/10.1145/3645088,doi:10.1145/36450[33]JamieBernardi、Gabri/abs/2405.10295,arXiv:2405.10292019年。網(wǎng)址:http://papers.nips.cc/paper/8749-mixmaapproach-to-semi-supervised-learning.pdf,doi:10.48550/arXiv.240.5.10https://proceedings.mlr.press/v97/bhagoji19a.ht址:/CorpusID:12680508.林格,2013年。doi:10.1007/978-3-642/abs/1206.6389,doi:10.48550/arXiv.1206.6389。計(jì)算機(jī)學(xué)會(huì)電話:10.1145/2666652.2/10.1016%2Fj.patcog.2018.07.doi:10.1016/j.patcog.[43]PevaBlanchard,ElMahdiElMhMachineLearningwithAdversaries:ByzantineTolerantGradientDescent.InNeurIPS,2017.URL:https://papers.nips.cc/paper_files/paper/2017/file/f4b9ec30ad9f68f89b2[44]RishiBommasani,KevinKlymanXiong,NestorMaslej,andPercyLiang.Thefoundationmodeltranspaindexv1.1:May2024,2024.URL:https://arxiv.arXiv:2407.12929,doi:10.48550/arXiv.2407.1[45]LucasBourtoule,VarunChandrasekaHengruiJia,AdelinTravers,BaiwuZhang,DavidLie,andNicolasPapernoMachineunlearning.In2021,SanFrancisco,CA,USA,24-27May2021,doi:10.1109/SP40001.[46]DillonBowen,BrendanMurphy,Wil/abs/2408.02946,arXiv:2408.02doi:10.48550/arXiv.[47]WielandBrendel,JonasRauber,adversarialattacks:Reliableattacksagainstblack-boxmachinelearnmodels.In6thInternationalConfer2018,Vancouver,BC,Canada,April30-May3,Proceedings.OpenR,2018.U/forum?id=SyZI0GWCZ,doi:10.48550/arXiv.1712.0424[48]GavinBrown,MarkBun,VitalyFeldmanismemorizationofirrelevanttrainiofComputing,STOC2021,132,NewYork,NY,USA,2021.AssociationforComputingMachinery.doi:10.1145/3406325.3451131.[49]TomB.Brown,BenjaminMann,NickPrafullaDhariwal,ArvindNeelakantan,PranavShyam,GirishSastry,AmaAskell,SandhiniAgarwal,ArielHerbert-Voss,GretchenKrueger,TomHenighan,RewonChild,AdityaRamesh,DanielM.Ziegler,JeffreyWu,ClemensWinter,ChristopherHesse,MarkChen,EricSigler,MateuszLiScottGray,BenjaminChess,JackClark,ChristopherBerner,SamMcCandlish,AlecRadford,IlyaSutskever,andDarioAmode/abs/2005.14165,arXiv:2005.14Reconstructingtrainingdatafrommulticlassneuralnetworks,2023.U/abs/2305.03350,arXiv:2305.03doi:10.48550/arXiv.[51]XiaoyuCao,MinghongFang,JiaByzantinerobustfederatedlearningviatruURL:/abs/2012.13995,doi:10.48550/arXiv.2012.13995.[52]YinzhiCaoandJunfengYang.Towaunlearning.In2015IEEESymposiumonSecurityandPrivacy,pages463-480,2015.URL:/document/7[53]NicholasCarlini.Poisonin1577-1592.USENIXAssociation,August2021.URL:/conference/usenixsecurity21/presentation/carlini-[54]NicholasCarlini,SteveChien,MiandFlorianTramer.Membershipinferenceattac2022IEEESymposiumonAlamitos,CA,USA,May2022.IEEEComput/10.1109/SP46214.2022.00doi:10.1109/SP46214.[55]NicholasCarlini,JamieHayes,Sehwag,FlorianTramèr,BorjaBalle,DaphneIppolito,andEricWaExtractingtrainingdatafromdiffusio/abs/2301.13188,arXiv:2301.13doi:10.48550/arXiv.[56]NicholasCarlini,DaphneIppolFlorianTramer,andChiyuanZhang.Quantifyingmemorizationacrossneurlanguagemodels./abs/doi:10.48550/ARXIV.[57]NicholasCarlini,MatthewJagielski,ChrPaleka,WillPearce,HyrumAnderson,AndreasTerzis,KurtThomas,andFlorianTramèr.Poisoningweb-scaletrainingdatasetsispractical.arXivpreprintarXiv:2302.10149,2023.URL:/abs/2302.101doi:10.48550/arXiv.[58]NicholasCarlini,MatthewJagiextractionofneuralnetworkmodels.InDCham,2020.SpringerInternationalPublis/abs/2003.04884,doi:10.48550/arXiv.2003.0488[59]NicholasCarlini,ChangTheSecretSharer:Evaluatingandtestingunintendedmemorization/abs/1802.08232.URL:/abs/1802.0823doi:10.48550/arXiv.[60]NicholasCarlini,MiladNasr,ChJagielski,IrenaGao,AnasAwadalla,PangWeiKoh,DaphneIppolKatherineLee,FlorianTramer,etal.Arealignedneuralnetworksadversariallyaligned?arXivpreprintarXiv:2306.15447,2023./abs/2306.15447,doi:10.48550/arXiv.2306.1544[61]NicholasCarlini,DanielPaleSteinke,JonathanHayase,A.FederCooper,KatherineLee,MJagielski,MiladNasr,ArthurConmy,ItayYona,EricWallace,Rolnick,andFlorianTramèr.Stealin2024.URL:/abs/2403.06634,arXiv:2403doi:10.48550/arXiv.[62]NicholasCarlini,FlorianTramer,Krifree!,2023.URL:/abs/2206.10550,arXiv:22doi:10.48550/arXiv.[63]NicholasCarlini,FlorianTramèr,EHerbert-Voss,KatherineLee,AdamRoberts,TomBrown,DawnSong,úlfarErlingsson,AlinaOprea,andColinRaffel.Extractingt21),pages2633-2650.USENIXAssociation,August2021.URL:/conference/usenixsecurity21/presentation/carlini-[64]NicholasCarliniandetected:BypassingtWorkshoponArtificialIntelligenceandSecurity,AISec’17,14,NewYork,NY,USA,2017.AssociationforComputingMachinery.neuralnetworks.InProc.IEE/abs/1608.04644,doi:10.48550/arXiv.1608.0464[66]NicholasCarliniandDavidWagnerattacksonspeech-to-text.In(SPW),pages1-7.IEEE,2018.URL:/abs/1801.01944,doi:10.48550/arXiv.[67]StephenCasper,YuHariharan,andDylanHadfield-Menell.Redteamingdeepneuralnetworkswithfeaturesynthesistools.arXivpreprintarXiv:2302./abs/2302.10894,doi:10.48550/arXiv.2302.10894.[68]StephenCasper,JasonLin,Menell.Explore,establish,exploit:Redteaminglangscratch,2023.URL:/abs/2306.09442,doi:10.48550/arXiv.securityprinciples,retrievedFebr.uk/blog-post/introducing-our-new-machine-learninsecurity-principles.URL:.uk/blog-post/introduciour-new-machine-learning-security-princip[70]VarunChandrasekaran,KamalikaChandSongbaiYan.Exploringconnectionsbetweenextraction.InProceedingsoftheSymposium,SEC’20,/abs/1811.02054,doi:10.48550/arXiv.1811.0205[71]HongChang,TaDuyNguShokri.Onadversarialbiasandtherob/abs/2006.08669,2[72]PatrickChao,EdoardoDebenedetti,AlFrancescoCroce,VikashSehwag,EdgarDobriban,NicolasFlammarion,GeorJ.Pappas,FlorianTramer,HamedHassani,andEricWong.JailbreakBopenrobustnessbenchURL:/abs/2404.01318,arXiv:2404.01318,doi:10.48550/arXiv.[73]PatrickChao,AlexanderRobeyPappas,andEricWontwentyqueries.arXivpreprintarXiv:2310.08419,2023.U/abs/2310.08419,doi:10.48550/arXiv.2310.08419.[74]HarshChaudhari,JohnAbascal,Tramèr,andJonathanUllman.SNAP:Efficientextractionpropertieswithpoisoning.In2023IEEESympdoi:10.48550/arXiv.[75]HarshChaudhari,GiorgioSChristopherA.Choquette-Choo,MiladNasr,CristinaNita-Rotaru,andAliOprea.Phantom:Generaltriggerattacksongeneration,2024.URL:/abs/2405.20485,arXiv:240doi:10.48550/arXiv.2-4[76]BryantChen,WilkaCarvalho,NathEdwards,TaesungLee,IanMolloy,andBiplavSrivastava.Detectattacksondeepneuralnetworksbyactivationcluste/abs/1811.03728,2018.UR/abs/1811.03728,doi:10.48550/arXiv.1811.0372[77]HonggeChen,HuanAttackingvisuallanguagegroundingwithadversaonneuralimagecaptioning./abs/1712.02051,2017/abs/1712.02051,doi:10.48550/ARXIV.1712.02051.[78]HuiliChen,ChengFu,JishenZhaoblack-boxtrojandetectionandmitiganetworks.InProceedingsoftheTwentConferenceonArtificialIntelligence,IJCAI-19,pages4658-4664.InternationalJointConferencesonArtificialIntelligenceOrganizat2019.doi:10.24963/ijcai.2019/647.HopSkipJumpAttack:Aquery-efficientdec[80]Pin-YuChen,HuanZhaZerothorderoptimizationbasedblack-boxattackstodeepneuralnetworwithouttrainingsubstitutemoNY,USA,2017.AssociationforComputingMachinery.ShapeShifter:RobustPhysicalAdversarialAttackonFasterR-CNNO/10.1007/978-3-030-10925-7_4,doi:10.1007/978-3-030-[82]XiaoyiChen,AhmedSalem,DingfanCheShen,ZhonghaiWu,andYangZhang.Badnl:Backdoorattacksagainmodelswithsemantic-preservingimprovements.InAnnualComputerSecurity2021.AssociationforComputingMachinery.doi:10.1145/3485832Su,ZhikunZhang,XiaoFengWang,andHaixuURL:/abs/2310.15469,arXiv:2310.15469,doi:10.48550/arXiv.[84]XinyunChen,ChangLiupreprintarXiv:1712.05526,2017.URL:/abs/1712.05doi:10.48550/arXiv.[85]Heng-TzeChengandHighQualityDialogModelsforEverything./2022/01/lamda-towards-safe-grounded-and-high.html,2022.GoogleBrain.URL:https://research.google/blog/lamda-towards-safe-grounded-and-high-qualityodels-for-everything/.[86]MinhaoCheng,ThongLe,Pin-YuChen,Hsieh.Query-efficienthard-labelblack-boxattack:Anoptimization-basedapproach.In7thInternatio2019,NewOrleans,LA,USA,May6-9,2019.OpenR,2019./forum?id=rJlk6iRqKX,doi:10.48550/arXiv.1807.044[87]MinhaoCheng,SimranjitSinandCho-JuiHsieh.Sign-opt:Aquery-efficienthard-labeladversarattack.InInternationalConferenceonLearningRe/forum?id=SklTQCNtvS,doi:10.48550/arXiv.1909.107neuralnetworksinconstrainedenvironments.ACMTransactionsonPrivandSecurity(TOPS)doi:10.48550/arXiv.1909[89]ChristopherA.Choquette-Choo,NicolasPapernot.Label-onlymembershipinferenceattaandTongZhang,editors,PonMachineLearning,volume139ofProceedingsofMachinehttps://proceedings.mlr.press/v139/choquette-choo21a.html,doi:10.48550/arXiv.models?/abs/2212.05400,2022.doi:10.48550/ARXIV.[91]AntonioEmanueleCinà,KathrinGrosse,WernerZellinger,BernhardA.Moser,AlinaOprea,BattistaBiggio,MarcelloPelillo,andFabioRoli.Wildpatternsreloaded:AsurveyofmalearningsecurityagainsttraininMarch2023.URL:/10.1145%2F3585385,doi:10.1145/3585385.https://aiindex.stanford.edu/wp-content/uploads/2022/03/2022-AI-IndeReport_Master.pdf,2022.HumanCenteredAI,StanfordUniversi[93]JosephClements,YRallyingadversarialtechniquesagai2019.URL:/abs/1903.11688,doi:10.48550/ARXIV.19[94]JeremyCohen,ElanRosenfeld,robustnessviarandomizedsmoothing.InKaSalakhutdinov,editors,Proceedingsofthe36MachineLearning,volume97ofProceedingsofMachineLearningResearch,pages1310-1320.PMLR,09-15Jun2019.URL:https://proceedings.mlr.press/v97/cohen19c.htm[95]JeremyCohen,ElanRosenfeld,robustnessviarandomizedsmoothing.InInternatioLearning,pages1310-1320.PMLR,2019.[96]GabrielaF.Cretu,AngelosStaStolfo,andAngelosD.Keromytis.Castingoutdemons:Sanitizingt(sp2008),pages81-95,2008.URL:/document/4531146,doi:10.1109/SP.2008.1[97]FrancescoCroce,MaksyDebenedetti,NicolasFlammarion,MungChiang,PrateekMittal,andMatthHein.Robustbench:astandardizedadversarialroThirty-fifthConferenceonNeuralInformationProcessingSystemsDatasets/forum?id=SSKZPJCt7B,doi:10.48550/arXiv.2010.09[98]NileshDalvi,PedroDomingos,Adversarialclassification.InProceedingsoftheTenInternationalConferenceon108,NewYork,NY,USA,2004.AssociationforComputingMachinery.doi:10.1145/1014052.101Software,2023.Accessed:2024-08-22.URL:/nlearning.IEEESecurity&Privacy,19(4):19-27,20doi:10.1109/MSEC.20MarcFisc
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 員工心態(tài)管理課程
- 支氣管哮喘課件
- 2025屆海南省東方市民族中學(xué)高考英語(yǔ)一模試卷含答案
- 1+x母嬰模擬試題及參考答案
- 網(wǎng)店運(yùn)營(yíng)基礎(chǔ)考試模擬題(含參考答案)
- 盾構(gòu)機(jī)施工中的隧道工程地質(zhì)問(wèn)題識(shí)別考核試卷
- 農(nóng)藥減量使用技術(shù)考核試卷
- 紡織品在家居收納中的應(yīng)用考核試卷
- 2025年高三高考沖刺主題教育班會(huì):《高三考前心理調(diào)適指南:減壓賦能 輕松備考》-2024-2025學(xué)年高中主題班會(huì)課件
- 植物油加工設(shè)備與工藝流程考核試卷
- 2025年安全生產(chǎn)考試題庫(kù)(消防安全應(yīng)急處置)消防設(shè)施運(yùn)行維護(hù)試題
- 2025年臨海市紀(jì)委市監(jiān)委下屬事業(yè)單位公開選聘工作人員1人筆試備考題庫(kù)及答案解析
- 電臺(tái)項(xiàng)目可行性研究報(bào)告
- 2025年度事業(yè)單位招聘考試公共基礎(chǔ)知識(shí)仿真模擬試卷及答案(共五套)
- 2025年廣西壯族自治區(qū)南寧市中考一模生物試題(含答案)
- MOOC 理解馬克思-南京大學(xué) 中國(guó)大學(xué)慕課答案
- 13 荷葉圓圓說(shuō)課課件(共17張PPT)
- 環(huán)己烷安全周知卡-原料
- 三寶證盟薦亡往生功德文疏
- YY∕T 1849-2022 重組膠原蛋白
評(píng)論
0/150
提交評(píng)論