對(duì)抗攻擊通常會(huì)使得神經(jīng)網(wǎng)絡(luò)分類錯(cuò)誤,但谷歌大腦團(tuán)隊(duì)的Ian Goodfellow 等人的新研究提出一個(gè)更加復(fù)雜的攻擊目標(biāo):對(duì)神經(jīng)網(wǎng)絡(luò)重新編程,誘導(dǎo)模型執(zhí)行攻擊者選定的新任務(wù)。該研究首次表明了神經(jīng)網(wǎng)絡(luò)驚人的脆弱性和靈活性。
對(duì)抗樣本(adversarial examples)的研究一般是為了預(yù)防攻擊者通過(guò)對(duì)模型的輸入進(jìn)行微小的修改,從而導(dǎo)致模型的預(yù)測(cè)產(chǎn)生偏差。這樣的攻擊者可能通過(guò)一張貼紙(一個(gè)小的擾動(dòng))就讓無(wú)人駕駛汽車(chē)對(duì)停車(chē)標(biāo)志產(chǎn)生反應(yīng),或者通過(guò)精巧地修改損害情況的照片(一個(gè)小的擾動(dòng))導(dǎo)致保險(xiǎn)公司的損失模型高估了事故的賠償值??紤]到這些,研究人員們提出了很多方法來(lái)構(gòu)建以及抵抗這種對(duì)抗性攻擊(adversrial attacks)。
迄今為止,大多數(shù)的對(duì)抗性攻擊主要由無(wú)目標(biāo)攻擊(untargeted attacks)和有目標(biāo)攻擊(targeted attacks)組成。無(wú)目標(biāo)攻擊旨在降低模型的性能,但不一定需要產(chǎn)生一個(gè)特定的輸出;而有目標(biāo)攻擊旨在對(duì)模型設(shè)計(jì)一個(gè)對(duì)抗性干擾的輸入,從而產(chǎn)生一個(gè)特定的輸出。例如,對(duì)一個(gè)分類器的攻擊可能是為了針對(duì)每張圖像得到特定的輸出類別,或者,對(duì)一個(gè)強(qiáng)化學(xué)習(xí)智能體的攻擊可能是為了誘導(dǎo)該智能體進(jìn)入一個(gè)特定的狀態(tài)。
近日,谷歌大腦的 Gamaleldin F. Elsayed、Ian Goodfellow 和 Jascha Sohl-Dickstein 等人的新研究考慮了一個(gè)更加復(fù)雜的攻擊目標(biāo):在不需要攻擊者計(jì)算特定期望輸出的情況下,誘導(dǎo)模型執(zhí)行攻擊者選定的一個(gè)任務(wù)。
對(duì)抗性重編程
考慮一個(gè)訓(xùn)練用來(lái)執(zhí)行一些原始任務(wù)的模型:對(duì)于輸入,它將產(chǎn)生輸出??紤]一個(gè)敵人(adversary),它希望執(zhí)行一個(gè)對(duì)抗的任務(wù):對(duì)于輸入(不一定和x在同一個(gè)域),敵人希望計(jì)算一個(gè)函數(shù)。我們證明敵人可以通過(guò)學(xué)習(xí)對(duì)抗性重編程函數(shù)( adversarial reprogramming? functions)和來(lái)實(shí)現(xiàn)這一點(diǎn),這兩個(gè)函數(shù)是兩個(gè)任務(wù)之間的映射。這里,hf 將來(lái)自x?的域的輸入轉(zhuǎn)換成的域。
在這項(xiàng)工作中,為了簡(jiǎn)單起見(jiàn),并且為了獲得高度可解釋的結(jié)果,我們將定義為小圖像(small images),g是處理小圖形的函數(shù),只包括在大圖像的中心繪制,在邊框中繪制θ,而只是輸出類標(biāo)簽之間的硬編碼映射。?
然而,這個(gè)想法更具通用性;可以是在兩個(gè)任務(wù)的輸入(輸出)格式之間轉(zhuǎn)換的任何一致性轉(zhuǎn)換,并使模型執(zhí)行對(duì)抗性任務(wù)。
我們指的是一類攻擊,在這種攻擊中,機(jī)器學(xué)習(xí)算法被重新用于執(zhí)行一項(xiàng)新的任務(wù),即對(duì)抗性重編程(adversarial reprogramming)。我們將θ稱為對(duì)抗程序( adversarial program)。與以往大多數(shù)對(duì)抗樣本的研究相比,這種擾動(dòng)的幅度不需要受到限制。這種攻擊不需要使人類察覺(jué)不到,或是需要很微妙才被認(rèn)為是成功的。對(duì)抗性重編程的潛在后果包括:從公共服務(wù)中竊取計(jì)算資源,或?qū)?a href="http://srfitnesspt.com/tags/ai/" target="_blank">AI驅(qū)動(dòng)的助理改造成間諜機(jī)器人或垃圾郵件機(jī)器人。
在這篇文章中,我們介紹了對(duì)抗性重編程的第一個(gè)實(shí)例。我們提出一種設(shè)計(jì)對(duì)抗程序的訓(xùn)練過(guò)程,對(duì)抗程序?qū)?dǎo)致神經(jīng)網(wǎng)絡(luò)執(zhí)行新的任務(wù)。在實(shí)驗(yàn)部分,我們演示了針對(duì)用于ImageNet數(shù)據(jù)分類的幾個(gè)卷積神經(jīng)網(wǎng)絡(luò)的對(duì)抗程序。這些對(duì)抗程序?qū)⒕W(wǎng)絡(luò)的功能從ImageNet分類改變成:對(duì)圖像中的方塊進(jìn)行計(jì)數(shù);對(duì)MNIST的數(shù)字進(jìn)行分類,對(duì)CIFAR-10圖像進(jìn)行分類。我們還研究了訓(xùn)練好的和未訓(xùn)練的網(wǎng)絡(luò)對(duì)對(duì)抗性重編程的易感性。
方法
我們提出的攻擊場(chǎng)景如下:當(dāng)執(zhí)行一個(gè)特定任務(wù)時(shí),敵人已經(jīng)獲取了神經(jīng)網(wǎng)絡(luò)的參數(shù),并希望通過(guò)使用一個(gè)可以加入到網(wǎng)絡(luò)輸入中的攻擊程序來(lái)操縱網(wǎng)絡(luò)的函數(shù),以此來(lái)執(zhí)行一個(gè)新的任務(wù)。在這里,我們假設(shè)原始的網(wǎng)絡(luò)是用來(lái)執(zhí)行ImageNet分類的,但是本文討論的方法是具有可擴(kuò)展性的。
我們的對(duì)抗性程序?qū)⒆鳛榫W(wǎng)絡(luò)輸入的附加貢獻(xiàn)。值得注意的是,不像其他大多數(shù)對(duì)抗性干擾,我們的對(duì)抗性程序并不針對(duì)單一的圖像。同樣的對(duì)抗性程序?qū)?yīng)用到所有的圖像中。我們將對(duì)抗性程序定義為:
其中,是將要學(xué)到的對(duì)抗性程序的參數(shù),n是ImageNet圖像的寬度,M是一個(gè)masking矩陣。值得注意的是,M并不是必需的。
讓作為我們所希望應(yīng)用到對(duì)抗性任務(wù)中數(shù)據(jù)集的一個(gè)樣本,其中。那么相應(yīng)的對(duì)抗性圖像可表示為:
給定一個(gè)輸入圖像,使,它是將對(duì)抗性任務(wù)中的一個(gè)標(biāo)簽映射到一個(gè)ImageNet標(biāo)簽集合。至此,我們對(duì)抗性的目標(biāo)就是將概率最大化。于是,我們將優(yōu)化問(wèn)題設(shè)置為:?
實(shí)驗(yàn)結(jié)果
1. 計(jì)算圖像中的方格數(shù)
首先從簡(jiǎn)單的對(duì)抗性任務(wù)開(kāi)始,即計(jì)算圖像中的方格數(shù)。結(jié)果如圖所示:
圖1:對(duì)抗性重編程的說(shuō)明。
(a)將ImageNet標(biāo)簽映射到對(duì)抗性任務(wù)的標(biāo)簽(圖像中的方塊)。
(b)對(duì)抗性任務(wù)中的圖像(左側(cè))是嵌入在一個(gè)對(duì)抗性問(wèn)題中的(中間),產(chǎn)生對(duì)抗性圖像(右側(cè))。
(c)利用對(duì)抗性圖像進(jìn)行推測(cè)的說(shuō)明。
2. MNIST分類
圖2:為MNIST分類進(jìn)行對(duì)抗性編程的例子。
對(duì)抗性程序?qū)е?個(gè)ImageNet模型轉(zhuǎn)而用作MNIST分類器。
3. CIFAR-10分類
圖3:CIFAR-10分類中對(duì)抗性圖像的例子(圖注)
對(duì)抗性程序重新利用一個(gè)Inception V3 模型作為CIFAR-10分類器的替代函數(shù)。
表:訓(xùn)練好的ImageNet分類器可以對(duì)抗性地再編程來(lái)執(zhí)行多種任務(wù)
4. 再次編程未訓(xùn)練以及對(duì)抗性訓(xùn)練過(guò)的網(wǎng)絡(luò)
圖4:對(duì)抗性程序不論在網(wǎng)絡(luò)還是任務(wù)中都表現(xiàn)出質(zhì)的相似性和不同性。
(a)頂部:將在ImageNet上預(yù)訓(xùn)練的網(wǎng)絡(luò)重新利用來(lái)計(jì)算圖像中方塊數(shù)量的對(duì)抗性程序。
中部:將在ImageNet上預(yù)訓(xùn)練的網(wǎng)絡(luò)作為MNIST分類器函數(shù)的對(duì)抗性程序。
底部:對(duì)抗性程序?qū)⑾嗤木W(wǎng)絡(luò)作為CIFAR-10分類器。
(b)針對(duì)具有隨機(jī)初始化參數(shù)的重組網(wǎng)絡(luò),對(duì)抗性程序?qū)⑵渥鳛镸NIST分類器。
-
谷歌
+關(guān)注
關(guān)注
27文章
6105瀏覽量
104798 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4726瀏覽量
100315 -
圖像
+關(guān)注
關(guān)注
2文章
1078瀏覽量
40346
原文標(biāo)題:Ian Goodfellow最新論文:神經(jīng)網(wǎng)絡(luò)無(wú)比脆弱,對(duì)抗攻擊重新編程
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論