0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過擴(kuò)散模型理解不可學(xué)習(xí)樣本對(duì)于數(shù)據(jù)隱私保護(hù)的脆弱性

CVer ? 來源:CVer ? 2023-11-25 14:46 ? 次閱讀

0. 背景介紹

深度學(xué)習(xí)領(lǐng)域,網(wǎng)絡(luò)上充斥著大量可自由訪問的數(shù)據(jù),其中包括像ImageNet和MS-Celeb-1M數(shù)據(jù)集這樣的關(guān)鍵資源。然而,這些數(shù)據(jù)可能攜帶未經(jīng)授權(quán)收集的個(gè)人信息,引發(fā)了公眾對(duì)隱私的擔(dān)憂。人們擔(dān)心,私人數(shù)據(jù)可能會(huì)在沒有所有者授權(quán)的情況下被不當(dāng)?shù)赜糜跇?gòu)建商業(yè)模型

這一問題凸顯了在我們追求科技創(chuàng)新和性能提升的同時(shí),更需要關(guān)注數(shù)據(jù)隱私和合理使用的問題。為了解決這些難題,越來越多的研究力量正在集中于使數(shù)據(jù)無法被濫用的方向。這些方法采用了一些巧妙的手段,比如向圖像中引入難以察覺的“捷徑”噪聲。通過這種方式,深度學(xué)習(xí)模型不再僅僅學(xué)習(xí)有用的語(yǔ)義信息,而是開始學(xué)習(xí)噪聲和標(biāo)簽之間的對(duì)應(yīng)關(guān)系。因此,在這種數(shù)據(jù)上的訓(xùn)練得到的模型,無法準(zhǔn)確分類干凈的數(shù)據(jù),有效地保護(hù)了用戶的隱私。這種巧妙的方法被稱為不可學(xué)習(xí)樣本(UE),也可稱之為可用性攻擊。

然而,隨著研究的深入,我們發(fā)現(xiàn)了在這種保護(hù)中的一個(gè)關(guān)鍵漏洞。如果無法利用的數(shù)據(jù)是唯一可訪問的數(shù)據(jù),那么這種保護(hù)就會(huì)起效果。但現(xiàn)實(shí)情況卻并非總是如此。數(shù)據(jù)保護(hù)人員只能在他們自己的數(shù)據(jù)中添加“不可學(xué)習(xí)”的擾動(dòng),卻無法阻止未經(jīng)授權(quán)的用戶訪問其他來源的類似的未受保護(hù)數(shù)據(jù)。因此,通過研究新收集的未受保護(hù)數(shù)據(jù),人們?nèi)匀豢梢匝芯渴鼙Wo(hù)示例的潛在分布。以人臉識(shí)別為例,雖然不可學(xué)習(xí)的樣本不能直接用于訓(xùn)練分類器,但很容易收集到新的未受保護(hù)的人臉數(shù)據(jù)。只要新收集的未受保護(hù)數(shù)據(jù)與原始干凈數(shù)據(jù)之間有足夠的相似性,仍然有可能訓(xùn)練出能夠成功對(duì)原始干凈數(shù)據(jù)進(jìn)行分類的分類器。換句話說,未經(jīng)授權(quán)的用戶可以很容易地繞過數(shù)據(jù)保護(hù),從新收集的未受保護(hù)數(shù)據(jù)中學(xué)習(xí)原始數(shù)據(jù)表示,即使這些數(shù)據(jù)可能規(guī)模很小,與干凈的數(shù)據(jù)不同,缺乏標(biāo)簽注釋,并且單獨(dú)不適合訓(xùn)練分類器。為了證明上述漏洞的存在,我們?cè)O(shè)計(jì)了一種新的方法,可以將不可學(xué)習(xí)的樣本轉(zhuǎn)化為可學(xué)習(xí)的樣本。

1. 方法

一個(gè)直接的解決方案是設(shè)計(jì)一個(gè)特定的訓(xùn)練方案,可以在不可利用的數(shù)據(jù)上進(jìn)行訓(xùn)練。這是不太理想的,因?yàn)樗皇菍?duì)不可利用的數(shù)據(jù)進(jìn)行分類,而沒有揭示潛在的干凈數(shù)據(jù),即不可學(xué)習(xí)數(shù)據(jù)的未保護(hù)版本。

我們認(rèn)為,最終的對(duì)策是通過將UE再次轉(zhuǎn)變?yōu)榭蓪W(xué)習(xí)的方式來推斷/暴露底層的干凈數(shù)據(jù),這可能會(huì)導(dǎo)致進(jìn)一步的未經(jīng)授權(quán)的利用,如標(biāo)準(zhǔn)訓(xùn)練或表示學(xué)習(xí)。因此,理想的可學(xué)習(xí)的非授權(quán)數(shù)據(jù)應(yīng)該獨(dú)立于訓(xùn)練方案之外,可以像原始訓(xùn)練數(shù)據(jù)一樣正常使用。我們將可學(xué)習(xí)的未授權(quán)數(shù)據(jù)中的示例稱為可學(xué)習(xí)示例(LEs)。

受擴(kuò)散模型在噪聲凈化和圖像生成中的強(qiáng)大功能的啟發(fā),我們提出了一種基于擴(kuò)散模型的新型凈化方法,用于生成可學(xué)習(xí)的示例。與常見的噪聲凈化(如對(duì)抗性凈化)假設(shè)訓(xùn)練數(shù)據(jù)的可訪問性不同,在沒有訪問訓(xùn)練數(shù)據(jù)的情況下訓(xùn)練擴(kuò)散模型對(duì)去除UE保護(hù)提出了關(guān)鍵挑戰(zhàn),這是現(xiàn)有凈化方法尚未探索的。為了克服這一挑戰(zhàn),獲得可學(xué)習(xí)示例背后的關(guān)鍵思想是從其他類似數(shù)據(jù)中學(xué)習(xí)一個(gè)可學(xué)習(xí)的數(shù)據(jù)流形,然后將不可學(xué)習(xí)的示例投射到該流形上。然而,學(xué)習(xí)到的數(shù)據(jù)流形通常與原始數(shù)據(jù)流形不同,導(dǎo)致凈化樣本與原始干凈樣本相比語(yǔ)義偏差。為了緩解這一問題,我們進(jìn)一步提出了一種新的聯(lián)合條件擴(kuò)散凈化方法,以捕獲從不可學(xué)習(xí)樣本到相應(yīng)的干凈樣本的映射。

385f7cba-8ae3-11ee-939d-92fbcf53809c.png

我們首先向不可學(xué)習(xí)圖像中逐步注入一定量的高斯噪聲,直到它們的不可學(xué)習(xí)擾動(dòng)被高斯噪聲淹沒。接下來,我們?yōu)槿ピ脒^程提供了一個(gè)新的聯(lián)合條件,在保持圖像語(yǔ)義的同時(shí)加快了去噪速度。聯(lián)合條件由不可學(xué)習(xí)樣本與其相應(yīng)去噪版本之間的像素距離和神經(jīng)感知距離參數(shù)化構(gòu)成。這是基于這樣的觀察,即不可學(xué)習(xí)的樣本通常與干凈樣本在像素距離上表現(xiàn)出很小的差異,而這種差異對(duì)人類視覺來說是難以察覺的。因此,通過最小化與不可學(xué)習(xí)樣本的視覺差異,降噪后的圖像應(yīng)該與原始樣本非常相似。

3874ef50-8ae3-11ee-939d-92fbcf53809c.png

2. 結(jié)果與討論

我們?cè)谠S多基準(zhǔn)數(shù)據(jù)集上廣泛評(píng)估了我們?cè)诒O(jiān)督和無監(jiān)督UE上的方法,并將其與現(xiàn)有的對(duì)抗方法進(jìn)行了比較。結(jié)果表明,LE是唯一一種在監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)下都保持有效性的方法,更重要的是,我們的LE不像現(xiàn)有的對(duì)策那樣與特定的訓(xùn)練方案捆綁在一起,我們的可學(xué)習(xí)樣例是獨(dú)立的,可以作為原始的干凈的訓(xùn)練數(shù)據(jù)正常使用。

389a5fa6-8ae3-11ee-939d-92fbcf53809c.png

令人驚訝的是,我們發(fā)現(xiàn)即使新收集的數(shù)據(jù)(用于訓(xùn)練可學(xué)習(xí)的數(shù)據(jù)流形)和干凈的數(shù)據(jù)之間存在很大的分布差異,我們的方法仍然保持有效性。換句話說,訓(xùn)練數(shù)據(jù)和收集的原始數(shù)據(jù)之間的分布可以是不同的,我們?nèi)匀豢梢詫⒉豢蓪W(xué)習(xí)的例子變成可學(xué)習(xí)的。

38bfa860-8ae3-11ee-939d-92fbcf53809c.png

這無疑進(jìn)一步加深了我們對(duì)UE保護(hù)脆弱性的擔(dān)憂,因?yàn)橛?xùn)練數(shù)據(jù)和收集的原始數(shù)據(jù)之間的分布即使是不同的,我們?nèi)匀豢梢詫⒉豢蓪W(xué)習(xí)的樣本變成可學(xué)習(xí)的。

最后,我們做了消融實(shí)驗(yàn),說明了聯(lián)合條件凈化相比于直接應(yīng)用簡(jiǎn)單擴(kuò)散模型凈化的有效性。

38d80d60-8ae3-11ee-939d-92fbcf53809c.png

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3063

    瀏覽量

    48575
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1198

    瀏覽量

    24592
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5439

    瀏覽量

    120794

原文標(biāo)題:ACM MM 2023 | 通過擴(kuò)散模型理解不可學(xué)習(xí)樣本對(duì)于數(shù)據(jù)隱私保護(hù)的脆弱性

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于數(shù)據(jù)流的脆弱性靜態(tài)分析

    為提高Java軟件的安全,針對(duì)Java程序的脆弱性分析問題,提出一種基于數(shù)據(jù)流的感染分析法,闡述了具體思路和實(shí)現(xiàn)步驟。依據(jù)該方法實(shí)現(xiàn)的分析系統(tǒng)能有效分析出Java字節(jié)碼程序
    發(fā)表于 04-11 09:43 ?11次下載

    基于熵方法的計(jì)算機(jī)網(wǎng)絡(luò)脆弱性檢測(cè)和優(yōu)化

    基于熵方法的計(jì)算機(jī)網(wǎng)絡(luò)脆弱性檢測(cè)和優(yōu)化_吳杏
    發(fā)表于 01-07 18:56 ?0次下載

    基于模糊集的隱私保護(hù)模型

    隱私保護(hù)數(shù)據(jù)發(fā)布是近年來研究的熱點(diǎn)技術(shù)之一,主要研究如何在數(shù)據(jù)發(fā)布中避免敏感數(shù)據(jù)的泄露,又能保證數(shù)據(jù)
    發(fā)表于 11-29 14:28 ?0次下載

    基于差分隱私數(shù)據(jù)匿名化隱私保護(hù)模型

    匿名化隱私保護(hù)模型;在利用微聚集MDAV算法劃分相似等價(jià)類并在匿名屬性過程中引入SuLQ框架設(shè)計(jì)得到g-MDAV算法,同時(shí)選用Laplace實(shí)現(xiàn)機(jī)制合理控制隱私
    發(fā)表于 12-11 16:31 ?0次下載
    基于差分<b class='flag-5'>隱私</b>的<b class='flag-5'>數(shù)據(jù)</b>匿名化<b class='flag-5'>隱私</b><b class='flag-5'>保護(hù)</b><b class='flag-5'>模型</b>

    電網(wǎng)脆弱性綜合評(píng)估

    電網(wǎng)脆弱性評(píng)估對(duì)預(yù)防連鎖故障具有重要意義。綜合考慮系統(tǒng)潮流分布、系統(tǒng)電壓穩(wěn)定性以及電網(wǎng)拓?fù)涮匦缘纫蛩貥?gòu)建了電網(wǎng)脆弱性評(píng)估模型。最小奇異值可定量表示系統(tǒng)電壓與電壓靜穩(wěn)臨界點(diǎn)的距離,表征節(jié)點(diǎn)電壓穩(wěn)定狀態(tài)
    發(fā)表于 12-22 15:09 ?2次下載
    電網(wǎng)<b class='flag-5'>脆弱性</b>綜合評(píng)估

    網(wǎng)絡(luò)脆弱性擴(kuò)散分析方法

    網(wǎng)絡(luò)脆弱性評(píng)估是一種主動(dòng)防范技術(shù),意在攻擊發(fā)生之前對(duì)安全態(tài)勢(shì)進(jìn)行分析進(jìn)而制定防御措施,但傳統(tǒng)的定量分析模型不能對(duì)實(shí)體間動(dòng)態(tài)交互關(guān)系有很好的展現(xiàn),而且大都不能得出風(fēng)險(xiǎn)擴(kuò)散的全局化結(jié)果。將脆弱性
    發(fā)表于 01-05 15:21 ?0次下載
    網(wǎng)絡(luò)<b class='flag-5'>脆弱性</b><b class='flag-5'>擴(kuò)散</b>分析方法

    基于位置偏移產(chǎn)生關(guān)聯(lián)概率不可區(qū)分的隱私保護(hù)方法

    產(chǎn)生關(guān)聯(lián)概率不可區(qū)分的隱私保護(hù)方法,并證明了這種方法的隱私保護(hù)效力。最后,通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證所提
    發(fā)表于 01-15 15:30 ?0次下載

    一種非脆弱性同步保性能控制方法

    針對(duì)一類時(shí)變時(shí)滯復(fù)雜網(wǎng)絡(luò)系統(tǒng),提出了一種非脆弱性同步保性能控制方法。在假設(shè)非線性向量函數(shù)f(x)可微條件下,通過Jacobi矩陣方法進(jìn)行線性化處理,余項(xiàng)滿足匹配條件,設(shè)計(jì)具有增益攝動(dòng)的非脆弱性
    發(fā)表于 01-17 11:40 ?0次下載

    改進(jìn)DEAHP的支路綜合脆弱性評(píng)估

    支路抗干擾能力和影響力的指標(biāo)集;基于改進(jìn)的帶層次分析法約束錐的數(shù)據(jù)包絡(luò)分析模型進(jìn)行多指標(biāo)綜合,得到了既考慮主觀偏好又考慮客觀數(shù)據(jù)的支路綜合脆弱性評(píng)估指標(biāo),構(gòu)建了多層次多角度的支路
    發(fā)表于 02-28 09:46 ?2次下載

    基于鏈路已用率的電力通信網(wǎng)脆弱性分析

    脆弱性進(jìn)行了分析。然后將網(wǎng)絡(luò)運(yùn)行時(shí)的主要參數(shù)歸結(jié)為數(shù)據(jù)在鏈路中的帶寬,對(duì)基于鏈路已用率的網(wǎng)絡(luò)運(yùn)行脆弱性進(jìn)行分析,找到網(wǎng)絡(luò)的薄弱點(diǎn)。最后將結(jié)構(gòu)脆弱性和運(yùn)行
    發(fā)表于 02-28 15:49 ?0次下載

    SCADA系統(tǒng)該如何解決脆弱性泄露問題?

    脆弱性泄露具有多種性質(zhì),在信息安全領(lǐng)域中歷史悠久。雖然安全專業(yè)人員有時(shí)支持以緩和形式管理脆弱性泄露,SCADA系統(tǒng)更多相關(guān)結(jié)論的出現(xiàn),使得許多安全專業(yè)人員重新對(duì)他們的觀點(diǎn)進(jìn)行思考。利用熟練的技術(shù)風(fēng)險(xiǎn)管理方法以及對(duì)風(fēng)險(xiǎn)模型的更為細(xì)
    發(fā)表于 09-20 17:06 ?1310次閱讀

    人工智能:機(jī)器學(xué)習(xí)模型存在著對(duì)抗樣本的安全威脅

    近年來,隨著人工智能的蓬勃發(fā)展,機(jī)器學(xué)習(xí)技術(shù)在網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域得到了廣泛的應(yīng)用。然而,機(jī)器學(xué)習(xí)模型存在著對(duì)抗樣本的安全威脅,導(dǎo)致該類網(wǎng)絡(luò)入侵檢測(cè)器在對(duì)抗環(huán)境中呈現(xiàn)出特定的
    的頭像 發(fā)表于 08-27 16:10 ?3469次閱讀
    人工智能:機(jī)器<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>存在著對(duì)抗<b class='flag-5'>樣本</b>的安全威脅

    基于深度學(xué)習(xí)的自然語(yǔ)言處理對(duì)抗樣本模型

    深度學(xué)習(xí)模型被證明存在脆弱性并容易遭到對(duì)抗樣本的攻擊,但目前對(duì)于對(duì)抗樣本的研究主要集中在計(jì)算機(jī)視
    發(fā)表于 04-20 14:36 ?39次下載
    基于深度<b class='flag-5'>學(xué)習(xí)</b>的自然語(yǔ)言處理對(duì)抗<b class='flag-5'>樣本</b><b class='flag-5'>模型</b>

    如何搭建“實(shí)戰(zhàn)化”的統(tǒng)一系統(tǒng)脆弱性管理平臺(tái)

    面對(duì)層出不窮的漏洞,如何搭建“實(shí)戰(zhàn)化”的統(tǒng)一系統(tǒng)脆弱管理平臺(tái),是網(wǎng)絡(luò)安全廠商和客戶比較頭痛的事情。日前,國(guó)內(nèi)專注于保密與非密領(lǐng)域的分級(jí)保護(hù)、等級(jí)保護(hù)、業(yè)務(wù)連續(xù)安全和大
    的頭像 發(fā)表于 09-05 13:35 ?394次閱讀

    通過擴(kuò)散模型理解不可學(xué)習(xí)樣本對(duì)于數(shù)據(jù)隱私保護(hù)脆弱性

    在深度學(xué)習(xí)領(lǐng)域,網(wǎng)絡(luò)上充斥著大量可自由訪問的數(shù)據(jù),其中包括像ImageNet和MS-Celeb-1M數(shù)據(jù)集這樣的關(guān)鍵資源。然
    的頭像 發(fā)表于 11-25 14:45 ?485次閱讀
    <b class='flag-5'>通過</b><b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b><b class='flag-5'>理解</b><b class='flag-5'>不可學(xué)習(xí)</b><b class='flag-5'>樣本</b><b class='flag-5'>對(duì)于</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>隱私</b><b class='flag-5'>保護(hù)</b>的<b class='flag-5'>脆弱性</b>