0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

探究對深度學(xué)習(xí)模型VAE的時(shí)序性解耦

電子工程師 ? 來源:DeepBlue深蘭科技 ? 作者:DeepBlue深蘭科技 ? 2021-06-04 11:10 ? 次閱讀

現(xiàn)代深度學(xué)習(xí)架構(gòu)一直被描述為一個(gè)黑匣子:被輸入數(shù)據(jù),并期望從中得到一些結(jié)果。然而,由于此類架構(gòu)存在許多的復(fù)雜性,過程中發(fā)生的事情,通常難以解釋和分析。這已發(fā)展成為整個(gè)社會未能廣泛接受深度學(xué)習(xí)的主要原因之一,尤其是對于關(guān)鍵任務(wù)應(yīng)用程序。

因此,“黑匣子”的解體已成為機(jī)器學(xué)習(xí)研究人員的一個(gè)重大開放問題,并且是該領(lǐng)域當(dāng)前感興趣的問題之一,這一研究領(lǐng)域通常被稱為機(jī)器學(xué)習(xí)架構(gòu)的“可解釋性”。在本文中,我們將討論可解釋性研究中的一個(gè)重要主題,即解耦問題。

Disentangled

Sequential VAE

光的解耦(Ddisentangled)

我們舉個(gè)常見的例子:在日常生活中,太陽光看起來是白色的,但是如果我們讓陽光通過三棱鏡,就會發(fā)現(xiàn)陽光分別折射出多種色彩。這說明白光其實(shí)是多種顏色混合的體現(xiàn),而我們可以通過三棱鏡把它分解成基本七種顏色,其中包括紅、綠、藍(lán)三原色。

我們繼續(xù)聊聊白光:在廣泛意義上說光是由RGB三種顏色組成的。這也就定義了光的解耦過程:光可以分離成R、G、B三種顏色,同時(shí)我們也可以用這三種顏色,進(jìn)行不同程度的疊加,產(chǎn)生豐富而廣泛的顏色。

計(jì)算機(jī)定義顏色時(shí)R、G、 B三種成分的取值范圍是0-255,0表示沒有刺激量,255表示刺激量達(dá)最大值。R、G、B均為255時(shí)就合成了白光,R、G、B均為0時(shí)就形成了黑色。在這個(gè)區(qū)間范圍內(nèi),我們可以通過任意的數(shù)值組合構(gòu)造出無數(shù)種不同的顏色,讓我們的生活充滿色彩。

白光和解耦又有什么關(guān)系呢?那關(guān)系就大了!我們下面簡單聊一下一種深度學(xué)習(xí)模型——變分自編碼器模型(VAE:variational autoencoder),然后用它來解釋解耦。

什么是VAE?

什么是VAE呢?那要先從AE開始說起了。

AE(Autoencoder)

87c81b48-c4e0-11eb-9e57-12bb97331649.png

上圖由兩個(gè)部分組成,第一個(gè)部分是編碼器(Encoder),第二部分是解碼器(Decoder),圖片經(jīng)過編碼器得到一個(gè)潛在的編碼(code),編碼再通過解碼器還原輸入的圖片,因此得到的編碼就是圖片在一個(gè)潛在空間的表示。而編碼器和解碼器就是由神經(jīng)網(wǎng)絡(luò)組成的。圖中例子就是希望能夠生成一張一樣的圖片。

VAE (Variational Autoencoder)

變分編碼器是自動編碼器的升級版本,其結(jié)構(gòu)跟自動編碼器相似,也由編碼器和解碼器構(gòu)成。在AE中,輸入一個(gè)圖片得到一個(gè)的編碼(code),但這個(gè)編碼是一個(gè)固定的編碼,使得模型沒有很好的泛化功能。所以VAE引入了一種新的方式有效解決了上述的問題,就是將編碼問題變成一個(gè)分布問題,具體操作是在AE的基礎(chǔ)上增加一個(gè)限制,迫使編碼器得到的編碼(code)能夠粗略地遵循一個(gè)標(biāo)準(zhǔn)正態(tài)分布,這就是其與一般的自動編碼器最大的不同。

這樣我們生成一張新圖片就很簡單了,我們只需要給它一個(gè)標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)隱含向量,這樣通過解碼器就能夠生成我們想要的圖片,而不需要給它一張?jiān)紙D片先進(jìn)行編碼。

87d5973c-c4e0-11eb-9e57-12bb97331649.png

VAE的演變增加了模型的泛化性,以上圖VAE的過程為例,當(dāng)輸入的圖片是貓時(shí),通過貓的特征來生成新的圖片,VAE的好處就在于當(dāng)輸入的圖片不是完整的圖片時(shí)(訓(xùn)練集外),它依舊可以還原成原來的樣子。

在深度學(xué)習(xí)中,不管是什么樣的模型,數(shù)據(jù)都很重要,而VAE的好處就在于 :

它可以通過編碼和解碼的過程,通過抽樣,生成新的數(shù)據(jù)。這樣對于機(jī)器學(xué)習(xí)就有了更多的數(shù)據(jù)支撐從而得到更好的模型效果。

VAE在中間層會得到一個(gè)編碼(code),也就是一個(gè)語義層,我們可以通過對于這個(gè)語義的理解,從而達(dá)到圖片的分類、變換的效果。

如果我們類比光的解耦(將光分離成R、G、B三種顏色),VAE(Variational Autoencoder)就可以理解成是深度學(xué)習(xí)框架的三棱鏡。

這是為什么呢?我們先給一個(gè)淺顯的技術(shù)介紹,然后再回來聊顏色分離。

VAE是一種深度學(xué)習(xí)框架,更具體來說,它是一種生成模型。生成模型的操作很簡單:它可以讀取數(shù)據(jù)(多為圖片),抽取數(shù)據(jù)的特征,然后自動生成有這些特征的新數(shù)據(jù)。我們這里關(guān)心的是提取特征這個(gè)環(huán)節(jié)。大多生成模型的特征提取模式,便是經(jīng)過所謂的“潛在變量”(latent variables)來編碼提取到的特征。

這里的一個(gè)明顯的問題便是:我們怎么判斷正式數(shù)據(jù)里的某一個(gè)特征對應(yīng)的是哪個(gè)語義變量?我們可以回到類比成顏色分離和生成的過程,將一種顏色先編碼(encoder)成R,G,B,再通過解碼(decoder)形成一種顏色。

Disentangled Sequential VAE

隨著對VAE的研究,越來越多的研究重點(diǎn)就放在了如何在VAE的基礎(chǔ)上做到disentangled的過程。以下簡單介紹一下深蘭科學(xué)院對于該項(xiàng)目的研究內(nèi)容:對于時(shí)序的數(shù)據(jù)解耦出其數(shù)據(jù)的動態(tài)信息和靜態(tài)信息,并理解靜態(tài)信息和動態(tài)信息的語義,后續(xù)團(tuán)隊(duì)的目標(biāo)也是基于當(dāng)前的項(xiàng)目,進(jìn)行這個(gè)主流方向的基礎(chǔ)研究。

本項(xiàng)目采用的數(shù)據(jù)是Sprites,這是個(gè)具有時(shí)序性的數(shù)據(jù)。小精靈有著不同的顏色和動作,團(tuán)隊(duì)的任務(wù)就是通過這些小精靈的圖片,解耦出小精靈的動態(tài)信息(小精靈的動作)和靜態(tài)信息(小精靈的顏色)。通過深度學(xué)習(xí)來獲得小精靈動靜態(tài)信息的語義,并理解這語義從而生成新的小精靈。

如下圖所示,通過深度學(xué)習(xí)得到小精靈的動態(tài)信息和靜態(tài)信息,并改變他們的值的生成效果(上排是原始數(shù)據(jù),下排是生成數(shù)據(jù))。

1. 改變靜態(tài)信息(顏色)

2.改變動態(tài)信息

對于VAE時(shí)序性解耦的工作可以更容易地說明神經(jīng)網(wǎng)絡(luò)的可解釋性,這樣的任務(wù)不僅可以對神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)研究作出貢獻(xiàn),還可以應(yīng)用到很多人工智能的項(xiàng)目中,例如對圖像視頻的處理;動靜的解耦可以實(shí)現(xiàn)換臉等效果;在自然語言處理中,可以改變聲音的種類等。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1128

    瀏覽量

    40586
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6760

    瀏覽量

    88618
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7292

    瀏覽量

    87523
  • Code
    +關(guān)注

    關(guān)注

    0

    文章

    68

    瀏覽量

    15344
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5437

    瀏覽量

    120790

原文標(biāo)題:探究 | 對深度學(xué)習(xí)模型VAE的時(shí)序性解耦

文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    AI大模型深度學(xué)習(xí)的關(guān)系

    人類的學(xué)習(xí)過程,實(shí)現(xiàn)對復(fù)雜數(shù)據(jù)的學(xué)習(xí)和識別。AI大模型則是指模型的參數(shù)數(shù)量巨大,需要龐大的計(jì)算資源來進(jìn)行訓(xùn)練和推理。深度
    的頭像 發(fā)表于 10-23 15:25 ?71次閱讀

    FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?

    的應(yīng)用場景。 ? 可重構(gòu):在深度學(xué)習(xí)高速迭代的情況下,F(xiàn)PGA 比一些專用芯片(如 ASIC)具有更強(qiáng)的靈活性。當(dāng)深度學(xué)習(xí)算法或
    發(fā)表于 09-27 20:53

    【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識學(xué)習(xí)

    一些局限性。例如,模型可能無法完全理解文本中的深層含義和語境信息;同時(shí),由于訓(xùn)練數(shù)據(jù)可能存在偏差和噪聲,生成的答案也可能存在不準(zhǔn)確或誤導(dǎo)的情況。 總結(jié)以下,大語言模型通過深度
    發(fā)表于 08-02 11:03

    深度學(xué)習(xí)模型有哪些應(yīng)用場景

    深度學(xué)習(xí)模型作為人工智能領(lǐng)域的重要分支,已經(jīng)在多個(gè)應(yīng)用場景中展現(xiàn)出其巨大的潛力和價(jià)值。這些應(yīng)用不僅改變了我們的日常生活,還推動了科技進(jìn)步和產(chǎn)業(yè)升級。以下將詳細(xì)探討深度
    的頭像 發(fā)表于 07-16 18:25 ?1096次閱讀

    深度學(xué)習(xí)模型量化方法

    深度學(xué)習(xí)模型量化是一種重要的模型輕量化技術(shù),旨在通過減少網(wǎng)絡(luò)參數(shù)的比特寬度來減小模型大小和加速推理過程,同時(shí)盡量保持
    的頭像 發(fā)表于 07-15 11:01 ?412次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>量化方法

    深度學(xué)習(xí)模型中的過擬合與正則化

    深度學(xué)習(xí)的廣闊領(lǐng)域中,模型訓(xùn)練的核心目標(biāo)之一是實(shí)現(xiàn)對未知數(shù)據(jù)的準(zhǔn)確預(yù)測。然而,在實(shí)際應(yīng)用中,我們經(jīng)常會遇到一個(gè)問題——過擬合(Overfitting)。過擬合是指模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)
    的頭像 發(fā)表于 07-09 15:56 ?563次閱讀

    深度學(xué)習(xí)中的模型權(quán)重

    深度學(xué)習(xí)這一充滿無限可能的領(lǐng)域中,模型權(quán)重(Weights)作為其核心組成部分,扮演著至關(guān)重要的角色。它們不僅是模型
    的頭像 發(fā)表于 07-04 11:49 ?608次閱讀

    深度學(xué)習(xí)的典型模型和訓(xùn)練過程

    深度學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支,近年來在圖像識別、語音識別、自然語言處理等多個(gè)領(lǐng)域取得了顯著進(jìn)展。其核心在于通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,從大規(guī)模數(shù)據(jù)中自動學(xué)習(xí)并提取特征,進(jìn)而實(shí)
    的頭像 發(fā)表于 07-03 16:06 ?939次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練一個(gè)深度學(xué)習(xí)模型
    的頭像 發(fā)表于 07-01 16:13 ?773次閱讀

    深度學(xué)習(xí)模型優(yōu)化與調(diào)試方法

    深度學(xué)習(xí)模型在訓(xùn)練過程中,往往會遇到各種問題和挑戰(zhàn),如過擬合、欠擬合、梯度消失或爆炸等。因此,對深度學(xué)習(xí)
    的頭像 發(fā)表于 07-01 11:41 ?569次閱讀

    為什么深度學(xué)習(xí)的效果更好?

    導(dǎo)讀深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,已成為人工智能領(lǐng)域的一項(xiàng)變革技術(shù),在從計(jì)算機(jī)視覺、自然語言處理到自動駕駛汽車等廣泛的應(yīng)用中取得了顯著的成功。深度
    的頭像 發(fā)表于 03-09 08:26 ?540次閱讀
    為什么<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的效果更好?

    如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測

    Hello大家好,今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測,主要是通過對YOLOv8姿態(tài)評估模型在自定義的數(shù)據(jù)集上訓(xùn)練,生成一個(gè)工件切割分離點(diǎn)預(yù)測
    的頭像 發(fā)表于 12-22 11:07 ?682次閱讀
    如何基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測

    如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測與圓心位置預(yù)測

    Hello大家好,今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測與圓心位置預(yù)測,主要是通過對YOLOv8姿態(tài)評估模型在自定義的數(shù)據(jù)集上訓(xùn)練,生成一個(gè)自定義的圓檢測與圓心定位預(yù)測
    的頭像 發(fā)表于 12-21 10:50 ?1572次閱讀
    如何基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>訓(xùn)練實(shí)現(xiàn)圓檢測與圓心位置預(yù)測

    深度學(xué)習(xí)如何訓(xùn)練出好的模型

    算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來得到了廣泛的應(yīng)用,從圖像識別、語音識別到自然語言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是,要訓(xùn)練出一個(gè)高效準(zhǔn)確的深度學(xué)習(xí)
    的頭像 發(fā)表于 12-07 12:38 ?1010次閱讀
    <b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>如何訓(xùn)練出好的<b class='flag-5'>模型</b>

    基于深度學(xué)習(xí)的情感語音識別模型優(yōu)化策略

    基于深度學(xué)習(xí)的情感語音識別模型的優(yōu)化策略,包括數(shù)據(jù)預(yù)處理、模型結(jié)構(gòu)優(yōu)化、損失函數(shù)改進(jìn)、訓(xùn)練策略調(diào)整以及集成學(xué)習(xí)等方面的內(nèi)容。
    的頭像 發(fā)表于 11-09 16:34 ?590次閱讀