国产精品久草,国产高清自产拍在线观看

谷歌研究人員利用3D卷積網(wǎng)絡(luò)打造視頻生成新系統(tǒng)，只需要視頻的第一幀和最后一幀，就能生成完整合理的整段視頻，是不是很神奇？

漫畫書秒變動畫片了解一下？

想象一下，現(xiàn)在你的手中有一段視頻的第一幀和最后一幀圖像，讓你負責(zé)把中間的圖像填進去，生成完整的視頻，從現(xiàn)有的有限信息中推斷出整個視頻。你能做到嗎？

這可能聽起來像是一項不可能完成的任務(wù)，但谷歌人工智能研究部門的研究人員已經(jīng)開發(fā)出一種新系統(tǒng)，可以由視頻第一幀和最后一幀生成“似是而非的”視頻序列，這個過程被稱為“inbetween”。

“想象一下，如果我們能夠教一個智能系統(tǒng)來將漫畫自動變成動畫，會是什么樣子？如果真實現(xiàn)了這一點，無疑將徹底改變動畫產(chǎn)業(yè)?！霸撜撐牡墓餐髡邔懙馈！半m然這種極其節(jié)省勞動力的能力仍然超出目前最先進的水平，但計算機視覺和機器學(xué)習(xí)技術(shù)的進步正在使這個目標(biāo)的實現(xiàn)越來越接近。”

原理與模型結(jié)構(gòu)

這套AI系統(tǒng)包括一個完全卷積模型，這是是受動物視覺皮層啟發(fā)打造的深度神經(jīng)網(wǎng)絡(luò)，最常用于分析視覺圖像。它由三個部分組成：2D卷積圖像解碼器，3D卷積潛在表示生成器，以及視頻生成器。

圖1：視頻生成模型示意圖

圖像解碼器將來自目標(biāo)視頻的幀映射到潛在空間，潛在表示生成器學(xué)習(xí)對包含在輸入幀中的信息進行合并。最后，視頻生成器將潛在表示解碼為視頻中的幀。

研究人員表示，將潛在表示生成與視頻解碼分離對于成功實現(xiàn)中間視頻至關(guān)重要，直接用開始幀和結(jié)束幀的編碼表示生成視頻的結(jié)果很差。為了解決這個問題，研究人員設(shè)計了潛在表示生成器，對幀的表示進行融合，并逐步增加生成視頻的分辨率。

圖2：模型生成的視頻幀序列圖，對于每個數(shù)據(jù)集上方的圖表示模型生成的序列，下方為原視頻，其中首幀和尾幀用于生成模型的采樣。

實驗結(jié)果

為了驗證該方法，研究人員從三個數(shù)據(jù)集中獲取視頻 - BAIR機器人推送，KTH動作數(shù)據(jù)庫和UCF101動作識別數(shù)據(jù)集 - 并將這些數(shù)據(jù)下采樣至64 x 64像素的分辨率。每個樣本總共包含16幀，其中的14幀由AI系統(tǒng)負責(zé)生成。

研究人員為每對視頻幀運行100次模型，并對每個模型變量和數(shù)據(jù)集重復(fù)10次，在英偉達 Tesla V100顯卡平臺上的訓(xùn)練時間約為5天。結(jié)果如下表所示：

表1：我們報告了完整模型和兩個基線的平均FVD，對每個模型和數(shù)據(jù)集重復(fù)10次，每次運行100個epoch，表中FVD值越低，表示對應(yīng)生成視頻的質(zhì)量越高。

表2：使用直接3D卷積和基于的替代方法的模型的平均SSIM

RNN（SDVI）或光流（SepConv和SuperSloMo），數(shù)值越高越好。

研究人員表示，AI生成的視頻幀序列在風(fēng)格上與給定的起始幀和結(jié)束幀保持一致，而且看上去說得通。“令人驚喜的是，這種方法可以在如此長的時間段內(nèi)實現(xiàn)視頻生成，”該團隊表示，“這可能給未來的視頻生成技術(shù)研究提供了一個有用的替代視角。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴