欧美老熟妇乱子,久久亚洲国产综合网

1. 論文信息

2. 引言

大規(guī)模擴(kuò)散模型在文本到圖像合成方面取得了巨大的突破，并在創(chuàng)意應(yīng)用方面取得了成功。一些工作試圖在視頻領(lǐng)域復(fù)制這個(gè)成功，即在野外世界建模高維復(fù)雜視頻分布。然而，訓(xùn)練這樣的文本到視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源，這限制了相關(guān)社區(qū)進(jìn)一步的研究和應(yīng)用。為了減少過度的訓(xùn)練要求，我們研究了一種新的高效形式：基于文本到圖像模型的可控文本到視頻生成。這個(gè)任務(wù)旨在根據(jù)文本描述和運(yùn)動(dòng)序列（例如深度或邊緣地圖）生成視頻。

如圖所示，它可以有效地利用預(yù)訓(xùn)練的文本到圖像生成模型的生成能力和運(yùn)動(dòng)序列的粗略時(shí)間一致性來生成生動(dòng)的視頻。

最近的研究探索了利用 ControlNet 或 DDIM inversion 的結(jié)構(gòu)可控性進(jìn)行視頻生成。在這項(xiàng)工作中，我們提出了一個(gè)無需訓(xùn)練的高質(zhì)量和一致的可控文本到視頻生成方法ControlVideo，以及一種 交錯(cuò)幀平滑器來增強(qiáng)結(jié)構(gòu)平滑度。

ControlVideo直接繼承了 ControlNet 的架構(gòu)和權(quán)重，通過擴(kuò)展自注意力與 完全跨幀交互 使其適用于視頻，與之前的工作不同，我們的完全跨幀交互將所有幀連接起來成為一個(gè)“更大的圖像”，從而直接繼承了 ControlNet 的高質(zhì)量和一致的生成。交錯(cuò)幀平滑器通過在選定的連續(xù)時(shí)間步驟上交錯(cuò)插值來消除整個(gè)視頻的閃爍。

如圖所示，每個(gè)時(shí)間步驟的操作通過插值中間幀平滑交錯(cuò)的三幀片段，兩個(gè)連續(xù)時(shí)間步驟的組合則平滑整個(gè)視頻。為了實(shí)現(xiàn)高效的長視頻合成，我們還引入了一種分層采樣器來生成具有長期連貫性的獨(dú)立短片段。具體而言，長視頻首先被分割成多個(gè)具有選定關(guān)鍵幀的短視頻片段。然后，關(guān)鍵幀通過全幀交互預(yù)先生成以實(shí)現(xiàn)長期連貫性。在關(guān)鍵幀的條件下，我們順序合成相應(yīng)的中間短視頻片段，以實(shí)現(xiàn)全局一致性。作者在廣泛收集的運(yùn)動(dòng)提示對(duì)上進(jìn)行了實(shí)驗(yàn)。

實(shí)驗(yàn)結(jié)果表明，我們的方法在質(zhì)量和量化標(biāo)準(zhǔn)上都優(yōu)于其他競(jìng)爭(zhēng)對(duì)手。由于采用了高效的設(shè)計(jì)，即 xFormers 實(shí)現(xiàn)和分層采樣器，ControlVideo 可以在一個(gè) NVIDIA 上幾分鐘內(nèi)生成短視頻和長視頻。

3. 方法

3.0. 背景

潛在擴(kuò)散模型（Latent Diffusion Model，簡(jiǎn)稱LDM）是一種用于密度估計(jì)和生成高維數(shù)據(jù)（如圖像和音頻）的概率模型。它由Jonathan Ho和Stefano Ermon在2020年的論文Denosing Diffusion Probabilistic Models中提出。

LDM基于一個(gè)擴(kuò)散過程，每一步向數(shù)據(jù)添加噪聲，然后通過去噪函數(shù)去除噪聲。擴(kuò)散過程進(jìn)行到數(shù)據(jù)完全被破壞，只剩下高斯噪聲。模型通過反向擴(kuò)散過程生成新數(shù)據(jù)，從高斯噪聲開始，逐步去除噪聲。

形式上，LDM定義了一系列條件分布，給出數(shù)據(jù)如下：

其中表示時(shí)間t的數(shù)據(jù)，是一個(gè)神經(jīng)網(wǎng)絡(luò)，將映射到，是一個(gè)固定的方差參數(shù)。擴(kuò)散過程從原始數(shù)據(jù)開始，進(jìn)行到，其中T是擴(kuò)散步驟的總數(shù)。

為了生成新數(shù)據(jù)，LDM反轉(zhuǎn)擴(kuò)散過程，從以下條件分布中采樣：

從開始，向后進(jìn)行到。LDM可以通過最大化模型下數(shù)據(jù)的對(duì)數(shù)似然來進(jìn)行訓(xùn)練，可以使用隨機(jī)梯度下降有效地完成。LDM已經(jīng)在圖像生成和密度估計(jì)任務(wù)中取得了最先進(jìn)的結(jié)果，并且已經(jīng)擴(kuò)展到處理缺失數(shù)據(jù)和半監(jiān)督學(xué)習(xí)。

3.1. 方法

論文提出的方法包括三個(gè)關(guān)鍵組件：ControlNet、ControlVideo 和交錯(cuò)幀平滑器。這些組件通過控制噪聲的傳播路徑，在生成的視頻中保持了文本描述和運(yùn)動(dòng)信息之間的一致性，并通過完全跨幀交互和交錯(cuò)幀平滑器來保持了視頻的連貫性和平滑性。

3.1.1 Fully Cross-Frame Interac tion:

Fully Cross-Frame Interaction模塊旨在通過使所有幀之間相互作用來增強(qiáng)生成視頻的時(shí)間一致性。這是通過將所有視頻幀連接成一個(gè)“大圖像”，然后使用基于注意力機(jī)制的Fully Cross-Frame Interaction來計(jì)算幀間交互來實(shí)現(xiàn)的。完全跨幀交互模塊可以表示為：

其中是通過連接所有視頻幀形成的“大圖像”，，和是查詢、鍵和值矩陣，，和是可學(xué)習(xí)的權(quán)重矩陣。注意力機(jī)制通過將查詢和鍵矩陣相乘，然后使用softmax函數(shù)進(jìn)行歸一化來計(jì)算注意力權(quán)重。最后，通過將注意力權(quán)重乘以值矩陣得到注意力值。

3.1.2 Interleaved-Frame Smoother:

Interleaved-Frame Smoother模塊旨在減少合成視頻中的抖動(dòng)效果。這是通過插值每個(gè)三幀剪輯的中間幀，然后以交錯(cuò)的方式重復(fù)它來實(shí)現(xiàn)的。Interleaved-Frame Smoother可以表示為：

其中表示視頻序列的第幀。Interleaved-Frame Smoother通過取前一幀和后一幀的平均值來插值每個(gè)三幀剪輯的中間幀。

3.1.3 Hierarchical Sampler:

Hierarchical Sampler模塊旨在通過逐個(gè)剪輯地生成視頻來實(shí)現(xiàn)高效和一致的長視頻合成。在每個(gè)時(shí)間步中，將長視頻分成多個(gè)短視頻剪輯，并使用Fully Cross-Frame Attention預(yù)先生成關(guān)鍵幀以確保長距離的一致性。然后，在每對(duì)關(guān)鍵幀的條件下，按順序合成相應(yīng)的剪輯以確保整體一致性。Hierarchical Sampler可以表示為：

其中表示視頻序列的第幀，是關(guān)鍵幀，是一個(gè)擴(kuò)散模型，它在先前和下一幀的條件下生成視頻幀。關(guān)鍵幀是使用Fully Cross-Frame Attention預(yù)先生成的，以確保長距離的一致性，而其余幀則使用擴(kuò)散模型生成。

4. 實(shí)驗(yàn)

上圖展示了對(duì)于視頻生成方法的實(shí)驗(yàn)數(shù)據(jù)比較表格。共比較了三種方法：Tune-A-Video、Text2Video-Zero和ControlVideo。表格中的指標(biāo)分為兩列：Frame Consistency和Prompt Consistency。其中，F(xiàn)rame Consistency指的是生成的視頻幀與輸入的條件（Structure Condition）之間的一致性；Prompt Consistency指的是生成的視頻與輸入的描述（Prompt）之間的一致性。兩列指標(biāo)的數(shù)值都是百分比形式?？梢钥闯?，使用Canny Edge或Depth Map作為Structure Condition時(shí)，ControlVideo的Frame Consistency都比其他兩種方法高，且Prompt Consistency基本持平。這說明ControlVideo在結(jié)構(gòu)一致性方面表現(xiàn)優(yōu)異，而在描述一致性方面與其他方法相當(dāng)。需要注意的是，Prompt Consistency的數(shù)值普遍較低，這也是視頻生成領(lǐng)域的一個(gè)研究難點(diǎn)。從具體數(shù)字來看，可以發(fā)現(xiàn)ControlVideo在兩種Structure Condition下的Frame Consistency均優(yōu)于其他兩種方法，并且在Prompt Consistency方面與其他方法相當(dāng)。此外，即使在表格中的最好表現(xiàn)下，Prompt Consistency的數(shù)值也普遍較低，這表明在描述一致性方面仍然存在改進(jìn)空間。

該表格展示了一項(xiàng)用戶偏好研究的結(jié)果，比較了兩種方法和一種新的視頻合成方法“Ours”。該研究評(píng)估了每種方法合成的視頻在三個(gè)方面的質(zhì)量：視頻質(zhì)量、時(shí)間一致性和文本對(duì)齊。表格中展現(xiàn)了在每個(gè)方面上有多少評(píng)估者更喜歡“Ours”合成的視頻而不是其他方法的視頻?？傮w而言，結(jié)果表明，“Ours”在視頻質(zhì)量、時(shí)間一致性和文本對(duì)齊方面表現(xiàn)比其他兩種方法更好，因?yàn)樗谒腥齻€(gè)方面上都得到了更高比例的評(píng)估者偏好。然而，需要注意的是，該研究僅反映了評(píng)估者的意見，可能并不一定反映視頻合成方法的客觀質(zhì)量。

這一部分主要介紹了在用戶研究和消融實(shí)驗(yàn)方面的結(jié)果，以及將該方法擴(kuò)展到長視頻生成的有效性。在用戶研究中，本文與其他競(jìng)爭(zhēng)方法進(jìn)行了比較，并讓參與者根據(jù)視頻質(zhì)量、時(shí)間連貫性和文本對(duì)齊等三個(gè)方面選擇更好的合成視頻。結(jié)果表明，本文的方法在所有三個(gè)方面都表現(xiàn)出了強(qiáng)大的優(yōu)勢(shì)。在消融實(shí)驗(yàn)中，本文進(jìn)一步評(píng)估了完全跨幀交互和交錯(cuò)幀平滑器的效果，并發(fā)現(xiàn)它們都對(duì)視頻生成的質(zhì)量和連續(xù)性產(chǎn)生了重要影響。最后，本文還展示了如何將該方法擴(kuò)展到長視頻生成，通過引入分層采樣器實(shí)現(xiàn)了高效的處理，使得該方法可以在低端硬件上生成高質(zhì)量的長視頻。

5. 討論

這份工作存在以下局限性：

該方法的生成結(jié)果受預(yù)訓(xùn)練的文本到圖像生成模型的質(zhì)量和性能影響，因此其生成的視頻可能存在與圖像生成模型相關(guān)的問題，如圖像分辨率、細(xì)節(jié)和顏色等方面的不足。

該方法需要輸入運(yùn)動(dòng)序列，如深度或邊緣地圖，以幫助生成視頻，這可能會(huì)限制其適用范圍，因?yàn)檫@些運(yùn)動(dòng)序列可能難以獲取。

由于該方法使用分層采樣器來生成長視頻，因此在生成非常長的視頻時(shí)可能會(huì)存在一些不連貫的問題。

該方法的處理速度受到硬件和預(yù)訓(xùn)練模型的性能限制，對(duì)于某些應(yīng)用場(chǎng)景可能需要更快的處理速度。

大規(guī)模擴(kuò)散模型在文本到視頻合成方面取得了巨大進(jìn)展，但這些模型成本高昂且不對(duì)公眾開放。我們的ControlVideo專注于無需訓(xùn)練的可控文本到視頻生成，并在高效視頻創(chuàng)建方面邁出了重要一步。具體而言，ControlVideo可以使用普通硬件合成高質(zhì)量的視頻，因此可供大多數(shù)研究人員和用戶使用。例如，藝術(shù)家可以利用我們的方法在更短的時(shí)間內(nèi)創(chuàng)建出迷人的視頻。此外，ControlVideo為視頻渲染、視頻編輯和視頻到視頻轉(zhuǎn)換等任務(wù)提供了洞見。然而，雖然作者不打算將模型用于有害目的，但它可能會(huì)被濫用并帶來一些潛在的負(fù)面影響，例如制作欺騙性、有害性或含有不當(dāng)內(nèi)容的視頻。盡管存在以上擔(dān)憂，但我們相信可以通過一些措施來將其最小化。例如，可以使用NSFW過濾器來過濾不健康和暴力內(nèi)容。此外，我們希望政府能夠建立和完善相關(guān)法規(guī)以限制視頻創(chuàng)作的濫用。較為合適的應(yīng)用場(chǎng)景包括但不限于：

視頻游戲開發(fā)：可以使用該方法生成游戲場(chǎng)景中的動(dòng)態(tài)場(chǎng)景，如人物移動(dòng)、車輛行駛等。

電影和廣告制作：可以使用該方法生成預(yù)覽或草圖，以幫助制片人和廣告商確定最終的場(chǎng)景和效果。

交互式虛擬現(xiàn)實(shí)應(yīng)用：可以使用該方法生成虛擬現(xiàn)實(shí)場(chǎng)景，如虛擬旅游、虛擬展覽等。

視頻編輯和后期制作：可以使用該方法生成缺失的鏡頭或補(bǔ)充一些場(chǎng)景，以幫助編輯和后期制作人員完成工作。

6. 結(jié)論

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6754

瀏覽量
88609
視頻

視頻

+關(guān)注

關(guān)注
6

文章
1925

瀏覽量
72716
模型

模型

+關(guān)注

關(guān)注
1

文章
3054

瀏覽量
48569

原文標(biāo)題：ControlVideo: 可控的Training-free的文本生成視頻

文章出處：【微信號(hào)：GiantPandaCV，微信公眾號(hào)：GiantPandaCV】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

基于擴(kuò)散模型的圖像生成過程

等很難用文本指定。 ? 最近，谷歌發(fā)布了MediaPipe Diffusion插件，可以在移動(dòng)設(shè)備上運(yùn)行「可控文本到圖像

發(fā)表于 07-17 11:00 ?2559次閱讀

基于擴(kuò)散<b class='flag-5'>模型</b>的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問題？

從文本到圖像的自動(dòng)生成，如何訓(xùn)練模型僅通過一段文本描述輸入就能

發(fā)表于 06-15 10:07 ?2659次閱讀

如何去解決<b class='flag-5'>文本</b><b class='flag-5'>到</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>的跨模態(tài)對(duì)比損失問題？

受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

來自：哈工大訊飛聯(lián)合實(shí)驗(yàn)室本期導(dǎo)讀：本文是對(duì)受控文本生成任務(wù)的一個(gè)簡(jiǎn)單的介紹。首先，本文介紹了受控文本生成模型的一般架構(gòu)，點(diǎn)明了受控文本生成模型

發(fā)表于 10-13 09:46 ?3401次閱讀

一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth

一些大型文本到圖像模型基于用自然語言編寫的文本提示（prompt）實(shí)現(xiàn)了高質(zhì)量和多樣化的圖像合成

發(fā)表于 11-14 15:11 ?1295次閱讀

復(fù)旦&微軟提出?OmniVL：首個(gè)統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

根據(jù)輸入數(shù)據(jù)和目標(biāo)下游任務(wù)的不同，現(xiàn)有的VLP方法可以大致分為兩類：圖像-文本預(yù)訓(xùn)練和視頻-文本預(yù)訓(xùn)練。前者從圖像-

發(fā)表于 12-14 15:26 ?835次閱讀

微軟提出Control-GPT：用GPT-4實(shí)現(xiàn)可控文本到圖像生成！

該研究提出了一個(gè)簡(jiǎn)單而有效的框架 Control-GPT，它利用 LLM 的強(qiáng)大功能根據(jù)文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代碼形式的草圖。如下圖 1 (c)

發(fā)表于 06-05 15:31 ?777次閱讀

Meta開源文本如何生成音樂大模型

年初，谷歌推出了音樂生成大模型 MusicLM，效果非常不錯(cuò)。有人稱這比大火的 ChatGPT 還重要，幾乎解決了音樂生成問題。近日，Meta 也推出了自己的文本音樂

發(fā)表于 06-12 15:11 ?815次閱讀

Stability AI推出Stable audio的文本到音頻生成人工智能平臺(tái)

Stability AI是一家主要以人工智能生成的視覺效果而聞名的公司，它推出了一個(gè)名為Stable audio的文本到音頻生成人工智能平臺(tái)。 Stable Audio使用擴(kuò)散

發(fā)表于 09-20 10:20 ?1235次閱讀

OpenAI發(fā)布首個(gè)視頻生成模型Sora

OpenAI近日宣布推出其全新的文本到視頻生成模型——Sora。這一突破性的技術(shù)將視頻創(chuàng)作帶入了一個(gè)全新的紀(jì)元，為用戶提供了前所未有的創(chuàng)作可

發(fā)表于 02-18 10:07 ?950次閱讀

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀(jì)元

在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的，正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽(yù)的模型，以其“逼真”和“富有想象力”的視頻生成能力，徹底顛覆了傳統(tǒng)

發(fā)表于 02-19 11:03 ?828次閱讀

OpenAI新年開出王炸，視頻生成模型Sora問世

近日，OpenAI在AI生成視頻領(lǐng)域取得重大突破，發(fā)布了全新的生成式人工智能模型“Sora”。該模型在視

發(fā)表于 02-20 11:46 ?682次閱讀

openai發(fā)布首個(gè)視頻生成模型sora

美國當(dāng)?shù)貢r(shí)間2024年2月15日，OpenAI正式發(fā)布文生視頻模型Sora ，并發(fā)布了48個(gè)文生視頻案例和技術(shù)報(bào)告，正式入局視頻生成領(lǐng)域。Sora能夠根據(jù)提示詞

發(fā)表于 02-21 16:45 ?1120次閱讀

Runway發(fā)布Gen-3 Alpha視頻生成模型

專為電影和圖像內(nèi)容創(chuàng)作者提供生成式AI工具的Runway公司近日宣布，其最新的Gen-3 Alpha視頻生成模型已經(jīng)正式問世。這款模型在多方

發(fā)表于 06-19 09:25 ?478次閱讀

商湯發(fā)布首個(gè)“可控”人物視頻生成大模型Vimi

近日，商湯科技在人工智能領(lǐng)域再次取得重大突破，正式發(fā)布了其首個(gè)面向消費(fèi)者的“可控”人物視頻生成大模型——Vimi。這一創(chuàng)新技術(shù)的問世，標(biāo)志著視頻內(nèi)容創(chuàng)作進(jìn)入了一個(gè)全新的互動(dòng)與個(gè)性化時(shí)代

發(fā)表于 07-04 15:29 ?654次閱讀

今日看點(diǎn)丨Vishay裁員800人，關(guān)閉上海等三家工廠；字節(jié)跳動(dòng)發(fā)布兩款視頻生成大模型

企業(yè)市場(chǎng)開啟邀測(cè)。 ? 火山引擎介紹，豆包視頻生成模型基于DiT架構(gòu)，通過高效的DiT融合計(jì)算單元，能更充分地壓縮編碼視頻與文本，讓視頻在大

發(fā)表于 09-25 15:48 ?638次閱讀

搜索歷史

基于文本到圖像模型的可控文本到視頻生成

評(píng)論

基于擴(kuò)散模型的圖像生成過程

如何去解決文本到圖像生成的跨模態(tài)對(duì)比損失問題？

受控文本生成模型的一般架構(gòu)及故事生成任務(wù)等方面的具體應(yīng)用

一種「?jìng)€(gè)性化」的文本到圖像擴(kuò)散模型 DreamBooth

復(fù)旦&微軟提出?OmniVL：首個(gè)統(tǒng)一圖像、視頻、文本的基礎(chǔ)預(yù)訓(xùn)練模型

微軟提出Control-GPT：用GPT-4實(shí)現(xiàn)可控文本到圖像生成！

Meta開源文本如何生成音樂大模型

Stability AI推出Stable audio的文本到音頻生成人工智能平臺(tái)

OpenAI發(fā)布首個(gè)視頻生成模型Sora

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀(jì)元

OpenAI新年開出王炸，視頻生成模型Sora問世

openai發(fā)布首個(gè)視頻生成模型sora

Runway發(fā)布Gen-3 Alpha視頻生成模型

商湯發(fā)布首個(gè)“可控”人物視頻生成大模型Vimi

今日看點(diǎn)丨Vishay裁員800人，關(guān)閉上海等三家工廠；字節(jié)跳動(dòng)發(fā)布兩款視頻生成大模型