亚洲熟妇10p,国产又色又爽又黄的视频多人,国精无码欧精品亚洲一区

? 近日，美國人工智能公司OpenAI發(fā)布了首個視頻生成模型Sora。不同于此前許多AI大模型文生圖或視頻時，會出現(xiàn)人物形象前后不一致等問題，此次OpenAI展示的Sora生成的視頻中的主角、背景人物，都展現(xiàn)了極強(qiáng)的一致性，可以支持60秒一鏡到底，并包含高細(xì)致背景、多角度鏡頭，以及富有情感的多個角色，可謂是相當(dāng)?shù)摹罢选?。甚至有不少人疾呼，傳統(tǒng)視頻制作行業(yè)將會被“革命”！

相關(guān)內(nèi)容參考“OpenAI視頻模型Sora替代品分析（2024）”、“一場AI“革命”開始，OpenAI文生視頻模型Sora”。

據(jù)OpenAI官網(wǎng)介紹，Sora“通過一次性為模型提供多幀的預(yù)測，我們解決了一個具有挑戰(zhàn)性的問題”。據(jù)了解，此次大模型完美繼承DALL·E 3的畫質(zhì)和遵循指令能力，能生成長達(dá)1分鐘的高清視頻。并且在隨后公布的多段AI生成的視頻中，無論鏡頭如何切換，人物前后都保持了高度的穩(wěn)定性。

總結(jié)來說，Sora大模型的強(qiáng)大之處主要有以下六點(diǎn)：

1、文本到視頻生成能力：Sora能夠根據(jù)用戶提供的文本描述生成長達(dá)60S的視頻，這些視頻不僅保持了視覺品質(zhì)，而且完整準(zhǔn)確還原了用戶的提示語。

2、復(fù)雜場景和角色生成能力：Sora能夠生成包含多個角色、特定運(yùn)動類型以及主題精確、背景細(xì)節(jié)復(fù)雜的場景。它能夠創(chuàng)造出生動的角色表情和復(fù)雜的運(yùn)鏡，使得生成的視頻具有高度的逼真性和敘事效果。

3、語言理解能力：Sora擁有深入的語言理解能力，能夠準(zhǔn)確解釋提示并生成能表達(dá)豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令，并在生成的視頻內(nèi)容中忠實地反映這些指令。

4、多鏡頭生成能力：Sora可以在單個生成的視頻中創(chuàng)建多個鏡頭，同時保持角色和視覺風(fēng)格的一致性。這種能力對于制作電影預(yù)告片、動畫或其他需要多視角展示的內(nèi)容非常有用。

5、從靜態(tài)圖像生成視頻能力：Sora不僅能夠從文本生成視頻，還能夠從現(xiàn)有的靜態(tài)圖像開始，準(zhǔn)確地動畫化圖像內(nèi)容，或者擴(kuò)展現(xiàn)有視頻，填補(bǔ)視頻中的缺失幀。

6、物理世界模擬能力：Sora展示了人工智能在理解真實世界場景并與之互動的能力，這是朝著實現(xiàn)通用人工智能（AGI）的重要一步。它能夠模擬真實物理世界的運(yùn)動，如物體的移動和相互作用。可以說，Sora的出現(xiàn)，預(yù)示著一個全新的視覺敘事時代的到來，它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動的動態(tài)畫面，將文字的魔力轉(zhuǎn)化為視覺的盛宴。在這個由數(shù)據(jù)和算法編織的未來，Sora正以其獨(dú)特的方式，或?qū)⒅匦露x我們與數(shù)字世界的互動。

OpenAI在模型公布后的不久，就公布了相關(guān)的技術(shù)論文《Video generation models as world simulators》。以下為論文的主要內(nèi)容：

Sora的技術(shù)特點(diǎn)

三維空間的連貫性：Sora可以生成帶有動態(tài)相機(jī)運(yùn)動的視頻。隨著相機(jī)移動和旋轉(zhuǎn)，人物和場景元素在三維空間中保持連貫的運(yùn)動。

模擬數(shù)字世界：Sora還能模擬人工過程，如視頻游戲。Sora能夠同時控制Minecraft中的玩家，并高保真地渲染游戲世界及其動態(tài)。通過提及“Minecraft”的提示，可以零樣本地激發(fā)Sora的這些能力

長期連續(xù)性和物體持久性：對視頻生成系統(tǒng)來說，Sora通常能夠有效地模擬短期和長期的依賴關(guān)系。同樣，它能在一個樣本中生成同一角色的多個鏡頭，確保其在整個視頻中的外觀一致。

與世界互動：Sora有時能夠模擬對世界狀態(tài)產(chǎn)生簡單影響的行為。例如，畫家可以在畫布上留下隨時間持續(xù)的新筆觸，或者一個人吃漢堡時留下咬痕。

訓(xùn)練過程

Sora 的訓(xùn)練受到了大語言模型（Large Language Model）的啟發(fā)。這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行訓(xùn)練，從而獲得了廣泛的能力。

Sora實際上是一種擴(kuò)散型變換器模型（diffusion transformer）。首先將視頻壓縮到一個低維潛在空間中，然后將這種表現(xiàn)形式分解成時空區(qū)塊，從而將視頻轉(zhuǎn)換為區(qū)塊。它能夠接受帶有噪聲的patch（和條件信息，如文本提示）作為輸入，隨后被訓(xùn)練，來預(yù)測原始的“干凈”patch。

訓(xùn)練了一個用于降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)以原始視頻為輸入，輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進(jìn)行訓(xùn)練，并在此空間中生成視頻。還開發(fā)了一個對應(yīng)的解碼器模型，它能將生成的潛在表示映射回到像素空間。

對于給定的壓縮輸入視頻，提取一系列時空區(qū)塊，它們在變換器模型中充當(dāng)標(biāo)記（token）。這種方案同樣適用于圖像，因為圖像本質(zhì)上是單幀的視頻。基于區(qū)塊的表示方法使Sora能夠針對不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進(jìn)行訓(xùn)練。在推理過程中，可以通過在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的區(qū)塊來控制生成視頻的大小。

隨著 Sora 訓(xùn)練計算量的增加，樣本質(zhì)量有了顯著提升。

Sora訓(xùn)練時沒有對素材進(jìn)行裁切，使得Sora能夠直接為不同設(shè)備以其原生縱橫比創(chuàng)造內(nèi)容。針對視頻的原生縱橫比進(jìn)行訓(xùn)練，還可以提高構(gòu)圖和取景的質(zhì)量。

它還可以先以較低分辨率快速制作出視頻原型，再用相同的模型制作出全分辨率的視頻。

訓(xùn)練文本到視頻的生成系統(tǒng)需要大量配有相應(yīng)文本提示的視頻。應(yīng)用了在DALL·E 3中引入的重新字幕技術(shù)到視頻上。

與DALL·E 3相似，也利用了GPT技術(shù)，將用戶的簡短提示轉(zhuǎn)換成更詳細(xì)的提示，然后發(fā)送給視頻模型。

論文關(guān)鍵點(diǎn)

OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練生成模型的方法。這項研究特別關(guān)注于文本條件擴(kuò)散模型，這些模型同時在視頻和圖像上進(jìn)行訓(xùn)練，處理不同時長、分辨率和寬高比的數(shù)據(jù)。研究中提到的最大模型 Sora 能夠生成長達(dá)一分鐘的高保真視頻。以下是論文的一些關(guān)鍵點(diǎn)：

統(tǒng)一的視覺數(shù)據(jù)表示：研究者們將所有類型的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表示，以便進(jìn)行大規(guī)模的生成模型訓(xùn)練。Sora 使用視覺補(bǔ)?。╬atches）作為其表示方式，類似于大型語言模型（LLM）中的文本標(biāo)記。

視頻壓縮網(wǎng)絡(luò)：研究者們訓(xùn)練了一個網(wǎng)絡(luò)，將原始視頻壓縮到一個低維潛在空間，并將其表示分解為時空補(bǔ)丁。Sora 在這個壓縮的潛在空間中進(jìn)行訓(xùn)練，并生成視頻。

擴(kuò)散模型：Sora 是一個擴(kuò)散模型，它通過預(yù)測原始“干凈”的補(bǔ)丁來從輸入的噪聲補(bǔ)丁中生成視頻。擴(kuò)散模型在語言建模、計算機(jī)視覺和圖像生成等領(lǐng)域已經(jīng)顯示出了顯著的擴(kuò)展性。

視頻生成的可擴(kuò)展性：Sora 能夠生成不同分辨率、時長和寬高比的視頻，包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設(shè)備生成內(nèi)容，或者在生成全分辨率視頻之前快速原型化內(nèi)容。

語言理解：為了訓(xùn)練文本到視頻生成系統(tǒng)，需要大量的視頻和相應(yīng)的文本標(biāo)題。研究者們應(yīng)用了在 DALL·E 3 中引入的重新描述技術(shù)，首先訓(xùn)練一個高度描述性的標(biāo)題生成器，然后為訓(xùn)練集中的所有視頻生成文本標(biāo)題。

圖像和視頻編輯：Sora 不僅能夠基于文本提示生成視頻，還可以基于現(xiàn)有圖像或視頻進(jìn)行提示。這使得 Sora 能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù)，如創(chuàng)建完美循環(huán)的視頻、動畫靜態(tài)圖像、向前或向后擴(kuò)展視頻等。

模擬能力：當(dāng)視頻模型在大規(guī)模訓(xùn)練時，它們展現(xiàn)出了一些有趣的新興能力，使得 Sora 能夠模擬物理世界中的某些方面，如動態(tài)相機(jī)運(yùn)動、長期一致性和對象持久性等。

雖然存在不足之處，但這不是關(guān)鍵

盡管 Sora 展示了作為模擬器的潛力，但它仍然存在許多局限性，例如在模擬基本物理交互時的準(zhǔn)確性不足。

比如下面這個由 Sora 生成的視頻當(dāng)中，動物的數(shù)量隨著時間的推移出現(xiàn)了明顯的錯亂，多個動物憑空出現(xiàn)又憑空消失了。此外，在一些生成的視頻當(dāng)中還會出現(xiàn)違反物理規(guī)則的現(xiàn)象。但是，對于新生的Sora來說，這些都不是關(guān)鍵，后續(xù)完全能夠通過技術(shù)迭代來進(jìn)行完善和改進(jìn)。

這也是為什么，Sora雖然有一些不完美之處，但是外界仍一致認(rèn)為它將會革命性地改變許多行業(yè)。

可以說，目前的Sora已經(jīng)擁有了足以改變視頻廣告行業(yè)的能力，如果持續(xù)迭代，并在保持穩(wěn)定性和一致性的前提下，進(jìn)一步支持更復(fù)雜的交互、更長的視頻時長，并加入更為豐富的AI視頻編輯功能，必將對于現(xiàn)有的影視制作產(chǎn)業(yè)帶來革命。

試想一下，如果將一部小說輸入Sora就能夠生成一部高質(zhì)量的電影，這將會是多么的激動人心！這將極大的降低視頻創(chuàng)作的門檻，并提升視頻的質(zhì)量，這對于整個行業(yè)來說都將帶來更為積極的意義。當(dāng)然，這也將會沖擊到現(xiàn)有的傳統(tǒng)視頻制作產(chǎn)業(yè)鏈上的諸多從業(yè)者，恐怕很多演員、導(dǎo)演、攝影師，以及很多相關(guān)的服裝、化妝、道具人員都將要失業(yè)了。

來源：芯智訊原文：

https://mp.weixin.qq.com/s/_WIFlmCzQHS4K1fRSkgmYg

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1128

瀏覽量
40585
變換器

變換器

+關(guān)注

關(guān)注
17

文章
2081

瀏覽量
109027
人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46300

瀏覽量
236463
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1009

瀏覽量
6343
Sora

Sora

+關(guān)注

關(guān)注
0

文章
75

瀏覽量
177

原文標(biāo)題：一場AI“革命”開始，OpenAI文生視頻模型Sora要點(diǎn)分析

文章出處：【微信號：架構(gòu)師技術(shù)聯(lián)盟，微信公眾號：架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

智譜AI正在研發(fā)國產(chǎn)文生視頻模型，對標(biāo)OpenAI Sora

國內(nèi)AI領(lǐng)域的獨(dú)角獸企業(yè)智譜AI正全力研發(fā)一款與OpenAI的Sora相媲美的國產(chǎn)文生視頻模型。據(jù)悉，該

發(fā)表于 05-13 11:14 ?590次閱讀

智譜AI正研發(fā)對標(biāo)Sora的國產(chǎn)文生視頻模型

智譜AI，這家國內(nèi)估值超過200億的AI大模型獨(dú)角獸企業(yè)，正全力投入研發(fā)一款與OpenAI的Sora相媲美的國產(chǎn)文生視頻

發(fā)表于 05-07 09:22 ?476次閱讀

OpenAI發(fā)布文生視頻大模型Sora、英偉達(dá)市值超谷歌

OpenAI加入文生視頻大模型的戰(zhàn)局，AI大模型進(jìn)入視頻生成的階段，這將進(jìn)一步刺激AI芯片的需求

發(fā)表于 03-28 18:13 ?796次閱讀

7萬張H100打造的OpenAI文生視頻Sora功能原理詳解|Sora注冊全攻略

近日，OpenAI發(fā)布的基于Transformer架構(gòu)的文生視頻Sora，可謂是在AI圈掀起新的熱潮。該模型具有強(qiáng)大的

發(fā)表于 02-29 11:48 ?931次閱讀

sora模型怎么使用 sora模型對現(xiàn)實的影響

美國當(dāng)?shù)貢r間2024年2月15日，OpenAI正式發(fā)布文生視頻模型Sora ，并發(fā)布了48個文生

發(fā)表于 02-22 16:42 ?1079次閱讀

OpenAI新推文生視頻大模型Sora引發(fā)熱議，首批受益者涌現(xiàn)

在科技浪潮中，OpenAI再次引領(lǐng)潮流。繼2023年的文生文大語言模型之后，2024年春節(jié)期間，OpenAI推出的文生

發(fā)表于 02-22 14:15 ?645次閱讀

openai發(fā)布首個視頻生成模型sora

美國當(dāng)?shù)貢r間2024年2月15日，OpenAI正式發(fā)布文生視頻模型Sora ，并發(fā)布了48個文生

發(fā)表于 02-21 16:45 ?1120次閱讀

sora系列是哪個公司的 sora視頻怎么用

sora系列是哪個公司的 Sora，美國人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型

發(fā)表于 02-21 16:35 ?4191次閱讀

Sora助推OpenAI估值飆升275%

近日，人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI發(fā)布了其首個文生視頻模型——Sora。這款模型具備令人驚

發(fā)表于 02-20 14:12 ?477次閱讀

OpenAI發(fā)布人工智能文生視頻大模型Sora

近日，人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI宣布推出其最新的人工智能文生視頻大模型——Sora。這款模型

發(fā)表于 02-20 13:54 ?759次閱讀

OpenAI發(fā)布文生視頻模型Sora，開啟AI內(nèi)容創(chuàng)作新紀(jì)元

近日，人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI在其官網(wǎng)上正式發(fā)布了名為Sora的文生視頻大模型。這款模型

發(fā)表于 02-20 13:44 ?559次閱讀

英偉達(dá)市值躍居全球第四文生視頻大模型Sora帶動

英偉達(dá)市值躍居全球第四文生視頻大模型Sora帶動文生視頻大

發(fā)表于 02-19 16:48 ?927次閱讀

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀(jì)元

在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的，正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽(yù)的

發(fā)表于 02-19 11:03 ?828次閱讀

OpenAI推出全新文生視頻模型Sora

近日，全球領(lǐng)先的人工智能研究公司OpenAI宣布推出其最新的文生視頻大模型“Sora”。該模型具

發(fā)表于 02-19 10:56 ?725次閱讀

奧特曼發(fā)布王炸模型Sora OpenAI首個文生視頻模型Sora正式亮相

奧特曼發(fā)布王炸模型Sora OpenAI首個文生視頻模型So

發(fā)表于 02-18 17:41 ?898次閱讀

搜索歷史

OpenAI文生視頻模型Sora要點(diǎn)分析

評論

智譜AI正在研發(fā)國產(chǎn)文生視頻模型，對標(biāo)OpenAI Sora

智譜AI正研發(fā)對標(biāo)Sora的國產(chǎn)文生視頻模型

OpenAI發(fā)布文生視頻大模型Sora、英偉達(dá)市值超谷歌

7萬張H100打造的OpenAI文生視頻Sora功能原理詳解|Sora注冊全攻略

sora模型怎么使用 sora模型對現(xiàn)實的影響

OpenAI新推文生視頻大模型Sora引發(fā)熱議，首批受益者涌現(xiàn)

openai發(fā)布首個視頻生成模型sora

sora系列是哪個公司的 sora視頻怎么用

Sora助推OpenAI估值飆升275%

OpenAI發(fā)布人工智能文生視頻大模型Sora

OpenAI發(fā)布文生視頻模型Sora，開啟AI內(nèi)容創(chuàng)作新紀(jì)元

英偉達(dá)市值躍居全球第四文生視頻大模型Sora帶動

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀(jì)元

OpenAI推出全新文生視頻模型Sora

奧特曼發(fā)布王炸模型Sora OpenAI首個文生視頻模型Sora正式亮相