91短视频版高清在线观看免费,国产粗话肉麻对白在线播放,亚洲av色影在线

日前，曠視科技發(fā)布了一項新的開源AI人像視頻生成框架——MegActor。該框架讓用戶只需輸入一張靜態(tài)肖像圖片和一段視頻（如演講、表情包、rap），便可生成一段表情豐富、動作一致的AI人像視頻。生成的視頻長度取決于輸入的視頻長度。與阿里EMO、微軟VASA等最新AI視頻模型不同，曠視MegActor采用開源方式，供開發(fā)者社區(qū)使用。MegActor生成的視頻畫質(zhì)更出色，面部細節(jié)更加豐富自然。

為了展示其泛化性，MegActor甚至可以將VASA中的人物肖像和視頻組合生成，得到生動的表情視頻。即使與阿里EMO的官方案例相比，MegActor也能生成近似的效果。

總的來說，無論是讓肖像開口說話、唱歌、模仿搞怪表情包，MegActor都能生成逼真的效果。

論文鏈接：https://arxiv.org/abs/2405.20851

代碼地址：https://github.com/megvii-research/megactor

項目地址：https://megactor.github.io/

MegActor是曠視研究院的最新研究成果。曠視研究院是曠視公司級研究機構(gòu)，旨在通過基礎(chǔ)創(chuàng)新突破AI技術(shù)邊界，以工程創(chuàng)新實現(xiàn)技術(shù)到產(chǎn)品的快速轉(zhuǎn)化。多年來，曠視研究院已成為全球領(lǐng)先的人工智能研究機構(gòu)。

目前的人像視頻生成領(lǐng)域中，許多工作通常使用高質(zhì)量的閉源數(shù)據(jù)進行訓(xùn)練，以追求更好的效果。而曠視研究院始終堅持全面開源，確保實際效果的可復(fù)現(xiàn)性。MegActor的訓(xùn)練數(shù)據(jù)全部來自公開可獲取的開源數(shù)據(jù)集，配合開源代碼，使得感興趣的從業(yè)者可以從頭開始完整復(fù)現(xiàn)這些效果。

為了完全復(fù)刻原始視頻的表情和動作，MegActor采用原始圖像進行驅(qū)動，這與多數(shù)廠商使用的中間表示方法（如sketch、pose、landmark）不同，能夠捕捉到細致的表情和運動信息。

曠視科技研究總經(jīng)理范浩強表示，在AI視頻生成領(lǐng)域，我們發(fā)現(xiàn)目前主流的骨骼關(guān)鍵點控制方式不僅要求用戶提供難以獲取的專業(yè)控制信號，同時生成視頻的保真度也不盡如人意。通過研究發(fā)現(xiàn)，使用原視頻進行驅(qū)動，不僅降低了控制信號的門檻，更能生成保真且動作一致的視頻。

具體來說，MegActor主要由兩個階段構(gòu)成：

使用ReferenceNet對參考圖像進行特征提取，獲取參考圖像的外觀和背景信息；

使用PoseGuider對輸入視頻進行運動和表情信息提取，將這些信息遷移到參考圖像上。

雖然使用原始視頻進行驅(qū)動能帶來更豐富的表情細節(jié)和運動信息，但也存在ID泄露和背景干擾等挑戰(zhàn)。為此，MegActor采用了條件擴散模型，引入了合成數(shù)據(jù)生成框架，創(chuàng)建具有一致動作和表情但不同身份ID的視頻，以減輕ID泄露的問題。MegActor還分割了參考圖像的前景和背景，并使用CLIP對背景細節(jié)進行編碼，確保背景的穩(wěn)定性。

在數(shù)據(jù)訓(xùn)練方面，曠視研究院團隊使用公開數(shù)據(jù)集（VFHQ和CeleV）進行訓(xùn)練，總時長超過700小時。為了避免ID泄露問題，團隊還使用換臉和風(fēng)格化方法1:1生成合成數(shù)據(jù)，實現(xiàn)表情和動作一致但ID不一致的數(shù)據(jù)。此外，團隊使用注視檢測模型處理數(shù)據(jù)，獲取大約5%的高質(zhì)量數(shù)據(jù)進行Finetune訓(xùn)練。

通過新的模型框架和訓(xùn)練方法，曠視研究院團隊僅使用了不到200塊V100顯卡小時的訓(xùn)練時長，最終實現(xiàn)了以下特性：

根據(jù)輸入視頻生成任意持續(xù)時間的模仿視頻，確保角色身份一致性；

支持各種驅(qū)動視頻，如演講、唱歌、表情包等；

支持不同畫風(fēng)（照片、傳統(tǒng)繪畫、漫畫、AI數(shù)字人等）；

與音頻生成方法相比，MegActor生成的視頻不僅能確保表情和動作一致，更能達到自然程度。

目前，MegActor已經(jīng)完全開源，供開發(fā)者和用戶即開即用。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
87

文章
29383

瀏覽量
267679
開源

開源

+關(guān)注

關(guān)注
3

文章
3185

瀏覽量
42241

重慶兩江新區(qū)與吉利汽車集團、曠視科技簽署合作協(xié)議

日前，重慶兩江新區(qū)與吉利汽車集團、曠視科技簽署戰(zhàn)略合作協(xié)議。市委書記袁家軍，市委副書記、市長胡衡華會見了吉利控股集團董事長李書福、曠視科技董事長兼CEO印奇一行并見證簽約。

發(fā)表于 09-02 14:13 ?366次閱讀

聚焦物聯(lián)網(wǎng)場景，曠視科技核心技術(shù)能力持續(xù)升級

曾經(jīng)備受青睞的“AI四小龍”之一，曠視科技在更早的時候曾向港交所遞交上市申請，闖關(guān)未果后轉(zhuǎn)向上交所科創(chuàng)板。 ? 曠視科技核心技術(shù)能力 ?

發(fā)表于 07-25 00:09 ?4000次閱讀

MediaTek與快手攜手創(chuàng)新，端側(cè)視頻生成技術(shù)引領(lǐng)AI新紀元

在科技日新月異的今天，MediaTek與快手再次攜手，于近日宣布了一項重大技術(shù)突破——高效端側(cè)視頻生成技術(shù)的誕生。這項技術(shù)不僅是對即將于2024年世界移動通信大會（MWC 2024）上亮相的先進視頻生成技術(shù)的有力延續(xù)，更是雙方在

發(fā)表于 07-05 11:52 ?870次閱讀

MediaTek聯(lián)合快手推出高效端側(cè)視頻生成技術(shù)

只需在設(shè)備上選取圖片，應(yīng)用即可智能地識別照片中的人物和場景，生成自然流暢的視頻佳作，從而顯著提升視頻制作的創(chuàng)意表現(xiàn)和效率。

發(fā)表于 07-05 11:23 ?4445次閱讀

谷歌AI新突破：為無聲視頻智能配音

近日，谷歌DeepMind團隊公布了一項革命性的技術(shù)——利用AI為無聲視頻生成背景音樂的“video-to-audio”技術(shù)。這一技術(shù)的出現(xiàn)，不僅為視頻創(chuàng)作領(lǐng)域帶來了新的可能，也為觀眾帶來了更加豐富的視聽體驗。

發(fā)表于 06-21 10:50 ?431次閱讀

阿里云視頻生成技術(shù)創(chuàng)新！視頻生成使用了哪些AI技術(shù)和算法

電子發(fā)燒友網(wǎng)報道（文/李彎彎）日前，阿里云宣布通義實驗室研發(fā)的視頻生成模型EMO正式上線通義App，免費對所有人開放。借助這一功能，用戶可以在歌曲、熱梗、表情包中任選一款模板，然后通過上傳

發(fā)表于 05-08 00:07 ?3259次閱讀

曠視與樂天國際物流在北京正式簽署戰(zhàn)略合作協(xié)議

4月17日，曠視與韓國樂天國際物流（LOTTE GLOBAL LOGISTICS）在北京正式簽署戰(zhàn)略合作協(xié)議。

發(fā)表于 04-23 11:52 ?492次閱讀

曠視科技與上海家化正式簽署《AI科技創(chuàng)新合作框架協(xié)議》

3月18日，在2024年上海家化“致美·致時代”年度發(fā)布會上，上海家化聯(lián)合股份有限公司與北京曠視科技有限公司正式簽署《AI科技創(chuàng)新合作框架協(xié)議》，雙方將在AI賦能美業(yè)領(lǐng)域進一步展開深度

發(fā)表于 03-20 10:21 ?509次閱讀

新火種AI|圍攻光明頂：Sora效應(yīng)下的AI視頻生成競賽

Sora的出現(xiàn)，讓AI視頻生成領(lǐng)域真正“活”了起來

發(fā)表于 03-16 11:12 ?559次閱讀

除了刷屏的Sora，國內(nèi)外還有哪些AI視頻生成工具

。Sora的發(fā)布也讓AI生成視頻有了突破性進展。 ? 過去一年多，全球科技公司都在發(fā)布各種大模型，然而AI

發(fā)表于 02-26 08:42 ?4155次閱讀

OpenAI 在 AI 生成視頻領(lǐng)域扔出一枚“王炸”，視頻生成模型“Sora”

ABSTRACT摘要2月16日凌晨，也就是中國大年初七，OpenAI在AI生成視頻領(lǐng)域扔出一枚“王炸”，宣布推出全新的生成式人工智能模型“Sora”。這家舊金山公司周四推出的該工具使用

發(fā)表于 02-22 08:25 ?324次閱讀

探索OpenAI Sora視頻AI生成技術(shù)及其應(yīng)用如何使用指南

OpenAI的Sora現(xiàn)已擴展其能力范圍，進入視頻生成領(lǐng)域，標志著人工智能技術(shù)在多媒體內(nèi)容創(chuàng)作上的一個重大突破。Sora的視頻AI功能使得用戶能夠根據(jù)文本描述自動

發(fā)表于 02-20 12:01 ?1344次閱讀

OpenAI新年開出王炸，視頻生成模型Sora問世

近日，OpenAI在AI生成視頻領(lǐng)域取得重大突破，發(fā)布了全新的生成式人工智能模型“Sora”。該模型在視

發(fā)表于 02-20 11:46 ?685次閱讀

AI視頻年大爆發(fā)！2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點

2023年，也是AI視頻元年。過去一年究竟有哪些爆款應(yīng)用誕生，未來視頻生成領(lǐng)域面臨的難題還有哪些？

發(fā)表于 02-20 10:40 ?1057次閱讀

OpenAI發(fā)布文生視頻模型Sora，引領(lǐng)AI視頻生成新紀元

在人工智能(AI)領(lǐng)域掀起新一輪革命浪潮的，正是OpenAI最新推出的文生視頻大模型——Sora。這款被業(yè)界廣泛贊譽的模型，以其“逼真”和“富有想象力”的視頻生成能力，徹底顛覆了傳統(tǒng)視頻生成

發(fā)表于 02-19 11:03 ?832次閱讀