0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用URL2Video可以將網(wǎng)頁(yè)快速生成有創(chuàng)意的短視頻

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-12-07 14:07 ? 次閱讀

機(jī)器學(xué)習(xí)可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)內(nèi)容的理解,并選取關(guān)鍵對(duì)象生成有趣的短視頻。Google研究團(tuán)隊(duì)通過使用URL2Video可以將網(wǎng)頁(yè)快速生成有創(chuàng)意的短視頻。包括百度、快手、字節(jié)跳動(dòng)等都有相關(guān)的短視頻自動(dòng)化生產(chǎn)工具,隨著技術(shù)的成熟,將有大量的短視頻出自自動(dòng)化工具之手。在12月的LiveVideoStackCon 2020 SFO線上大會(huì)上,百度美國(guó)研究院資深研究員陳曦將會(huì)介紹“無人值守的大規(guī)模AI視頻生產(chǎn)”。

在Google,我們正在積極探索在制作多媒體內(nèi)容時(shí),人們?nèi)绾问褂糜蓹C(jī)器學(xué)習(xí)和計(jì)算方法提供的創(chuàng)造性工具,從創(chuàng)作音樂、重新架構(gòu)視頻,到繪畫等等都涉及到了這方面內(nèi)容。尤其是視頻制作這樣一個(gè)頗具創(chuàng)意的過程,它可以很好地受益于這些工具,因?yàn)樗枰龀鲆幌盗袥Q策,確定哪些內(nèi)容最適合目標(biāo)受眾,如何在視圖中妥善排布現(xiàn)有資源,以及怎樣進(jìn)行時(shí)間安排能夠帶來最具吸引力的描述。但假如一個(gè)人能利用現(xiàn)有的資源,比如一個(gè)網(wǎng)站,來開啟視頻創(chuàng)作呢?大多數(shù)企業(yè)主辦的網(wǎng)站都呈現(xiàn)了關(guān)于其產(chǎn)品或服務(wù)豐富的視圖內(nèi)容,所有這些內(nèi)容都可以被重新應(yīng)用到其他多媒體格式,比如視頻,這可能使那些沒有大量資源的人能夠接觸到更廣泛的受眾。 2020年UIST上發(fā)表的“網(wǎng)頁(yè)端視頻的自動(dòng)化制作”里,我們介紹了一種基于內(nèi)容所有者提供的時(shí)間和視圖限制,將網(wǎng)頁(yè)自動(dòng)轉(zhuǎn)換為短視頻的研究原型——URL2Video。URL2Video從HTML源中提取資源(文本、圖像或視頻)及其設(shè)計(jì)風(fēng)格(包括字體、顏色、圖形布局和層次結(jié)構(gòu)),并將這些可視資源組合成一系列的快照,同時(shí)保持與源頁(yè)面相似的外觀和感覺,然后根據(jù)用戶指定的縱橫比和持續(xù)時(shí)間,將這些材料重新利用,渲染成一個(gè)適合產(chǎn)品和服務(wù)廣告的視頻。

URL2Video概述

假設(shè)用戶提供了一個(gè)闡述他們業(yè)務(wù)的網(wǎng)頁(yè)URL,URL2Video會(huì)自動(dòng)從頁(yè)面中選擇關(guān)鍵內(nèi)容,并根據(jù)一組針對(duì)熟悉網(wǎng)頁(yè)設(shè)計(jì)和視頻廣告制作的設(shè)計(jì)師的訪談研究得到的啟發(fā)式算法,決定每個(gè)資源的時(shí)間和視圖展示。這些如設(shè)計(jì)師般熟知的啟發(fā)式算法捕獲常見的視頻編輯樣式,包括內(nèi)容層次結(jié)構(gòu),限制一個(gè)快照中的信息量及其持續(xù)時(shí)間,為品牌提供一致的顏色和樣式等等。利用這些信息,URL2Video解析網(wǎng)頁(yè),分析內(nèi)容,選擇視覺突出的文本或圖像,同時(shí)保留它們的設(shè)計(jì)風(fēng)格,并根據(jù)用戶提供的視頻規(guī)范進(jìn)行組合。

通過在輸入的網(wǎng)頁(yè)中提取結(jié)構(gòu)內(nèi)容和設(shè)計(jì),URL2Video做出自動(dòng)編輯決策,在視頻中呈現(xiàn)關(guān)鍵信息。它考慮到用戶定義的輸出視頻的時(shí)間限定(比如以秒為單位的持續(xù)時(shí)間)和空間限定(比如高寬比)。

網(wǎng)頁(yè)分析

一個(gè)網(wǎng)頁(yè)的URL,URL2Video會(huì)提取它的文檔對(duì)象模型(DOM)信息和多媒體材料。出于研究模型的目的,我們將域限制在靜態(tài)網(wǎng)上,這些頁(yè)面包含HTML層次結(jié)構(gòu)中保存的突出資源和標(biāo)題,這些層次結(jié)構(gòu)遵循最近的網(wǎng)頁(yè)設(shè)計(jì)原則,鼓勵(lì)使用重點(diǎn)的元素、更清晰的部分以及引導(dǎo)讀者感知信息的視覺焦點(diǎn)順序。URL2Video將這些視覺上可區(qū)分的元素標(biāo)記到資源組的候選列表,每個(gè)元素可能包含一個(gè)標(biāo)題、一個(gè)產(chǎn)品圖象、詳細(xì)描述和調(diào)用操作按鈕,并捕獲每個(gè)元素的原始素材(文本和多媒體文件)和詳細(xì)的設(shè)計(jì)規(guī)范(HTML標(biāo)簽、CSS樣式和呈現(xiàn)位置)。然后,通過根據(jù)每個(gè)資源組的視覺外觀和注釋,包括它們的HTML標(biāo)簽、呈現(xiàn)的尺寸還有顯示在頁(yè)面上的順序?qū)γ總€(gè)組進(jìn)行排序。這樣,在頁(yè)面頂部占據(jù)較大區(qū)域的資源組將獲得更高的分?jǐn)?shù)。

限定型的資源選擇

在制作視頻時(shí),我們考慮了兩個(gè)目標(biāo):(1)每個(gè)鏡頭都應(yīng)該提供簡(jiǎn)潔的視頻信息;(2)視覺設(shè)計(jì)應(yīng)該與源網(wǎng)頁(yè)一致?;谶@些目標(biāo)和用戶提供的視頻限定條件,包括預(yù)期的視頻持續(xù)時(shí)間(以秒為單位)和高寬比(通常為16:9、4:3、1:1等),URL2Video自動(dòng)選擇并命令資源組優(yōu)化總體優(yōu)先級(jí)分?jǐn)?shù)。為了使內(nèi)容簡(jiǎn)潔,它只顯示頁(yè)面中的主要元素,例如標(biāo)題和一些多媒體資源。它限定了觀眾所感知內(nèi)容的每個(gè)視覺元素的持續(xù)時(shí)間。這樣,簡(jiǎn)短的視頻強(qiáng)調(diào)了頁(yè)面頂部最突出的信息,時(shí)間長(zhǎng)一些的視頻則包含了更多的商業(yè)活動(dòng)或產(chǎn)品信息。

畫面構(gòu)圖與視頻渲染

根據(jù)基于DOM層次結(jié)構(gòu)的有序資源列表,URL2Video并行依照從訪談研究中獲得的設(shè)計(jì)啟發(fā),對(duì)時(shí)間和空間安排做出決策,將資源在單個(gè)鏡頭中展現(xiàn)出來。它將元素的圖形布局轉(zhuǎn)換為視頻的縱橫比,并應(yīng)用了包括字體和顏色在內(nèi)的樣式選擇。為了使視頻更具動(dòng)感和吸引力,它調(diào)整了資源的顯示時(shí)間。最后,它將內(nèi)容渲染為MPEG-4格式的視頻。

用戶控制

研究原型界面允許用戶查看源網(wǎng)頁(yè)提取的每個(gè)視頻鏡頭中的設(shè)計(jì)屬性,以及重新排版材料,更改細(xì)節(jié)設(shè)計(jì),如顏色和字體,并更改限制條件來生成新的視頻。

在URL2Video的創(chuàng)作界面(左)中,用戶指定源頁(yè)面輸入的URL、目標(biāo)頁(yè)面視圖的大小以及輸出視頻參數(shù)。URL2Video分析網(wǎng)頁(yè),并提取主要的視覺組件。由它組成了一系列的鏡頭,并將關(guān)鍵畫面可視化為一個(gè)故事板。這些組件滿足輸入時(shí)間和空間限定后輸出呈現(xiàn)為視頻。用戶可以播放視頻,檢查設(shè)計(jì)屬性(右下角),并進(jìn)行調(diào)整以做視頻更改,例如重新排序鏡頭(右上)。

URL2Video用例

我們?cè)诂F(xiàn)有的各種網(wǎng)頁(yè)上演示了端到端的URL2Video的性能。下面我們特別展示一個(gè)實(shí)例結(jié)果,其中URL2Video將嵌入多個(gè)短視頻剪接的頁(yè)面轉(zhuǎn)換為一個(gè)12秒的輸出視頻。請(qǐng)注意它如何在從源網(wǎng)頁(yè)面捕獲的視頻中對(duì)字體和顏色選擇、時(shí)間和內(nèi)容排序作出自動(dòng)編輯決定的。

URL2Video從我們的Google搜索介紹頁(yè)面(頂部)識(shí)別關(guān)鍵內(nèi)容,包括標(biāo)題和視頻資源。通過綜合考慮顯示流程、源設(shè)計(jì)和輸出限定,URL2Video將它們轉(zhuǎn)換為視頻(12秒的橫向視頻;底部) 下面的視頻作了進(jìn)一步的演示: https://www.youtube.com/watch?v=3yFYc-Wet8k&feature=youtu.be 為了評(píng)估自動(dòng)生成的視頻,我們與Google的設(shè)計(jì)師進(jìn)行了一項(xiàng)用戶研究。實(shí)驗(yàn)結(jié)果表明,URL2Video能夠有效地從網(wǎng)頁(yè)中提取設(shè)計(jì)元素,并通過引導(dǎo)視頻創(chuàng)建的過程為設(shè)計(jì)師提供支持。

下一步

雖然目前的研究集中在視覺展示,但我們正在開發(fā)新的技術(shù),以在視頻編輯中支持音軌和畫外音。總之,我們?cè)O(shè)想的未來是,創(chuàng)作者專注于做出高層決策,而機(jī)器學(xué)習(xí)模型配合其在多個(gè)平臺(tái)上為最終視頻的制作提供詳細(xì)的時(shí)間和圖形編輯建議。

致謝

我們非常感謝我們的論文合著者Zheng Sun(Research)和Katrina Panovich(YouTube)。我們還要感謝我們的同事,他們(按姓氏的字幕順序)-JordanCanedy, Brian Curless, Nathan Frey, Madison Le, Alireza Mahdian, Justin Parra,Emily Ryan, Mogan Shieh, Sandor Szego和Weilong Yang-為URL2Video作出了貢獻(xiàn)。我們感謝我們的領(lǐng)導(dǎo)人Tomas Izo, RahulSukthankar和Jay Yagnik的支持。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 自動(dòng)化
    +關(guān)注

    關(guān)注

    28

    文章

    5438

    瀏覽量

    78913
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8325

    瀏覽量

    132194
  • 短視頻
    +關(guān)注

    關(guān)注

    1

    文章

    122

    瀏覽量

    8869

原文標(biāo)題:URL2Video:把網(wǎng)頁(yè)自動(dòng)創(chuàng)建為短視頻

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AIGC在視頻內(nèi)容制作中的應(yīng)用前景

    AIGC技術(shù)能夠顯著縮短視頻內(nèi)容的制作周期。通過AI算法,可以快速生成視頻剪輯、特效、字幕和配樂等,減少人工操作的時(shí)間。例如,在
    的頭像 發(fā)表于 10-25 15:44 ?77次閱讀

    Adobe發(fā)布人工智能視頻創(chuàng)作工具:Firefly Video Model

    Adobe公司于10月15日正式揭曉了其最新研發(fā)的人工智能視頻創(chuàng)作工具——Firefly Video Model。這一創(chuàng)新解決方案旨在借助AI技術(shù),賦能視頻內(nèi)容創(chuàng)作者拓寬創(chuàng)意邊界,提升
    的頭像 發(fā)表于 10-15 16:20 ?500次閱讀

    視頻時(shí)鐘合成芯片怎么用

    視頻時(shí)鐘合成芯片(Video Clock Synthesizer,VCS)是一種用于生成和調(diào)整視頻信號(hào)時(shí)鐘的電子設(shè)備,廣泛應(yīng)用于視頻處理、顯
    的頭像 發(fā)表于 10-10 11:17 ?129次閱讀

    Adobe推出一款人工智能視頻生產(chǎn)工具

    Adobe即將在今年晚些時(shí)候震撼發(fā)布其最新力作——Adobe Firefly Video Model,一款專為創(chuàng)意專業(yè)人士打造的生成視頻創(chuàng)作與編輯神器。作為Firefly圖像
    的頭像 發(fā)表于 09-12 16:37 ?387次閱讀

    MATLAB-網(wǎng)頁(yè)訪問與關(guān)閉

    MATLAB Web 瀏覽器中打開 url 指定的網(wǎng)頁(yè)。如果 url 是外部網(wǎng)站,web(url) 將在您的系統(tǒng)瀏覽器中打開該網(wǎng)頁(yè)。如果打
    發(fā)表于 09-05 16:23

    曠視AI開源新突破:上傳照片即可生成表情包視頻

    為了展示其泛化性,MegActor甚至可以VASA中的人物肖像和視頻組合生成,得到生動(dòng)的表情視頻。即使與阿里EMO的官方案例相比,MegA
    的頭像 發(fā)表于 07-12 11:20 ?278次閱讀
    曠視AI開源新突破:上傳照片即可<b class='flag-5'>生成</b>表情包<b class='flag-5'>視頻</b>!

    MediaTek聯(lián)合快手推出高效端側(cè)視頻生成技術(shù)

    的 AI 模型 I2V(image to video)Adapter 與 MediaTek 天璣 9300、天璣 8300 移動(dòng)平臺(tái)強(qiáng)勁的 AI 算力,在端側(cè)實(shí)現(xiàn)由靜態(tài)圖像生成動(dòng)態(tài)視頻
    的頭像 發(fā)表于 07-05 11:23 ?4448次閱讀

    Google開發(fā)專為視頻生成配樂的人工智能技術(shù)

    近日,科技巨頭Google旗下的人工智能研究實(shí)驗(yàn)室DeepMind宣布了一項(xiàng)引人注目的技術(shù)突破——V2A技術(shù)(Video to Audio),這是一項(xiàng)專為視頻生成配樂的人工智能技術(shù)。這項(xiàng)技術(shù)的誕生,標(biāo)志著人工智能在媒體創(chuàng)作領(lǐng)域邁
    的頭像 發(fā)表于 06-20 11:03 ?445次閱讀

    微軟網(wǎng)頁(yè)版PPT新增語(yǔ)音識(shí)別及字幕生成功能

    據(jù)報(bào)道,微軟計(jì)劃于今年六月份推出網(wǎng)頁(yè)版PowerPoint全新語(yǔ)音識(shí)別功能。此項(xiàng)功能將能夠監(jiān)控PowerPoint視頻中的聲音,進(jìn)而自動(dòng)生成字幕。
    的頭像 發(fā)表于 05-16 14:36 ?322次閱讀

    [技術(shù)干貨]?MoneyPrinterTurbo,利用 AI 大模型,一鍵生成高清短視頻

    開始使用 步驟 1?訪問該促銷活動(dòng)購(gòu)買頁(yè)面,按照如下配置完成 AI 生成短視頻服務(wù)器的部署。 步驟 2?登錄彈性云服務(wù)器控制臺(tái)。使用 Linux 連接工具登錄服務(wù)器,或者在控制臺(tái)單擊“遠(yuǎn)程登錄
    的頭像 發(fā)表于 04-07 15:11 ?1382次閱讀
    [技術(shù)干貨]?MoneyPrinterTurbo,利用 AI 大模型,一鍵<b class='flag-5'>生成</b>高清<b class='flag-5'>短視頻</b>

    Stability AI推出Stable Video 3D模型,可制作多視角3D視頻

    SV3D_u是Stable Video 3D的一個(gè)版本,僅需單幅圖片即可生成運(yùn)動(dòng)軌跡視頻,無須進(jìn)行相機(jī)調(diào)整。擴(kuò)充版本的SV3D_p加入了軌道視圖的特性,使其可以根據(jù)預(yù)設(shè)的相機(jī)路徑創(chuàng)建3
    的頭像 發(fā)表于 03-21 14:57 ?885次閱讀

    OpenAI 在 AI 生成視頻領(lǐng)域扔出一枚“王炸”,視頻生成模型“Sora”

    人工智能,根據(jù)書面命令立即創(chuàng)建短視頻。JAEALOT2024年2月16日2月16日凌晨,也就是中國(guó)大年初七,OpenAI在AI生成視頻領(lǐng)域扔
    的頭像 發(fā)表于 02-22 08:25 ?326次閱讀
    OpenAI 在 AI <b class='flag-5'>生成</b><b class='flag-5'>視頻</b>領(lǐng)域扔出一枚“王炸”,<b class='flag-5'>視頻生成</b>模型“Sora”

    openai發(fā)布首個(gè)視頻生成模型sora

    行業(yè)目前大概只有平均“4s”的視頻生成長(zhǎng)度。 Sora能夠獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀,這一功能在視頻編輯、電影特效等領(lǐng)域具有應(yīng)用前景,可以幫助用戶
    的頭像 發(fā)表于 02-21 16:45 ?1124次閱讀

    鴻蒙ArkUI開發(fā)-Video組件的使用

    視頻功能為例,在應(yīng)用開發(fā)過程中,我們需要通過ArkUI提供的Video組件為應(yīng)用增加基礎(chǔ)的視頻播放功能。借助Video組件,我們可以實(shí)現(xiàn)
    的頭像 發(fā)表于 01-23 16:59 ?1156次閱讀
    鴻蒙ArkUI開發(fā)-<b class='flag-5'>Video</b>組件的使用

    php生成動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容的方法

    PHP是一種廣泛用于Web開發(fā)的腳本語(yǔ)言,可用于生成動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容。在本文中,我們介紹使用PHP生成動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容的方法。 什么是動(dòng)態(tài)
    的頭像 發(fā)表于 12-04 16:22 ?769次閱讀