電影、劇集等視頻的創(chuàng)作、生產(chǎn)、分銷等環(huán)節(jié)已經(jīng)可以通過算法優(yōu)化提升效率。Netflix的AVA平臺可以自動的甄選最有代表性的劇照,從而針對不同人群推送最能打動觀眾的劇照。
在Netflix公司,無論是內(nèi)容平臺工程師團(tuán)隊(duì),還是全球產(chǎn)品創(chuàng)意團(tuán)隊(duì)都知道,觀眾在尋找新的節(jié)目和電影觀看時,封面插圖扮演著非常重要的角色。我們可以透過封面插圖,揭示故事的獨(dú)特元素,而這些元素將我們的觀眾與不同的角色和故事線索聯(lián)系起來。我們?yōu)榇烁械胶茏院?。隨著我們的原創(chuàng)內(nèi)容不斷增多,我們的技術(shù)專家的任務(wù)是尋找新的方式來處理不多擴(kuò)展的資源,并使我們的創(chuàng)意可以擺脫不斷增長的令人厭煩的數(shù)字宣傳需求。其中的一個方法是直接從我們的源視頻中采集靜態(tài)圖像幀,以提供更加靈活的原始插圖來源。
商業(yè)案例
宣傳劇照是直接從源視頻內(nèi)容中獲取的靜態(tài)視頻幀,用于擴(kuò)大Netflix服務(wù)的標(biāo)題范圍。在一個一小時的新劇集中,有近86,000個靜態(tài)視頻幀。
通常來說,這些宣傳劇照是由影片的策劃人或編輯人工選擇的,他們需要對打算呈現(xiàn)的源內(nèi)容有深入的了解。通過A / B測試我們了解到,通過盡可能多地變換各種不同的標(biāo)題,我們可以有效地推動預(yù)期和意外受眾群體進(jìn)行更多地觀看。說到標(biāo)題藝術(shù),我們喜歡測試一個標(biāo)題的許多藝術(shù)表現(xiàn)形式,以便為正確的觀眾找到“正確的”作品插圖。雖然這為創(chuàng)新和測試提供了一個令人興奮的機(jī)會,但它同時也提出了一個非常嚴(yán)峻的挑戰(zhàn),即在我們不斷增長的全球內(nèi)容目錄中的每個標(biāo)題上實(shí)踐這種體驗(yàn)。
AVA
AVA是一個工具和算法的集合,旨在從我們服務(wù)的視頻中提取高質(zhì)量的圖像。平均一個電視節(jié)目(約10集)包含近900萬個總幀數(shù)。要求創(chuàng)意編輯們從許多視頻幀中有效篩選出來一個能夠吸引觀眾注意力的視頻幀是乏味并且缺乏效率的。我們著手構(gòu)建了一個工具,能夠快速有效地識別Netflix服務(wù)上哪些幀能夠最佳地表達(dá)主題和標(biāo)題。
為了實(shí)現(xiàn)這個目標(biāo),我們首先提出了客觀信號,它可以促使我們使用幀注解來衡量視頻的每一幀。因此,我們可以收集視頻的每個幀的有效表示。隨后,我們創(chuàng)建了排序算法,使我們能夠?qū)Ψ蠈徝?、?chuàng)意和多樣性目標(biāo)的視頻幀子集進(jìn)行排序,以準(zhǔn)確地為我們產(chǎn)品的各種畫面呈現(xiàn)內(nèi)容。
由AVA提供的備選圖像
從源視頻到編輯備選圖像的高級階段
幀注解
作為我們自動化流水線的一部分,我們在視頻的每個幀中都處理和注釋不同的變量,以便最好地得出幀的內(nèi)容,并理解該幀對于故事是否重要。為了進(jìn)行橫向擴(kuò)展,并為不斷增長的內(nèi)容目錄提供可預(yù)測的SLA,我們利用Archer框架更有效地處理視頻。Archer允許我們把視頻分成更小的可以并行處理的視頻塊。這使我們能夠通過提高視頻處理流水線的效率來擴(kuò)展規(guī)模,并允許我們將越來越多的內(nèi)容智能算法集成到我們的工具集中。
通過一系列計(jì)算機(jī)視覺算法處理一段內(nèi)容中的每一幀視頻,以收集客觀幀元數(shù)據(jù)、幀的潛在表示,以及這些幀所包含的一些上下文元數(shù)據(jù)。我們處理和應(yīng)用到視頻幀的注解屬性大致可以分為三大類:
視覺元數(shù)據(jù)
通常這些屬性是客觀的、可測量的,并且主要包含在像素級。視覺屬性包括亮度、顏色、對比度和運(yùn)動模糊等等。
我們在幀級捕獲到的一些視覺屬性的例子。
上下文元數(shù)據(jù)
上下文元數(shù)據(jù)由多個元素的組合組成,這些元素被聚合以從幀的角色、對象和攝影機(jī)的動作或移動中獲得含義。下面是一些例子:
人臉識別。使用面部特征跟蹤、姿態(tài)估計(jì)和情感分析技術(shù) —— 這使我們能夠估計(jì)該幀中主體的姿勢和情緒。
運(yùn)動估計(jì)—— 這使我們能夠估計(jì)特定鏡頭中包含的運(yùn)動量(包括攝影機(jī)運(yùn)動和主體運(yùn)動)。這使我們能夠控制諸如運(yùn)動模糊之類的元素,以及識別產(chǎn)生高質(zhì)量靜止圖像的攝影機(jī)移動。
攝影機(jī)拍攝識別—— (例如,近距離拍攝與移動攝影車拍攝)這提供了對電影攝影師意圖的洞察,使我們能夠快速識別并顯現(xiàn)出攝影師選擇的體裁風(fēng)格,以提供對主題表達(dá)的情緒、基調(diào)和流派的更深入洞察。
對象檢測—— 道具和動畫對象的分割檢測使我們能夠找到該幀中重要的非人類主體。
面部特征和姿勢估計(jì)的例子; 我們用一些因子來檢測幀特征,發(fā)現(xiàn)有令人信服的面部表情出現(xiàn)。
用于預(yù)測攝影機(jī)運(yùn)動的光流分析示例,以估計(jì)Black Mirror的拍攝手法(縮小和平移鏡頭)。
構(gòu)圖元數(shù)據(jù)
構(gòu)圖元數(shù)據(jù)是指我們根據(jù)攝影、電影拍攝和視覺美學(xué)設(shè)計(jì)中的一些核心原理確定和定義的一組特殊的啟發(fā)式特征。有一些構(gòu)圖的基本原則:三分法原則、景深原則和對稱原則。
對象檢測和語義分割的例子,以識別三分法美學(xué)的前景對象。
圖像排名
在給定視頻中的每一幀都經(jīng)過處理和注解后,下一步就是通過一個自動藝術(shù)品流水線從這些幀中選出最佳的候選圖像。這樣,當(dāng)我們的創(chuàng)意團(tuán)隊(duì)準(zhǔn)備好開始一段內(nèi)容的工作時,他們會自動提供一個高質(zhì)量的圖像集供您選擇。下面,我們概述一些我們用來為給定標(biāo)題提供最佳圖像的關(guān)鍵考慮元素。
演員
演員在藝術(shù)品中起著非常重要的作用。我們確定給定情節(jié)的關(guān)鍵角色的一種方法是利用臉部聚類和角色識別的組合來對主要角色,而不是次要角色或額外角色進(jìn)行優(yōu)先順序。為了達(dá)到這個目的,我們訓(xùn)練了一個深度學(xué)習(xí)模型,從所有符合幀注解的候選幀中追蹤面部相似性,以找到并排序該標(biāo)題的主要演員,而不知道該劇演員的任何情況。
除了演員重要性之外,我們還會考慮演員的姿勢,面部標(biāo)志以及角色的整體位置。
Wynona Ryder出演Joyce Byers時的幀排名和最佳選擇范例。
由于次優(yōu)的面部表情、姿勢和動作模糊而排名較低的圖像的示例
幀分類
創(chuàng)意和視覺分類是一個非常主觀的學(xué)科,因?yàn)橛泻芏嗖煌姆绞絹砀兄投x圖像的多樣性。在該解決方案中,圖像分類更具體地指的是算法捕捉在單個電影或情節(jié)中自然發(fā)生的具有啟發(fā)式變化的能力。在此過程中,我們希望為設(shè)計(jì)師和創(chuàng)意人員提供一個可擴(kuò)展的機(jī)制,以便快速了解哪些視覺元素最能代表主題,以及哪些元素?zé)o法準(zhǔn)確代表主題。我們在AVA中引入的一些視覺啟發(fā)式變量為一個標(biāo)題提供了不同的圖像集,包括攝影機(jī)鏡頭類型(遠(yuǎn)景vs中景)、視覺相似性(三分法則,亮度,對比度)、顏色(最突出的顏色)和顯著圖(識別負(fù)面空間和復(fù)雜度)。通過結(jié)合這些啟發(fā)式變量,我們可以基于定制矢量對圖像幀進(jìn)行有效聚類后再分類。此外,通過合并多個向量,我們能夠構(gòu)建一個多樣性指數(shù),針對某個特定情節(jié)或電影的所有候選圖像進(jìn)行評分。
AVA的鏡頭檢測分集的例子; (左)中景,(中心)特寫,(右)極端特寫。
成人圖像過濾器
考慮到內(nèi)容敏感度和受眾成熟度等原因,我們還需要確保排除了包含有害或令人反感元素的幀。編輯排除的標(biāo)準(zhǔn)示例,比如: 性/裸露、文字、標(biāo)志/未經(jīng)授權(quán)的品牌,以及暴力/血腥。為了降低含有這些元素的幀的優(yōu)先級,我們將這些變量中的每一個的概率作為向量,使我們能夠量化并最終為這些幀賦予較低的分?jǐn)?shù)。
我們還添加了標(biāo)題流派,內(nèi)容格式,成人度評分等元素作為次要元素或次要特征,并作為反饋,提供給排名預(yù)測模型。
-
算法
+關(guān)注
關(guān)注
23文章
4576瀏覽量
92344 -
甄別
+關(guān)注
關(guān)注
0文章
2瀏覽量
5364
原文標(biāo)題:AVA:Netflix的劇照個性化甄選平臺
文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論