AIGC(人工智能內(nèi)容自動(dòng)生成技術(shù))代表著AI技術(shù)從感知、理解世界到生成、創(chuàng)造世界的躍遷,正推動(dòng)人工智能迎來(lái)下一個(gè)時(shí)代。經(jīng)過(guò)了2022年的預(yù)熱,2023年AIGC領(lǐng)域?qū)⒂瓉?lái)更大發(fā)展。AIGC生成內(nèi)容的類型不斷豐富、質(zhì)量不斷提升,也將有更多的企業(yè)積極擁抱AIGC。在這個(gè)背景下,騰訊研究院正式發(fā)布《AIGC發(fā)展趨勢(shì)報(bào)告2023:迎接人工智能的下一個(gè)時(shí)代》。報(bào)告從技術(shù)發(fā)展和產(chǎn)業(yè)生態(tài)、應(yīng)用趨勢(shì)、治理挑戰(zhàn)等維度,對(duì)AIGC的發(fā)展趨勢(shì)進(jìn)行了深入思考。報(bào)告指出,AIGC將作為生產(chǎn)力工具,不斷推動(dòng)聊天機(jī)器人、數(shù)字人、元宇宙等領(lǐng)域發(fā)展。AIGC技術(shù)讓聊天機(jī)器人接近人類水平日益成為現(xiàn)實(shí),AIGC也在大大提升數(shù)字人的制作效能,并且使其更神似人。在元宇宙領(lǐng)域,AIGC在構(gòu)建沉浸式空間環(huán)境、提供個(gè)性化內(nèi)容體驗(yàn)、打造智能用戶交互等方面發(fā)揮重要作用。
AIGC發(fā)展趨勢(shì)報(bào)告(2023)簡(jiǎn)介
2022年是 AIGC(AI-Generated Content,人工智能生成內(nèi)容)爆火出圈的一年,不僅被消費(fèi)者追捧,而且備受投資界關(guān)注,更是被技術(shù)和產(chǎn)業(yè)界競(jìng)相追逐。
2022年9月23日,紅杉中國(guó)發(fā)表文章《生成式AI:一個(gè)創(chuàng)造性的新世界》,認(rèn)為AIGC會(huì)代表新一輪范式轉(zhuǎn)移的開(kāi)始。2022年10月,Stability AI 獲得約1個(gè)億美元融資,估值高達(dá)10億美元,躋身獨(dú)角獸行列。Stability AI發(fā)布的開(kāi)源模式 Stability Diffusion ,可以根據(jù)用戶輸入的文字描述(稱為提示詞,prompts)自動(dòng)生成圖像,即文生圖(Text-to-Image,T2I)。Stability Diffusion、DALL-E 2、Midjourney 等可以生成圖片的 AIGC 模型引爆了 AI 作畫(huà)領(lǐng)域,AI 作畫(huà)風(fēng)行一時(shí),標(biāo)志人工智能向藝術(shù)領(lǐng)域滲透。
2022年12月,Open AI 的大型語(yǔ)言生成模型 ChatGPT 刷爆網(wǎng)絡(luò),它能勝任刷高情商對(duì)話、生成代碼、構(gòu)思劇本和小說(shuō)等多個(gè)場(chǎng)景,將人機(jī)對(duì)話推向新的高度,讓網(wǎng)友不禁懷疑 ChatGPT 是否已經(jīng)具備人類智能。全球各大科技企業(yè)都在積極擁抱 AIGC,不斷推出相關(guān)技術(shù)、平臺(tái)和應(yīng)用。
01 AIGC技術(shù)和產(chǎn)業(yè)生態(tài)迎來(lái)發(fā)展快車道
1、生成算法、預(yù)訓(xùn)練模式、多模態(tài)等AI技術(shù)累計(jì)融合,催生了AIGC的大爆發(fā)
一是基礎(chǔ)的生成算法模型不斷突破創(chuàng)新;二是預(yù)訓(xùn)練模型引發(fā)了AIGC技術(shù)能力的質(zhì)變;三是多模態(tài)技術(shù)推動(dòng)了AIGC的內(nèi)容多邊形,讓AIGC具有了更通用的能力。
總的來(lái)看,AIGC在2022年的爆發(fā),主要是得益于深度學(xué)習(xí)模型方面的技術(shù)創(chuàng)新。不斷創(chuàng)新的生成算法、預(yù)訓(xùn)練模型、多模態(tài)等技術(shù)融合帶來(lái)了AIGC技術(shù)變革,擁有通用性、基礎(chǔ)性、多模態(tài)、參數(shù)多、預(yù)練數(shù)據(jù)量大、生成內(nèi)容高質(zhì)穩(wěn)定等特征的AIGC模型成為了自動(dòng)化內(nèi)容生產(chǎn)的“工廠”和“流水線”。
2、AIGC產(chǎn)業(yè)生態(tài)加速形成和發(fā)展,走向模型及服務(wù)(MaaS)的未來(lái)
目前,AIGC產(chǎn)業(yè)生態(tài)體系的雛形已現(xiàn),呈現(xiàn)為上中下三層架構(gòu):
第一層為上游基礎(chǔ)層,也就是由預(yù)訓(xùn)練模型為基礎(chǔ)搭建的AIGC技術(shù)基礎(chǔ)設(shè)施層。由于預(yù)訓(xùn)練模型的高成本和技術(shù)投入,因此具有較高的進(jìn)入門檻。
第二層為中間層,即垂直化、場(chǎng)景化、個(gè)性化的模型和應(yīng)用工具。預(yù)訓(xùn)練的大模型是基礎(chǔ)設(shè)施,在此基礎(chǔ)上可以快速抽取生成場(chǎng)景化、定制化、個(gè)性化的小模型,實(shí)現(xiàn)在不同行業(yè)、垂直領(lǐng)域、功能場(chǎng)景的工業(yè)流水線式部署,同時(shí)兼具按需使用、高效經(jīng)濟(jì)的優(yōu)勢(shì)。
第三層為應(yīng)用層,即面向C端用戶的文字、圖片、音視頻等內(nèi)容生成服務(wù)。在應(yīng)用側(cè),側(cè)重滿足用戶的需求,將AIGC模型和用戶的需求無(wú)縫銜接起來(lái)實(shí)現(xiàn)產(chǎn)業(yè)落地。
隨著數(shù)字技術(shù)與實(shí)體經(jīng)濟(jì)融合程度不斷加深,以及互聯(lián)網(wǎng)平臺(tái)的數(shù)字化場(chǎng)景向元宇宙轉(zhuǎn)型,人類對(duì)數(shù)字內(nèi)容總量和豐富程度的整體需求不斷提高。AIGC作為當(dāng)前新型的內(nèi)容生產(chǎn)方式,已經(jīng)率先在傳媒、電商、影視、娛樂(lè)等數(shù)字化程度高、內(nèi)容需求豐富的行業(yè)取得重大創(chuàng)新發(fā)展,市場(chǎng)潛力逐漸顯現(xiàn)。與此同時(shí),在推進(jìn)數(shù)實(shí)融合、加快產(chǎn)業(yè)升級(jí)的進(jìn)程中,金融、醫(yī)療、工業(yè)等各行各業(yè)的AIGC應(yīng)用也都在快速發(fā)展。
02 消費(fèi)端:AIGC牽引數(shù)字內(nèi)容領(lǐng)域全新變革
1、AIGC有望塑造數(shù)字內(nèi)容生產(chǎn)與交互新范式,成為互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施
數(shù)字內(nèi)容邁入強(qiáng)需求、視頻化、拼創(chuàng)意的螺旋式升級(jí)周期,AIGC在這階段的發(fā)展迎合了這一需要。AIGC正在成為越來(lái)越多地參與數(shù)字內(nèi)容的創(chuàng)意性生成工作,以人機(jī)協(xié)同的方式釋放價(jià)值,成為未來(lái)互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)基礎(chǔ)設(shè)施。
2、AIGC的應(yīng)用生態(tài)和內(nèi)容消費(fèi)市場(chǎng)逐漸繁榮
而今在內(nèi)容消費(fèi)領(lǐng)域,AIGC已經(jīng)重構(gòu)了整個(gè)應(yīng)用生態(tài)。作為當(dāng)前新型的內(nèi)容生產(chǎn)方式,AIGC已經(jīng)率先在傳媒、電商、影視、娛樂(lè)等數(shù)字化程度高、內(nèi)容需求豐富的行業(yè)取得重大創(chuàng)新發(fā)展,市場(chǎng)潛力逐漸顯現(xiàn)。2022年,AIGC發(fā)展速度驚人,迭代速度呈現(xiàn)指數(shù)級(jí)爆發(fā),谷歌、Meta、百度等平臺(tái)型巨頭持續(xù)布局,也有Stability AI、Jasper AI等獨(dú)角獸創(chuàng)業(yè)公司問(wèn)世。根據(jù)6pen預(yù)測(cè),未來(lái)五年10%-30%的圖片內(nèi)容由AI參與生成,有望創(chuàng)造超過(guò)600億以上市場(chǎng)空間,若考慮到下一代互聯(lián)網(wǎng)對(duì)內(nèi)容需求的迅速提升,國(guó)外商業(yè)咨詢機(jī)構(gòu)Acumen Research and Consulting預(yù)測(cè),2030年AIGC市場(chǎng)規(guī)模將達(dá)到1100億美元。
3、AIGC將日益成為未來(lái)3D互聯(lián)網(wǎng)的基礎(chǔ)支撐
互聯(lián)網(wǎng)向下一代技術(shù)升級(jí)和演進(jìn)的重要方向是從“在線”走向“在場(chǎng)”,邁向3D互聯(lián)網(wǎng)時(shí)代,AIGC將成為打造虛實(shí)集成世界的基石。AIGC為3D互聯(lián)網(wǎng)帶來(lái)的價(jià)值,既包括3D模型、場(chǎng)景、角色制作能效的提升,也能像AI作畫(huà)那樣,為創(chuàng)作者激發(fā)新的靈感。
4、聊天機(jī)器人和數(shù)字人成為新的、更包容性的用戶交互界面,不斷拓展應(yīng)用領(lǐng)域
(1)聊天機(jī)器人:2022年12月1日,美國(guó)人工智能研究公司Open AI研發(fā)的聊天機(jī)器人產(chǎn)品ChatGPT正式對(duì)外開(kāi)放,一經(jīng)推出便火遍全網(wǎng),截止12月12日已擁有超過(guò)100萬(wàn)名用戶,而ChatGPT正是典型的文本生成式AIGC。
(2)數(shù)字人:首先AIGC大大提升了數(shù)字人的制作效能。用戶可以上傳圖片/視頻,通過(guò)AIGC生成寫(xiě)實(shí)類型的數(shù)字人,具有生成過(guò)程較短、成本低、可定制等特點(diǎn)。其次,AIGC支撐了AI驅(qū)動(dòng)數(shù)字人多模態(tài)交互中的識(shí)別感知和分析決策功能,使其更神似人。
5、AIGC將作為生產(chǎn)力工具來(lái)推動(dòng)元宇宙發(fā)展
近期,Linkedln做了一個(gè)調(diào)查,向Linkedln用戶征集他們最希望了解哪個(gè)元宇宙相關(guān)的技術(shù)主題,76%的受訪者選擇了AIGC。只有通過(guò)AIGC,元宇宙才可能以低成本、高效率的方式滿足海量用戶的不同內(nèi)容需求。首先,AIGC為構(gòu)建沉浸式的元宇宙空間環(huán)境提供了核心基礎(chǔ)設(shè)施技術(shù),將成為元宇宙的生產(chǎn)力工具。其次,AIGC將作為生產(chǎn)力工具為元宇宙用戶提供個(gè)性化內(nèi)容體驗(yàn)。同時(shí),AIGC將賦予用戶更多的創(chuàng)作權(quán)力和自由,促進(jìn)創(chuàng)新并提升元宇宙的用戶體驗(yàn)。最后,AIGC也將作為用戶交互界面的一部分在元宇宙中發(fā)揮作用。
03 產(chǎn)業(yè)端:合成數(shù)據(jù)牽引人工智能的未來(lái)
1、合成數(shù)據(jù)為AI模型訓(xùn)練開(kāi)發(fā)提供強(qiáng)大助推器,推動(dòng)實(shí)現(xiàn)AI2.0
人工智能的發(fā)展應(yīng)用離不開(kāi)數(shù)據(jù),但真實(shí)世界數(shù)據(jù)面臨著難以獲取、質(zhì)量差、標(biāo)準(zhǔn)不統(tǒng)一等諸多問(wèn)題。為此,計(jì)算機(jī)模型技術(shù)或算法生成的合成數(shù)據(jù),作為真實(shí)數(shù)據(jù)的廉價(jià)替代品,日益被用于創(chuàng)造精準(zhǔn)的AI模型。
2、合成數(shù)據(jù)助力破解AI“深水區(qū)”的數(shù)據(jù)難題,持續(xù)拓展產(chǎn)業(yè)互聯(lián)網(wǎng)應(yīng)用空間
合成數(shù)據(jù)背后的生成式AI被Gartner評(píng)為2022年銀行和投資服務(wù)領(lǐng)域越來(lái)越受歡迎的三項(xiàng)技術(shù)之一。原因是能夠通過(guò)合成數(shù)據(jù)以成本更低、易規(guī)?;㈦[私保護(hù)合規(guī)的方式提供接近真實(shí)世界的數(shù)據(jù)。
3、合成數(shù)據(jù)產(chǎn)業(yè)加快成為數(shù)據(jù)要素市場(chǎng)新賽道,科技大廠和創(chuàng)新企業(yè)搶先布局
合成數(shù)據(jù)對(duì)人工智能未來(lái)發(fā)展的巨大價(jià)值使其加速成為AI領(lǐng)域的一個(gè)新產(chǎn)業(yè)賽道。一方面,國(guó)外的主流科技公司紛紛瞄準(zhǔn)合成數(shù)據(jù)領(lǐng)域加大投入與布局。
另一方面,合成數(shù)據(jù)作為AI領(lǐng)域的新型產(chǎn)業(yè),相關(guān)創(chuàng)新創(chuàng)業(yè)方興未艾,合成數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn),合成數(shù)據(jù)領(lǐng)域的投資并購(gòu)持續(xù)升溫,開(kāi)始涌現(xiàn)了合成數(shù)據(jù)即服務(wù)(synthetic data as serve,SDaaS )這一發(fā)展前景十分廣闊的全新商業(yè)模式。
4、合成數(shù)據(jù)加速構(gòu)建AI賦能、數(shù)實(shí)融合的大型虛擬世界
展望未來(lái),可以從三個(gè)方面來(lái)理解大型虛擬世界為什么成為AI數(shù)實(shí)融合的關(guān)鍵場(chǎng)景。
第一,大型虛擬世界可以提供人工智能開(kāi)發(fā)所需的數(shù)據(jù)和場(chǎng)景,為AI應(yīng)用開(kāi)發(fā)提供“加速度”。第二,大型虛擬世界為各行各業(yè)訓(xùn)練開(kāi)發(fā)AI提供了試驗(yàn)田。第三,在大型虛擬世界中通過(guò)AI連通虛擬與現(xiàn)實(shí),實(shí)現(xiàn)AI數(shù)實(shí)融合。
ChatGPT商業(yè)化意義
(報(bào)告出品方:中信證券)
1. ChatGPT通過(guò)大模型突破AI瓶頸,GPT-4多模態(tài)應(yīng)用帶動(dòng)商業(yè)化加速
概述:ChatGPT為NLP下的AI大模型,性能和使用體驗(yàn)超預(yù)期
ChatGPT是自然語(yǔ)言處理(NLP)下的AI大模型,通過(guò)大算力、大規(guī)模訓(xùn)練數(shù)據(jù)突破AI瓶頸。2022年11月,OpenAI推 出ChatGPT,ChatGPT基于GPT-3.5,使用人類反饋強(qiáng)化學(xué)習(xí)技術(shù),將人類偏好作為獎(jiǎng)勵(lì)信號(hào)并微調(diào)模型,實(shí)現(xiàn)有邏輯 的對(duì)話能力。
ChatGPT本質(zhì)上是通過(guò)超大的統(tǒng)計(jì)語(yǔ)言模型,對(duì)詞語(yǔ)序列的概率分布進(jìn)行建模,利用上下文信息預(yù)測(cè)后續(xù)詞語(yǔ)出現(xiàn)的概 率分布,其表現(xiàn)的超預(yù)期反映了在算力水平提升的情況下大語(yǔ)言模型技術(shù)路線的成功,通過(guò)對(duì)大規(guī)模的未標(biāo)注的文本數(shù)據(jù) 進(jìn)行訓(xùn)練,突破了AI發(fā)展的技術(shù)瓶頸。根據(jù)《瞭望》新聞周刊報(bào)道,OpenAI為了讓ChatGPT的語(yǔ)言合成結(jié)果更自然流 暢,使用了45TB的數(shù)據(jù)、近1萬(wàn)億個(gè)單詞來(lái)訓(xùn)練模型,訓(xùn)練一次的成本高達(dá)千萬(wàn)美元,一個(gè)月的運(yùn)營(yíng)成本需要數(shù)百萬(wàn)美元。
概述:OpenAI傾力打造ChatGPT,獲得微軟有力加持
ChatGPT出自美國(guó)AI創(chuàng)業(yè)公司OpenAI,是AI大模型領(lǐng)域的領(lǐng)軍者。OpenAI在2015年由Sam Altman、Peter Thiel、Reid Hoffman、Elon Musk等人創(chuàng)辦。公司成立之初,即確定了包括制造“通用”機(jī)器人和使用自然語(yǔ)言的聊天機(jī)器人的發(fā)展 目標(biāo)。2019年,OpenAI獲得來(lái)自微軟的10億美元投資,為Azure云端平臺(tái)服務(wù)開(kāi)發(fā)AI技術(shù)。2018年起,OpenAI開(kāi)始發(fā)布 GPT(Generative Pre-trained Transformer)模型,2020年發(fā)布GPT-3,可以完成答題、寫(xiě)論文、代碼生成等任務(wù),被視 為人工智能競(jìng)賽的里程碑事件,并直至ChatGPT的推出引起AI的熱潮。
除了NLP領(lǐng)域,OpenAI還在多模態(tài)領(lǐng)域取得成就,包括發(fā)布了AI圖像生成器DALL-E2,對(duì)音頻轉(zhuǎn)錄編輯器Descript、AI筆 記應(yīng)用Mem等進(jìn)行投資。
演變:GPT-1—無(wú)監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)
GPT-1發(fā)布于2018年6月,參數(shù)量達(dá)1.17億,預(yù)訓(xùn)練數(shù)據(jù)量約5GB。GPT-1包含預(yù)訓(xùn)練和微調(diào)兩個(gè)階段,考慮到自然語(yǔ)言 處理任務(wù)中有標(biāo)簽的語(yǔ)料少,GPT-1先在大量的無(wú)標(biāo)簽數(shù)據(jù)上訓(xùn)練語(yǔ)言模型,然后在下游具體任務(wù)(如分類、常識(shí)推理、 自然語(yǔ)言推理等)的有標(biāo)簽數(shù)據(jù)集上進(jìn)行微調(diào)。1)在無(wú)監(jiān)督訓(xùn)練中,GPT-1采用Transformer的架構(gòu),即標(biāo)準(zhǔn)的語(yǔ)言模型 的目標(biāo)函數(shù),通過(guò)前面的詞預(yù)測(cè)后面的詞;2)在有監(jiān)督訓(xùn)練中,采用標(biāo)準(zhǔn)的分類目標(biāo)函數(shù),僅需對(duì)第一階段預(yù)訓(xùn)練的語(yǔ) 言模型做出很小的結(jié)構(gòu)改變,即可應(yīng)用于各種下游任務(wù)。
GPT-1使用了BooksCorpus數(shù)據(jù)集來(lái)訓(xùn)練語(yǔ)言模型,其中有7000余本未出版的書(shū)籍。具體表現(xiàn)上,在有監(jiān)督學(xué)習(xí)的12項(xiàng) 任務(wù)中,GPT-1在其中9項(xiàng)上的表現(xiàn)優(yōu)于專門訓(xùn)練的受監(jiān)督模型。
演變:GPT-2—無(wú)監(jiān)督預(yù)訓(xùn)練+多任務(wù)學(xué)習(xí)
GPT-2發(fā)布于2019年2月,參數(shù)量達(dá)15億,預(yù)訓(xùn)練數(shù)據(jù)量約40GB。GPT-1使用的概率條件模型為p(output|input),GPT-2 使用相同的無(wú)監(jiān)督模型學(xué)習(xí)多個(gè)任務(wù),將概率條件模型修改為p(output|input, task) ,期望模型對(duì)不同任務(wù)的相同輸入產(chǎn) 生不同的輸出。此外,GPT-2采取Zero-shot設(shè)定,不需要下游任務(wù)的標(biāo)注信息,而是根據(jù)給定的指令理解任務(wù)。因此 GPT-2的核心思想在于多任務(wù)學(xué)習(xí)。
GPT-2訓(xùn)練的數(shù)據(jù)集來(lái)自社交新聞平臺(tái)Reddit,共有約800萬(wàn)篇文章,體積超40GB。具體表現(xiàn)上,在8個(gè)語(yǔ)言模型任務(wù) 中,僅通過(guò)Zero-Shot學(xué)習(xí),GPT-2在其中7個(gè)上領(lǐng)先。GPT-2表明,隨著模型容量和數(shù)據(jù)量增大,GPT模型的潛力仍有望 進(jìn)一步顯現(xiàn)。
展望:GPT-4—此前外界預(yù)期參數(shù)量變化不大、使用門檻有望降低
GPT-4備受業(yè)界期待,訓(xùn)練成本控制有望帶動(dòng)商業(yè)潛力的極大增強(qiáng)。ChatGPT的突出表現(xiàn)使得外界對(duì)GPT-4十分期待, 自2021年以來(lái)便有報(bào)道稱GPT-4“即將推出” ,OpenAI公司CEO Sam Altman今年受StrictlyVC采訪時(shí)表示GPT-4將在 “有信心可以安全且負(fù)責(zé)任地運(yùn)行時(shí)”推出。外界此前也曾預(yù)期,GPT-4的推出或分階段進(jìn)行,例如GPT-3也是先開(kāi)放給 合作伙伴、付費(fèi)用戶和學(xué)術(shù)機(jī)構(gòu),才在2022年底開(kāi)放給公眾。
在參數(shù)量上,針對(duì)有傳言稱GPT-4參數(shù)量將達(dá)到百萬(wàn)億,OpenAI公司CEO Sam Altman予以否定。此外,AI專家Alberto Romero預(yù)測(cè),GPT-4的重點(diǎn)在數(shù)據(jù)處理優(yōu)化上,因此其使用門檻有望降低,我們預(yù)計(jì)訓(xùn)練成本的控制將帶動(dòng)其商業(yè)潛力 的增強(qiáng)。
展望:GPT-4—最新消息稱推出在即、支持多模態(tài)
最新消息稱GPT-4將于下周推出,支持多模態(tài)應(yīng)用,開(kāi)啟通往人工通用智能之路。根據(jù)德國(guó)科技媒體“heise在線”報(bào) 道,當(dāng)?shù)貢r(shí)間3月9日,微軟德國(guó)公司首席技術(shù)官Andreas Braun在名為“AI in Focus - Digital Kickoff”的活動(dòng)中透露稱 “將在下周推出GPT-4,它將是一個(gè)多模態(tài)模型,會(huì)提供完全不同的可能性——例如視頻”。這意味著GPT-4可以管理不 同語(yǔ)言數(shù)據(jù)的輸入和輸出,也能夠做到輸出圖像甚至視頻。在活動(dòng)上,微軟AI技術(shù)專家對(duì)多模態(tài)AI的應(yīng)用案例進(jìn)行了介 紹,例如能夠?qū)㈦娫捄艚械恼Z(yǔ)音直接記錄成文本,這為微軟位于荷蘭的一家大型客戶節(jié)省500個(gè)工作小時(shí)/天。
GPT-4對(duì)多模態(tài)的支持使得外界對(duì)模型潛力的預(yù)期進(jìn)一步強(qiáng)化,原因在于多模態(tài)感知是建立人工通用智能(AGI)的重要 一步,基于此能夠執(zhí)行人類水平的一般任務(wù)。
商業(yè)模式:C端推出訂閱制會(huì)員,B端提供調(diào)用API接口
ChatGPT迅速走紅,以訂閱制服務(wù)B端、C端客戶,成本控制下將有效加速商業(yè)化落地。ChatGPT自年初以來(lái),持續(xù)出 圈,截至2023年1月末月活突破1億,成為史上增長(zhǎng)最快的消費(fèi)者應(yīng)用??紤]到計(jì)算資源所牽涉的龐大訓(xùn)練成本、運(yùn)行成 本,ChatGPT的商業(yè)化路徑已正在探索、明確中。
商業(yè)模式—1)C端:OpenAI發(fā)布ChatGPT Plus訂閱計(jì)劃,每月收費(fèi)20美元,相較于免費(fèi)版本,即便在高峰時(shí)段用戶也 能正常訪問(wèn)ChatGPT,響應(yīng)時(shí)間更快,可以優(yōu)先使用新功能,有望引領(lǐng)AI技術(shù)變現(xiàn)新模式;2)B端:OpenAI發(fā)布 ChatGPT API,開(kāi)發(fā)者可以將ChatGPT集成到產(chǎn)品中,價(jià)格為$0.002/1k token,相較于GPT-3.5降低90%,我們預(yù)計(jì)成 本控制后有望快速帶動(dòng)GPT相關(guān)應(yīng)用爆發(fā)。根據(jù)微信公眾號(hào)“智東西” ,生鮮電商Instacart、跨境電商Shopify、照片分 享應(yīng)用Snap、單詞背誦應(yīng)用Quizlet等已率先接入ChatGPT API。
2.Transformer架構(gòu)支撐GPT走向多模態(tài),構(gòu)筑AIGC領(lǐng)域核心基石
GPT采用的Transformer架構(gòu)在NLP領(lǐng)域已躋身主流
GPT沿用主流Transformer模型,該模型采用自注意力機(jī)制,在NLP上表現(xiàn)優(yōu)于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))。2017年,谷歌 在《Attention is All You Need》中提出Transformer模型,可用于文本摘要、機(jī)器翻譯等NLP任務(wù)。在NLP方面, Transformer模型的自注意力(self-attention)機(jī)制可以為輸入序列中的任意位置提供上下文,進(jìn)而模型能夠一次性處理 所有輸入數(shù)據(jù),而非RNN一次只處理一個(gè)單詞的情況,由此模型可以減少訓(xùn)練時(shí)間,能夠在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。目前,基于Transformer的預(yù)訓(xùn)練語(yǔ)言模型已成為NLP領(lǐng)域的主流。
Transformer也可用于CV領(lǐng)域,相較于CNN實(shí)現(xiàn)性能巨大提升
Transformer也可用于CV(計(jì)算機(jī)視覺(jué))領(lǐng)域,表現(xiàn)出巨大的性能提升。CV領(lǐng)域此前更多由CNN(卷積神經(jīng)網(wǎng)絡(luò))主 導(dǎo),而Transformer憑借著自注意力機(jī)制,表現(xiàn)出了巨大的性能提升。根據(jù)微軟亞洲研究院,Transformer在圖像分類、物 體檢測(cè)等任務(wù)中刷新了測(cè)評(píng)記錄,例如2020年Transformer被首次應(yīng)用于圖像分類任務(wù),結(jié)合海量的預(yù)訓(xùn)練數(shù)據(jù),ViT在 ImageNet-1K的validation評(píng)測(cè)集上取得88.55%的準(zhǔn)確率。Transformer也在視頻動(dòng)作識(shí)別、視覺(jué)自監(jiān)督學(xué)習(xí)、圖像復(fù)原、 圖像分割等視覺(jué)任務(wù)中取得優(yōu)異成績(jī)。谷歌提出的ViT-MoE模型目前在參數(shù)量上領(lǐng)先,達(dá)到了150億。
Transformer支撐下GPT有望走向多模態(tài),構(gòu)筑AIGC領(lǐng)域核心基石
GPT有望基于Transformer延伸至多模態(tài),構(gòu)筑AIGC核心基石,GPT-4或?qū)崿F(xiàn)領(lǐng)跑。當(dāng)前,基于Transformer的多模態(tài)學(xué) 習(xí)成為AI領(lǐng)域的研究熱點(diǎn),研究者們提出了大量的Transformer變體。鑒于Transformer具有較少的特定于模態(tài)的架構(gòu)假 設(shè),以及生成式預(yù)訓(xùn)練、大模型&大數(shù)據(jù)路線的成功,Transformer能夠聯(lián)動(dòng)CV與NLP,通過(guò)聯(lián)合建模完成,打破CV與 NLP領(lǐng)域之間的壁壘。微軟亞洲研究院2022年推出BEiT-3預(yù)訓(xùn)練模型,在目標(biāo)檢測(cè)、實(shí)例分割、語(yǔ)義分割、視覺(jué)推理、 圖片描述生成等任務(wù)上取得了SOTA的遷移性能。我們認(rèn)為,基于Transformer架構(gòu),GPT未來(lái)有望延伸至多模態(tài),助力 內(nèi)容創(chuàng)作由UGC、PGC全面走向AIGC,賦能通用領(lǐng)域以及金融、教育、醫(yī)療、傳媒等垂直行業(yè)。
3.通用與垂直場(chǎng)景多點(diǎn)開(kāi)花,GPT變革內(nèi)容生成與交互方式
通用場(chǎng)景:搜索引擎—GPT+文本&圖像&視頻重塑搜索結(jié)果呈現(xiàn)方式
搜索引擎接入GPT后結(jié)果呈現(xiàn)方式大為變化,或影響行業(yè)盈利模式與競(jìng)爭(zhēng)格局。用戶使用傳統(tǒng)的搜索引擎時(shí),需要手動(dòng) 翻閱搜索結(jié)果,判斷是否為所需要的信息;而當(dāng)搜索引擎接入GPT后,用戶可直接獲得答案集合。盡管受制于訓(xùn)練語(yǔ)料、 成本等因素,答案準(zhǔn)確性有待商榷,但在結(jié)果呈現(xiàn)方式上實(shí)現(xiàn)了變革,未來(lái)或與傳統(tǒng)的搜索引擎相結(jié)合。如進(jìn)一步實(shí)現(xiàn)多 模態(tài),搜索結(jié)果將更加豐富。微軟在Bing中上線ChatGPT能力并開(kāi)啟測(cè)試,以聊天方式展示搜索結(jié)果,并可在對(duì)話中推 薦廣告。微軟必應(yīng)官方博客宣布,目前Bing日活突破1億,集成搜索+聊天功能的Bing預(yù)覽版自推出以來(lái)總聊天次數(shù)已超 過(guò)4500萬(wàn)次。鑒于微軟可能掀起搜索行業(yè)的第二次變革并顛覆此前的盈利模式,谷歌在2月初展示由大型語(yǔ)言模型LaMDA 驅(qū)動(dòng)的類ChatGPT應(yīng)用——Bard,并計(jì)劃大范圍推廣。
通用場(chǎng)景:辦公軟件—GPT+文本&圖像打造效率型生產(chǎn)力工具
GPT有望融入辦公流程,率先推動(dòng)辦公軟件轉(zhuǎn)型為智能辦公平臺(tái)。微軟將于3月16日召開(kāi)名為“Future of Work with AI” 的發(fā)布會(huì),預(yù)計(jì)將展示ChatGPT類技術(shù)在Teams、Word、Outlook等生產(chǎn)力套件中的應(yīng)用。我們認(rèn)為,在GPT的賦能之 下,辦公軟件作為效率型生產(chǎn)力工具的屬性將更加突出,功能上將更加智能化,用戶有望享受到智能辦公平臺(tái)所帶來(lái)的便 利性與效率大幅提升。例如,在Word中,GPT將能夠幫助用戶生成文本,或?qū)⑽臋n集匯總為關(guān)鍵點(diǎn),使得用戶快速理解 和分析信息;在Outlook中,GPT可以處理收件箱文本,幫助用戶更快捷地撰寫(xiě)或回復(fù)電子郵件;在Excel中,能夠根據(jù)提 示提取數(shù)據(jù),如要求“按照利潤(rùn)列出世界前五大公司”后,生成Excel公式或制作可視化圖表。
垂直場(chǎng)景:教育—GPT+文本&對(duì)話&翻譯催化啟發(fā)式、個(gè)性化教學(xué)
GPT有望催化“啟發(fā)式”教學(xué)模式,加快教育領(lǐng)域的個(gè)性化、多樣化變革探索。ChatGPT可以理解為一名“全能教 師” ,即便是小眾、冷門的領(lǐng)域,也能夠給出相對(duì)有邏輯的回答。我們認(rèn)為,GPT技術(shù)將催化“啟發(fā)式”教學(xué)模式,引導(dǎo) 學(xué)生更加積極主動(dòng)地進(jìn)行思考、發(fā)問(wèn),并與“全能教師”進(jìn)行對(duì)話探討,這有別于傳統(tǒng)的應(yīng)試教學(xué)模式。
垂直場(chǎng)景:金融—GPT+文本&對(duì)話賦能客戶服務(wù)、投研支持
GPT有望對(duì)金融行業(yè)的經(jīng)營(yíng)、管理、產(chǎn)品營(yíng)銷及客戶服務(wù)等方面產(chǎn)生巨大影響。近年來(lái),金融機(jī)構(gòu)在合規(guī)趨嚴(yán)、人力成 本上升等因素的影響下,對(duì)于數(shù)字化建設(shè)的意愿強(qiáng)烈??紤]到ChatGPT在內(nèi)容生成等方面的突出表現(xiàn),我們認(rèn)為,GPT 有望率先落地對(duì)外的客戶服務(wù)與對(duì)內(nèi)的投研支持。以銀行業(yè)為例,電子客服仍處于AB判斷階段,引入GPT將更好地服務(wù) 于客戶需求;在證券、基金業(yè),個(gè)人投資者存在的大量疑惑將可通過(guò)GPT解決,機(jī)構(gòu)投資者在投研中也將獲得來(lái)自GPT 的協(xié)作。GPT有望重構(gòu)金融行業(yè)客戶服務(wù)端,也有望進(jìn)一步增強(qiáng)機(jī)構(gòu)內(nèi)部的投研能力,助力經(jīng)營(yíng)效率提升與成本優(yōu)化。
垂直場(chǎng)景:醫(yī)療—醫(yī)療信息化廠商卡位核心系統(tǒng),助力構(gòu)建GPT能力
醫(yī)療信息化公司作為醫(yī)療機(jī)構(gòu)信息化底座提供者,有望助力構(gòu)建GPT能力。根據(jù)復(fù)旦大學(xué)附屬華山醫(yī)院信息中心主任黃 虹在接受第一財(cái)經(jīng)采訪時(shí)透露的情況,醫(yī)院內(nèi)部落地GPT的場(chǎng)景包括:就醫(yī)導(dǎo)診,以提升醫(yī)療效率;構(gòu)建內(nèi)部知識(shí)庫(kù),以 提升臨床研究效率;匯集歷史病歷,輔助醫(yī)生提升電子病歷書(shū)寫(xiě)效率??紤]到醫(yī)院本身在信息化能力上的相對(duì)薄弱,我們 認(rèn)為以創(chuàng)業(yè)慧康、衛(wèi)寧健康、醫(yī)渡等為代表的醫(yī)療信息化公司作為醫(yī)院內(nèi)部系統(tǒng)的供應(yīng)商,有望幫助醫(yī)院構(gòu)建GPT能力。
互聯(lián)網(wǎng)醫(yī)療平臺(tái)卡位線上問(wèn)診,GPT有望助力問(wèn)診效率大幅提升。2020年疫情爆發(fā)以來(lái),互聯(lián)網(wǎng)醫(yī)院憑借著突破時(shí)空限 制、免接觸等優(yōu)勢(shì),迎來(lái)快速發(fā)展。平安好醫(yī)生、阿里健康、京東健康等平臺(tái)搭建了輕問(wèn)診模式,主要通過(guò)自有醫(yī)生、外 部簽約醫(yī)生提供問(wèn)診服務(wù)。我們認(rèn)為,GPT可以用于在線問(wèn)診支持,為用戶提供基本的、常規(guī)化的問(wèn)診服務(wù)。這將助力互 聯(lián)網(wǎng)醫(yī)療平臺(tái)實(shí)現(xiàn)問(wèn)診效率的大幅提升,問(wèn)診服務(wù)的供給能力將不再受制于鏈接的醫(yī)生數(shù)量。
垂直場(chǎng)景:圖像視頻—GPT+圖像&視頻強(qiáng)化內(nèi)容智能化生產(chǎn)與處理
GPT有望改變圖像視頻領(lǐng)域內(nèi)容生產(chǎn)模式,多模態(tài)提高信息輸出豐富度。圖像視頻行業(yè)新老業(yè)態(tài)交織,構(gòu)成相對(duì)多元, 以生產(chǎn)和傳播文字、圖像、藝術(shù)、影像、聲音等形式存在,包括報(bào)紙、圖書(shū)、廣播、電影、電視、動(dòng)漫等諸多細(xì)分領(lǐng)域。從產(chǎn)業(yè)鏈條來(lái)看,圖像視頻行業(yè)主要涉及信息采集、制作、分發(fā)、傳播等,我們認(rèn)為GPT將主要影響產(chǎn)業(yè)鏈前端的采集、 制作。結(jié)合中國(guó)信通院《AIGC白皮書(shū)》,我們預(yù)計(jì)在GPT賦能之下,特別是對(duì)多模態(tài)的延伸,圖像視頻行業(yè)有望進(jìn)一步 提高寫(xiě)稿機(jī)器人、采訪助手、視頻智能剪輯、合成主播等新興應(yīng)用的供給能力,既改變內(nèi)容生產(chǎn)模式,也滿足信息接收者 對(duì)豐富內(nèi)容的需求。
ChatGPT在傳媒行業(yè)的應(yīng)用場(chǎng)景示例
(報(bào)告出品方/作者:浙商證券,姚天航)
ChatGPT火爆的背后 算法革新+算力支持+數(shù)據(jù)共振
ChatGPT火爆全球,成為現(xiàn)象級(jí)互聯(lián)網(wǎng)產(chǎn)品
ChatGPT是一個(gè)由OpenAI開(kāi)發(fā)的大型語(yǔ)言模型,它使用自然語(yǔ)言處理和深度學(xué)習(xí)技術(shù),可以理解語(yǔ)言內(nèi)容和語(yǔ)境,能夠承認(rèn)錯(cuò) 誤、挑戰(zhàn)不正確的前提、拒絕不適當(dāng)?shù)恼?qǐng)求,通過(guò)生成自然語(yǔ)言文本的形式與用戶交互,從而能夠應(yīng)用于各種語(yǔ)言任務(wù)和應(yīng)用。
從AlphaGo到ChatGPT,AI技術(shù)發(fā)展叩響AGI之門
AlphaGo喚起AGI暢想。AlphaGo的成功使市場(chǎng)對(duì)AI 技術(shù)產(chǎn)生空前期待,預(yù)想AI將由專用人工智能(ANI)走 向通用人工智能(AGI),實(shí)現(xiàn)人類同等能力的任務(wù)執(zhí)行。AGI遇技術(shù)難關(guān),發(fā)展相對(duì)停滯。隨后幾年間面向AGI 的應(yīng)用和底層技術(shù)的發(fā)展不盡如人意,遇數(shù)據(jù)、能耗、 語(yǔ)義理解、可解釋性等瓶頸,技術(shù)未出現(xiàn)明顯突破。
ChatGPT文本交互能力更上一個(gè)臺(tái)階。ChatGPT在文字 創(chuàng)作與語(yǔ)言交互等方面的能力令人驚喜,一定程度上實(shí) 現(xiàn)了人類同等能力,提升讀寫(xiě)效率,逐漸向AIGC靠近?;?yàn)锳GI實(shí)現(xiàn)帶來(lái)曙光。雖然在大量用戶體驗(yàn)下 ChatGPT仍暴露出部分反饋偏差問(wèn)題,但驗(yàn)證了基于大 型語(yǔ)言模型(LLM)實(shí)現(xiàn)AGI具有可能性,重塑AI發(fā)展前景。
OpenAI商業(yè)化探索,B端流量收費(fèi)與C端訂閱收費(fèi)并行
B端:提供API接口實(shí)施流量收費(fèi)。OpenAI向用戶提供語(yǔ)言、圖像、音頻等不同類型模型的API 接口,通過(guò)用戶使用模型的流量收費(fèi)。其中ChatGPT對(duì)應(yīng)API 由其背后的AI模型gpt-3.5-turbo提供支持。此外,OpenAI還向用戶提供嵌入模型和微調(diào)模型,支持用戶 根據(jù)自定義需求進(jìn)行模型定制。
C端:提供產(chǎn)品訂閱服務(wù)收取費(fèi)用。OpenAI于2023年2月新推出ChatGPT Plus版本,對(duì)該版本的 使用者收取20美元/月的訂閱費(fèi)用。ChatGPT Plus版本較免費(fèi) 公開(kāi)使用的ChatGPT模型具有更快的響應(yīng)速度,在應(yīng)用高峰期 能更順暢的使用模型,且訂閱者能夠優(yōu)先使用新功能,以向 ChatGPT模型的深度用戶提供更快捷的服務(wù)。
數(shù)字內(nèi)容生產(chǎn)新方式 AIGC
AIGC:產(chǎn)業(yè)鏈逐步形成,玩家百花齊放,商業(yè)模式持續(xù)探索
以ChatGPT為代表的AIGC行業(yè),上游主要包括數(shù)據(jù)供給方、算法/模型機(jī)構(gòu)、創(chuàng)作者生態(tài)以及底層配合工具等, 中游主要包括文字、圖像、音頻、視頻等數(shù)字內(nèi)容的處理加工方,下游主要是各類數(shù)字內(nèi)容分發(fā)平臺(tái)、消費(fèi)方及相關(guān)服務(wù)機(jī)構(gòu)等。
文本生成:NLP重要任務(wù)標(biāo)之一,神經(jīng)網(wǎng)絡(luò)生成法為主流趨勢(shì)
文本生成(Text Generation)是自然語(yǔ)言處理(NLP)的重要任務(wù)之一,從非語(yǔ)言的表示生成人類可以理解的文本,文本→文本、 數(shù)據(jù)→文本都是文本生成任務(wù)關(guān)注的。
文本生成:Transformer架構(gòu)實(shí)現(xiàn)并行處理,提升模型訓(xùn)練效率
RNN架構(gòu)局限在于無(wú)法并行運(yùn)算。RNN計(jì)算是有時(shí)序依賴的,需要用到前一個(gè)時(shí)間步或者后一個(gè)時(shí)間步的信息,這導(dǎo)致它難 以并行計(jì)算,只能串行計(jì)算。GPU的并行化能夠大大加速計(jì)算過(guò)程,如果模型不能夠并行計(jì)算,會(huì)導(dǎo)致運(yùn)算速度很低。
Transformer架構(gòu)引入Self-attention自注意力機(jī)制可取代RNN。2017年,Google發(fā)布《Attention is All You Need》Transformer模型通過(guò)采用Self-Attention 自注意力機(jī)制,完全拋棄了傳統(tǒng)RNN在水平方向的傳播,只在垂直方向上傳播,只需要不斷 疊加Self-Attention層即可。這樣,每一層的計(jì)算都可以并行進(jìn)行,可以使用GPU進(jìn)行加速。
音頻生成:TTS應(yīng)用發(fā)展成熟,AI樂(lè)曲創(chuàng)作未來(lái)可期
音頻生成主要應(yīng)用于流行歌曲、樂(lè)曲、有聲書(shū)的內(nèi)容創(chuàng)作,以及視頻、游戲、影視等領(lǐng)域的配樂(lè)創(chuàng)作,目前在眾多場(chǎng)景已獲 初步發(fā)展,在部分場(chǎng)景已廣泛應(yīng)用、趨于成熟。常見(jiàn)音頻生成中,TTS文字轉(zhuǎn)語(yǔ)音是最普遍使用的落地應(yīng)用,而創(chuàng)意性音頻 生成有助于激發(fā)創(chuàng)作者靈感,促進(jìn)樂(lè)曲二創(chuàng)、輔助編曲。
圖像生成:從GAN到Diffusion,技術(shù)持續(xù)迭代,能力更進(jìn)一竿
生成式對(duì)抗網(wǎng)絡(luò)(GAN)的提出標(biāo)志著AIGC圖像生成可實(shí)現(xiàn),進(jìn)入快速發(fā)展階段。GAN由生成器和判別器兩部分組成,生成器 將抓取數(shù)據(jù)、產(chǎn)生新的生成數(shù)據(jù),并將其混入原始數(shù)據(jù)中送交判別器區(qū)分。這一過(guò)程將反復(fù)進(jìn)行,直到判別器無(wú)法以超50%的 準(zhǔn)確度分辨出真實(shí)樣本。
擴(kuò)散模型(Diffusion Model)成為圖像生成領(lǐng)域的重要發(fā)現(xiàn),有望超越GAN,成為新一代圖像生成主流模型。Diffusion Model在 2015年被提出,于2020年在Denoising Diffusion Probabilistic Models研究中名聲大噪,目前Google的Imagine與OpenAI的 DALL·E 2等熱門圖像生成軟件都基于此模型。
Diffusion Model簡(jiǎn)化模型訓(xùn)練過(guò)程中數(shù)據(jù)處理的難度,解決了GAN穩(wěn)定性問(wèn)題,提高生成圖片的質(zhì)量。Diffusion模型的工作 原理是通過(guò)逐漸添加高斯噪聲來(lái)破壞訓(xùn)練數(shù)據(jù)。通過(guò)一張神經(jīng)網(wǎng)絡(luò)“生成器”來(lái)進(jìn)行逆轉(zhuǎn)破壞過(guò)程(去噪),從純?cè)肼曋泻铣蓴?shù)據(jù), 直到產(chǎn)生干凈的樣本。GAN模型在訓(xùn)練過(guò)程中需要兩張神經(jīng)網(wǎng)絡(luò)“生成器”與“判別器”,穩(wěn)定性很難平衡,而Diffusion Model只有 一張神經(jīng)網(wǎng)絡(luò),解決了穩(wěn)定性問(wèn)題,同時(shí)簡(jiǎn)化了數(shù)據(jù)處理過(guò)程,且更加靈活。
圖像生成:圖像屬性編輯普遍應(yīng)用,創(chuàng)意圖像生成應(yīng)用落地較少
圖像生成可簡(jiǎn)要?jiǎng)澐譃閳D像屬性編輯、圖像局部生成及更改、以及端到端的圖像生成。其中,前兩者的落地場(chǎng)景為圖像編輯工 具,而端到端的圖像生成則對(duì)應(yīng)創(chuàng)意圖像及功能性圖像生成兩大落地場(chǎng)景。圖像屬性編輯大量應(yīng)用落地,圖像局部生成及更高 目前有部分應(yīng)用落地,端到端圖像生成底層原理明確,未來(lái)有望規(guī)?;瘧?yīng)用。
由于圖像的生成復(fù)雜度遠(yuǎn)高于文字,在整體生成上,目前仍然難以達(dá)到穩(wěn)定可靠的生成高質(zhì)量圖像。但隨著GAN、Diffusion Model等模型的不斷迭代,圖像生成發(fā)展將非??焖?。
視頻生成:分幀生成圖像連接成視頻,視頻屬性編輯已普遍應(yīng)用
視頻生成強(qiáng)調(diào)將視頻切割成幀,再對(duì)每一幀的圖像進(jìn)行處理,與圖像生成原理類似。視頻生成難度遠(yuǎn)高于圖像生成,生成視頻 的質(zhì)量與流暢度取決于很多因素,包括數(shù)據(jù)集規(guī)模、訓(xùn)練模型復(fù)雜度、特征提取準(zhǔn)確性以及合成視頻算法有效性;由于模型訓(xùn) 練量要求過(guò)大,目前模型只能實(shí)現(xiàn)幾秒鐘的短視頻生成,未來(lái)有望隨著模型的迭代實(shí)現(xiàn)中視頻和長(zhǎng)視頻的生成。視頻生成應(yīng)用場(chǎng)景主要包括視頻屬性編輯、視頻自動(dòng)剪輯、視頻部分編輯,前者已大量應(yīng)用,后兩者還處于技術(shù)嘗試階段。
跨模態(tài)生成:目前未大規(guī)模落地,文字生成圖像取得突破
跨模態(tài)生成是指將一種模態(tài)轉(zhuǎn)換成另一種模態(tài),同時(shí)保持模態(tài)間語(yǔ)義一致性。主要集中在文字生成圖片、文字生成視頻及圖片 /視頻生成文字。文字生成圖片:2022年被稱為“AI繪畫(huà)“之年,多款模型軟件證明基于文字提示得到效果良好的圖畫(huà)的可行性,Diffusion Model受到廣泛關(guān)注。文字生成視頻:普遍以Token為中介,關(guān)聯(lián)文本和圖像生成,逐幀生成所需圖片,最后逐幀生成完整視頻。但由于視頻生成會(huì)面臨不同幀之間連 續(xù)性的問(wèn)題,對(duì)生成圖像間的長(zhǎng)序列建模問(wèn)題要求更高,以確保視頻整體連貫流程。按技術(shù)生成難度和生成內(nèi)容,可區(qū)分為拼湊式生成和完全從 頭生成。圖片/視頻生成文字:具體應(yīng)用包括視覺(jué)問(wèn)答系統(tǒng)、配字幕、標(biāo)題生成等,這一技術(shù)還將有助于文本—圖像之間的跨模態(tài)搜索。代表模型包括 METER、ALIGN等。
策略生成:主要應(yīng)用展望在游戲行業(yè),其余場(chǎng)景發(fā)展較緩
策略生成是指生成一個(gè)可以在給定環(huán)境下執(zhí)行任務(wù)的算法。普遍采用深度強(qiáng)化學(xué)習(xí)技術(shù)(早期曾采用決策樹(shù)及監(jiān)督學(xué)習(xí)),其本 質(zhì)原理是讓AI感知環(huán)境、自身狀態(tài)并基于特定目標(biāo)決定當(dāng)下需要執(zhí)行的動(dòng)作,然后基于下一個(gè)狀態(tài)給到系統(tǒng)的反饋進(jìn)行獎(jiǎng)勵(lì)或 懲罰,最終使系統(tǒng)在不斷的“強(qiáng)化”過(guò)程中優(yōu)化“策略”。策略生成可應(yīng)用于游戲智能(Game AI)、虛擬人交互、機(jī)器人控制、智慧交通等領(lǐng)域。游戲智能是決策生成目前應(yīng)用最為廣泛和明確的場(chǎng)景。由于游戲本身存在于計(jì)算機(jī)虛擬環(huán)境,并產(chǎn)生大量數(shù)據(jù),因此游戲本身 為AI提供了極佳的研發(fā)場(chǎng)景;而在其他業(yè)務(wù)場(chǎng)景中,還需先搭建能夠充分還原現(xiàn)實(shí)因素的虛擬環(huán)境,并合理設(shè)置Reward等關(guān) 鍵因素,目前距離現(xiàn)實(shí)應(yīng)用較遠(yuǎn)。國(guó)內(nèi)多家AI企業(yè)已在嘗試這一方向,但如何精準(zhǔn)完成環(huán)境學(xué)習(xí)仍然具有關(guān)鍵意義。
新時(shí)代生產(chǎn)力工具, AIGC賦能內(nèi)容生產(chǎn)
AIGC+游戲:高效輔助游戲測(cè)試,保證質(zhì)量并降低成本
游戲測(cè)試通常是游戲開(kāi)發(fā)周期中的一大關(guān)鍵 環(huán)節(jié),其目的是保證游戲質(zhì)量,減少發(fā)布后 的風(fēng)險(xiǎn),并為玩家提供更好的游戲體驗(yàn)。在 游戲測(cè)試中,測(cè)試人員將會(huì)對(duì)不同的測(cè)試目 標(biāo)使用不同的測(cè)試技術(shù),就游戲玩法、游戲 流程內(nèi)容、游戲系統(tǒng)、機(jī)型適配等進(jìn)行測(cè)試, 記錄游戲中發(fā)現(xiàn)的問(wèn)題,并通過(guò)管理工具報(bào) 告Bug,向開(kāi)發(fā)人員反饋問(wèn)題。
伴隨游戲生產(chǎn)量的增長(zhǎng)以及游戲復(fù)雜度的提 高,游戲測(cè)試的需求爆發(fā),而AI可以在游戲 測(cè)試中執(zhí)行一些自動(dòng)化任務(wù),如執(zhí)行基本的 功能測(cè)試、性能測(cè)試、兼容性測(cè)試等,以實(shí) 現(xiàn)更高效地測(cè)試。但AI目前還無(wú)法像人類測(cè) 試人員那樣進(jìn)行用戶體驗(yàn)、情感反饋等測(cè)試。
AIGC+廣告營(yíng)銷:加快案頭工作效率,提供廣告營(yíng)銷思路
AI技術(shù)支持能快速縮短耗時(shí),較大提升前期準(zhǔn)備效率。前期準(zhǔn)備過(guò)程中時(shí)間占比70%的資料收集整理等案頭工作可通過(guò)ChatGPT等模型抓取大數(shù)據(jù)縮短耗時(shí);占比20%的調(diào)研訪談、頭 腦風(fēng)暴產(chǎn)生靈感等創(chuàng)意工作可以通過(guò)AI運(yùn)算快速實(shí)現(xiàn)。
AIGC+互聯(lián)網(wǎng):AIGC激活內(nèi)容平臺(tái),互為供給加速發(fā)展
互聯(lián)網(wǎng)內(nèi)容平臺(tái)將作為重要數(shù)據(jù)來(lái)源。圖文 內(nèi)容社區(qū)的內(nèi)容庫(kù)可以作為大語(yǔ)言模型的語(yǔ) 料庫(kù),提高模型自主學(xué)習(xí)和深度挖掘能力。這樣,無(wú)論是知乎用戶10年前的回答,還是 小紅書(shū)用戶的冷門筆記,抑或是豆瓣上的海 量書(shū)評(píng)、影評(píng),都可以被AI有效地檢索、利 用和生成,展現(xiàn)出新的價(jià)值。
AIGC將成為平臺(tái)重要的內(nèi)容形式。AI技術(shù) 將顯著降低內(nèi)容制作門檻,提高內(nèi)容制作效 率,增加內(nèi)容供給,如今已有不少內(nèi)容創(chuàng)作 者利用AI輔助生成圖文,視頻及音頻內(nèi)容, 同時(shí)也有AI直接生成的內(nèi)容,未來(lái)AIGC有望 成為內(nèi)容平臺(tái)供給的重要形式。
AIGC+娛樂(lè):開(kāi)啟元宇宙之匙,基礎(chǔ)設(shè)施拔地而起
AIGC在元宇宙內(nèi)容生產(chǎn)方面發(fā)揮了重要作用:元宇宙旨在構(gòu)建用戶的第二空間,為了讓用戶獲得沉 浸式的體驗(yàn),內(nèi)容生產(chǎn)者需要提供各種類型的虛擬內(nèi)容。與第一空間不同的是,元宇宙內(nèi)的內(nèi)容是 原生的,能夠刺激用戶的全感官。在這樣的背景下,僅靠PGC和UGC產(chǎn)生的內(nèi)容數(shù)量遠(yuǎn)遠(yuǎn)不足以支 撐一個(gè)完整的第二空間。因此,AI協(xié)助內(nèi)容生產(chǎn)成為必然趨勢(shì)。大量個(gè)性化、多元化的數(shù)字內(nèi)容將 顯著提升用戶體驗(yàn)。
數(shù)字人是元宇宙的關(guān)鍵要素:數(shù)字人是元宇宙中最早落地的應(yīng)用場(chǎng)景之一,也是連接用戶情感與VR、 AR等硬件設(shè)備的交互中介。如果AR/VR看作是元宇宙的入口,在元宇宙中占據(jù)核心位置,那么數(shù)字 人可被看作是元宇宙的關(guān)鍵要素。
AIGC是元宇宙中用戶交互界面的重要組成部分:在元宇宙中,智能NPC可以由AIGC生成并驅(qū)動(dòng),而 ChatGPT則可以作為語(yǔ)言模型集成到智能體中,使它們成為元宇宙中逼真的虛擬助手或伙伴,能夠執(zhí) 行“智能”動(dòng)作和復(fù)雜任務(wù)。
AI基礎(chǔ)數(shù)據(jù)服務(wù)
(報(bào)告出品方:國(guó)金證券)
1. AI 基礎(chǔ)數(shù)據(jù)服務(wù)脫胎于專業(yè)數(shù)據(jù)標(biāo)注需求,2025 年國(guó)內(nèi)百億規(guī)模可期
1.1 產(chǎn)業(yè)圖譜:AI 基礎(chǔ)數(shù)據(jù)服務(wù)脫胎于專業(yè)數(shù)據(jù)采標(biāo)分工需求
國(guó)內(nèi) AI 基礎(chǔ)數(shù)據(jù)服務(wù)產(chǎn)業(yè)主要包括上游數(shù)據(jù)產(chǎn)生及產(chǎn)能資源、中游訓(xùn)練數(shù)據(jù)生產(chǎn)、下游 AI 算法研發(fā)三大產(chǎn)業(yè)環(huán)節(jié)。其中,部分產(chǎn)業(yè)環(huán)節(jié)重合度較高,AI 基礎(chǔ)數(shù)據(jù)服務(wù)商主要脫 胎于專業(yè)數(shù)據(jù)采標(biāo)分工需求。
上游主要包括數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)生產(chǎn)組織者,主要提供原料數(shù)據(jù)的采集服務(wù)。
中游主要由基礎(chǔ)數(shù)據(jù)服務(wù)商構(gòu)成,通過(guò)數(shù)據(jù)處理能力和項(xiàng)目管理能力完成訓(xùn)練數(shù)據(jù)集 結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)加工和質(zhì)量檢測(cè)等工作,為下游客戶提供訓(xùn)練數(shù)據(jù)產(chǎn)品和相關(guān)服務(wù)。AI 基礎(chǔ)數(shù)據(jù)服務(wù)整體可分為兩大類,一種是具備自有的標(biāo)注基地或全職標(biāo)注團(tuán)隊(duì), 這類企業(yè)也參與產(chǎn)業(yè)上游部分直接提供產(chǎn)能資源,另一種是依靠眾包或外包模式,專 注于數(shù)據(jù)產(chǎn)品的開(kāi)發(fā)與項(xiàng)目執(zhí)行。
下游包括科技公司、行業(yè)企業(yè)、AI 公司和科研單位等,主要負(fù)責(zé)算法研發(fā)。部分下 游 AI 公司擁有自主的標(biāo)注工具,也可通過(guò) AI 中臺(tái)獲取一些通用標(biāo)注工具,少數(shù)數(shù)據(jù) 需求大的企業(yè)還孵化了自主的數(shù)據(jù)服務(wù)團(tuán)隊(duì)。
1.2 發(fā)展歷程:站在人工標(biāo)注市場(chǎng)出清與機(jī)器標(biāo)注迭代的十字路口
理論層面:數(shù)據(jù)工程系 AI 工程基礎(chǔ)環(huán)節(jié),核心在于高效的數(shù)據(jù)標(biāo)注。AI 工程=數(shù)據(jù)工程+ 模型工程。其中,數(shù)據(jù)工程主要包括數(shù)據(jù)采集與數(shù)據(jù)標(biāo)注,約占 AI 工程時(shí)長(zhǎng)的 80%;模 型工程主要包括模型訓(xùn)練與模型部署,約占 AI 工程時(shí)長(zhǎng)的 20%。數(shù)據(jù)工程是 AI 工程的 前置且基礎(chǔ)環(huán)節(jié),直接影響到模型的質(zhì)量與精度。數(shù)據(jù)工程的核心在于高效的數(shù)據(jù)標(biāo)注, Garbage in garbage out 效應(yīng)顯著。
實(shí)踐層面:AI 模型訓(xùn)練數(shù)據(jù)需求規(guī)模大,訓(xùn)練數(shù)據(jù)質(zhì)量不佳、效率低下情況普遍。據(jù)Dimensional Research 全球調(diào)研報(bào)告,72%的受訪者認(rèn)為至少使用超過(guò) 10 萬(wàn)條訓(xùn)練數(shù)據(jù) 進(jìn)行模型訓(xùn)練,才能保證模型有效性和可靠性,96%的受訪者在訓(xùn)練模型的過(guò)程中遇到訓(xùn) 練數(shù)據(jù)質(zhì)量不佳、數(shù)量不足、數(shù)據(jù)標(biāo)注人員不足等難題。為應(yīng)對(duì)訓(xùn)練數(shù)據(jù)所帶來(lái)的多方面 挑戰(zhàn),AI 企業(yè)開(kāi)始從第三方購(gòu)買原料數(shù)據(jù)收集、訓(xùn)練數(shù)據(jù)生產(chǎn)和數(shù)據(jù)專家咨詢等服務(wù)。
AI 數(shù)據(jù)工程發(fā)軔于 AI 產(chǎn)業(yè)落地元年,系 AI 下游應(yīng)用的基礎(chǔ)且必備環(huán)節(jié)。目前行業(yè)處于市 場(chǎng)格局漸趨清晰,新老技術(shù)面臨迭代,下游需求加速釋放的關(guān)鍵節(jié)點(diǎn)。
產(chǎn)業(yè)初生期(2010~2016):2010 年語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域產(chǎn)生重大突破,國(guó) 內(nèi)開(kāi)始萌生 AI 概念。后續(xù)數(shù)年,早期的 AI 基礎(chǔ)數(shù)據(jù)服務(wù)門檻較低,質(zhì)量參差不齊。
產(chǎn)生成長(zhǎng)期(2016~2022):近五年來(lái),供給側(cè)高烈度的業(yè)內(nèi)競(jìng)爭(zhēng)加速市場(chǎng)出清,需 求側(cè)對(duì)產(chǎn)業(yè)落地以及垂直場(chǎng)景的定制化數(shù)據(jù)采標(biāo)需求逐漸凸顯。最終引致行業(yè)頭部企 業(yè)浮出水面,行業(yè)格局逐漸清晰。
產(chǎn)業(yè)成熟期(2022~至今):2022 年以來(lái),AIGC 產(chǎn)品集中爆發(fā),高 level 自動(dòng)駕駛 需求加速釋放。傳統(tǒng)人工標(biāo)注的效率已不能完全滿足算法需求,行業(yè)護(hù)城河轉(zhuǎn)向自動(dòng) 化機(jī)器標(biāo)注技術(shù),預(yù)計(jì)產(chǎn)業(yè)將進(jìn)入向技術(shù)要市場(chǎng)的新階段。
1.3 市場(chǎng)規(guī)模:AI 快速落地疊加數(shù)據(jù)量指數(shù)級(jí)躍升,2025 年國(guó)內(nèi)百億規(guī)模可期
國(guó)內(nèi) AI 市場(chǎng)規(guī)模超百億美金,約占全球市場(chǎng) 10%份額。目前,AI 已在金融、醫(yī)療、交通、 安防等多個(gè)垂直場(chǎng)景深度落地,且應(yīng)用場(chǎng)景拓展勢(shì)能強(qiáng)勁,商業(yè)化進(jìn)程加速。從全球市場(chǎng) 看,據(jù) IDC,2021 年全球 AI 產(chǎn)業(yè)規(guī)模達(dá) 885.7 億美元,預(yù)計(jì) 2025 年將達(dá)到 2,218.7 億 美元,CAGR 高達(dá) 25.8%。從國(guó)內(nèi)市場(chǎng)看,據(jù) IDC,2022 年我國(guó) AI 產(chǎn)業(yè)規(guī)模或達(dá) 116 億美元,預(yù)計(jì)未來(lái)數(shù)年仍保持兩位數(shù)增長(zhǎng)。以 2021 年計(jì),國(guó)內(nèi) AI市場(chǎng)規(guī)模約占全球 10%, 國(guó)內(nèi)市場(chǎng)成長(zhǎng)潛力巨大,國(guó)內(nèi)企業(yè)出??臻g廣闊。
全球數(shù)據(jù)量呈指數(shù)式增長(zhǎng),中國(guó)數(shù)據(jù)量增速跑贏全球。據(jù) IDC,全球每年生產(chǎn)的數(shù)據(jù)量將 從2018年的33ZB猛增至2025年的175ZB,其中結(jié)構(gòu)化數(shù)據(jù)僅占到全部數(shù)據(jù)量的20%, 其余 80%都是以文件形式存在的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),日志文件、機(jī)器數(shù)據(jù)等占非 結(jié)構(gòu)化數(shù)據(jù)的 90%,產(chǎn)生了源源不斷的數(shù)據(jù)清洗與標(biāo)注需求。相比之下,中國(guó)的數(shù)據(jù)量 增速領(lǐng)跑全球,平均每年增速比全球快 3%。2018 年,中國(guó)的數(shù)據(jù)量為 7.6ZB,占全球總 量的 23.4%,預(yù)計(jì)到 2025 年將增至 48.6ZB,占全球總量的 27.8%,CAGR 高達(dá) 30.4%。
中國(guó) AI 基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模 2025 年有望突破百億。一方面,隨著算法模型、技 術(shù)理論和應(yīng)用場(chǎng)景的優(yōu)化和創(chuàng)新,AI 產(chǎn)業(yè)對(duì)訓(xùn)練數(shù)據(jù)的拓展性需求和前瞻性需求均快速 增長(zhǎng);另一方面,隨著業(yè)內(nèi)對(duì)訓(xùn)練數(shù)據(jù)需求類型的增加以及對(duì)服務(wù)標(biāo)準(zhǔn)要求的提高,產(chǎn)業(yè) 鏈的專業(yè)化分工將愈加清晰,專業(yè)化的訓(xùn)練數(shù)據(jù)服務(wù)提供商將扮演更加重要的角色。據(jù)艾瑞咨詢,2019 年中國(guó) AI 基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模達(dá) 30.9 億元,其中圖像類、語(yǔ) 音類、NLP 類數(shù)據(jù)需求規(guī)模占比分別為 49.7%、39.1%和 11.2%。預(yù)計(jì) 2025 年國(guó)內(nèi) AI 基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市場(chǎng)規(guī)模將突破 100 億元,年復(fù)合增長(zhǎng)率高達(dá) 21.8%。
1.4 政策支持:近五年國(guó)家政策加持國(guó)內(nèi) AI 產(chǎn)業(yè)發(fā)展
近五年國(guó)家系列政策推動(dòng)國(guó)內(nèi) AI 產(chǎn)業(yè)蓬勃發(fā)展。《“十四五”規(guī)劃》指出要加快數(shù)字化發(fā) 展,建設(shè)數(shù)字中國(guó),同時(shí)打造數(shù)字經(jīng)濟(jì)新優(yōu)勢(shì),充分發(fā)揮海量數(shù)據(jù)和豐富應(yīng)用場(chǎng)景優(yōu)勢(shì), 促進(jìn)數(shù)字技術(shù)與實(shí)體經(jīng)濟(jì)深度融合,賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升,催生新產(chǎn)業(yè)新業(yè)態(tài)新模式,壯 大經(jīng)濟(jì)發(fā)展新引擎。在國(guó)家頂層設(shè)計(jì)的支持下,我國(guó) AI 基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)穩(wěn)步發(fā)展,行 業(yè)訓(xùn)練資源庫(kù)等細(xì)分應(yīng)用領(lǐng)域的產(chǎn)業(yè)價(jià)值逐步凸顯。
2. AI 大模型催生高要求新需求,專業(yè)化數(shù)據(jù)集及 AI 訓(xùn)練師需求利好優(yōu)質(zhì)專業(yè)數(shù)據(jù)提供廠商
2.1 場(chǎng)景特質(zhì):AI 大模型時(shí)代無(wú)監(jiān)督/半監(jiān)督訓(xùn)練成為主流,RLHF 催生新興需求
大模型時(shí)代無(wú)監(jiān)督/半監(jiān)督訓(xùn)練成為主流。AI 模型的訓(xùn)練方法主要包括監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督 學(xué)習(xí)兩種典型方式,后隨模型訓(xùn)練數(shù)據(jù)量的增加衍生出半監(jiān)督學(xué)習(xí)方法。AI 訓(xùn)練方法的 發(fā)展歷經(jīng)“監(jiān)督-無(wú)監(jiān)督-監(jiān)督-無(wú)監(jiān)督/半監(jiān)督”4 個(gè)階段,在目前的大模型階段,無(wú)監(jiān)督/ 半監(jiān)督訓(xùn)練再次成為主流。監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的主要區(qū)別在于是否使用帶有人工標(biāo)注 的數(shù)據(jù)集訓(xùn)練數(shù)據(jù),半監(jiān)督學(xué)習(xí)則是使用大量未標(biāo)注數(shù)據(jù)+少量標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。
大模型時(shí)代“基礎(chǔ)模型+微調(diào)”成為 AI 開(kāi)發(fā)新范式,RLHF 微調(diào)技術(shù)催生更高要求的數(shù)據(jù) 標(biāo)注需求。AI 大模型由海量數(shù)據(jù)通過(guò)無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練得到,本身并不能直接應(yīng)用于具體 任務(wù),必須經(jīng)過(guò)微調(diào)才可投入應(yīng)用。微調(diào)是指基于大規(guī)?;A(chǔ)模型,在現(xiàn)有訓(xùn)練得到的模 型參數(shù)之上,針對(duì)特定任務(wù)類型、應(yīng)用特定場(chǎng)景的數(shù)據(jù)對(duì)模型進(jìn)行二次訓(xùn)練。通俗來(lái)說(shuō), 大規(guī)模基礎(chǔ)模型為AI提供了基礎(chǔ)知識(shí),而微調(diào)則是讓AI獲特定領(lǐng)域知識(shí),并賦予其組織、 應(yīng)用知識(shí)的能力。以近日備受關(guān)注的 ChatGPT 為例,在其微調(diào)技術(shù) RLHF(強(qiáng)人工反饋) 系統(tǒng)當(dāng)中:
第一步,預(yù)訓(xùn)練階段。模型首先需要在標(biāo)注完備的大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到監(jiān)督 學(xué)習(xí)模型。
第二步,交互獎(jiǎng)勵(lì)階段。模型與專業(yè)的人工智能訓(xùn)練師進(jìn)行交互,專業(yè)標(biāo)注人員會(huì)對(duì) ChatGPT 生成的回答進(jìn)行標(biāo)注、評(píng)估和反饋,給出一個(gè)針對(duì)回答的分?jǐn)?shù)或者標(biāo)簽。這些標(biāo)注數(shù)據(jù)可以作為強(qiáng)化學(xué)習(xí)過(guò)程中的“獎(jiǎng)勵(lì)函數(shù)”來(lái)指導(dǎo) ChatGPT 的參數(shù)調(diào)整, 得到獎(jiǎng)勵(lì)模型。
第三步,迭代優(yōu)化階段。基于獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)函數(shù)以 PPO(一種使用兩個(gè)神經(jīng)網(wǎng)絡(luò) 的強(qiáng)化學(xué)習(xí)算法)的方式微調(diào)監(jiān)督學(xué)習(xí)訓(xùn)練出來(lái)的生成模型,基于強(qiáng)化學(xué)習(xí) loss 持 續(xù)迭代生成模型,最終幫助模型進(jìn)行強(qiáng)化學(xué)習(xí)和不斷優(yōu)化。
2.2 場(chǎng)景需求:預(yù)訓(xùn)練階段高質(zhì)量專業(yè)數(shù)據(jù)集+交互獎(jiǎng)勵(lì)階段人工智能訓(xùn)練師
伴隨業(yè)界大模型市場(chǎng)競(jìng)爭(zhēng)的白熱化,RLHF 系統(tǒng)也將得到進(jìn)一步的推廣及迭代使用,從而 帶來(lái)兩大類新興數(shù)據(jù)標(biāo)注需求。一是預(yù)訓(xùn)練階段催生 AI 廠商對(duì)于標(biāo)注完善、清洗完備的 各類專業(yè)化場(chǎng)景數(shù)據(jù)集的需求;二是交互獎(jiǎng)勵(lì)階段催生 AI 廠商對(duì)于具備專業(yè)的事實(shí)判斷 與規(guī)范的價(jià)值判斷的人工智能訓(xùn)練師的需求。目前,上述兩類新興需求尚未得到充分有效的市場(chǎng)供給,利好海天瑞聲這類優(yōu)質(zhì)專業(yè)數(shù)據(jù) 解決方案提供商。針對(duì) RLHF 預(yù)訓(xùn)練階段需求,由于傳統(tǒng)數(shù)據(jù)采標(biāo)廠商的主流商業(yè)模式 以銷售工具系統(tǒng)和標(biāo)注服務(wù)為主,所以普遍缺少自有數(shù)據(jù),較少經(jīng)營(yíng)出售精準(zhǔn)數(shù)據(jù)集的服 務(wù)。針對(duì) RLHF 交互獎(jiǎng)勵(lì)階段需求,聚焦專業(yè)垂類的模型訓(xùn)練師則更為稀缺,市場(chǎng)藍(lán)海 亟待業(yè)務(wù)開(kāi)拓。
2.3 場(chǎng)景價(jià)值:超大規(guī)模預(yù)訓(xùn)練模型推動(dòng)訓(xùn)練數(shù)據(jù)數(shù)級(jí)躍升,市場(chǎng)需求持續(xù)延展
超大規(guī)模預(yù)訓(xùn)練模型推動(dòng)訓(xùn)練數(shù)據(jù)指數(shù)級(jí)躍升。自 OpenAI 于 2020 年推出 GPT-3 以來(lái), 谷歌、華為、智源研究院、中科院、阿里巴巴等企業(yè)和研究機(jī)構(gòu)相繼推出超大規(guī)模預(yù)訓(xùn)練 模型,包括 Switch Transformer、DALL·EMT-NLG、盤古、悟道 2.0、紫東太初和 M6 等。目前,預(yù)訓(xùn)練模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模按照 300 倍/年的趨勢(shì)增長(zhǎng),繼續(xù)通過(guò)增大模 型和增加訓(xùn)練數(shù)據(jù)仍是短期內(nèi)主流演進(jìn)方向,RLHF 技術(shù)的推廣使用或?qū)⑼苿?dòng)訓(xùn)練數(shù)據(jù)市 場(chǎng)需求持續(xù)延展。
3. 自動(dòng)駕駛領(lǐng)域訓(xùn)練數(shù)據(jù)需求方興未艾,海天瑞聲發(fā)力布局
3.1 場(chǎng)景特質(zhì):自動(dòng)駕駛客戶需求全棧式閉環(huán)數(shù)據(jù)解決方案
自動(dòng)駕駛場(chǎng)景對(duì)于 AI 數(shù)據(jù)服務(wù)需求較為剛性。自動(dòng)駕駛基礎(chǔ)數(shù)據(jù)主要是道路交通圖像、 障礙物圖像、車輛行駛環(huán)境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主。L3 級(jí)別以上的自動(dòng)駕駛系統(tǒng)需對(duì)雷達(dá)、攝像頭等傳感器采集的點(diǎn)云和圖像數(shù)據(jù)進(jìn)行抽取、 處理和融合,構(gòu)建車輛行駛環(huán)境,為預(yù)測(cè)和決策做依據(jù)。目前自動(dòng)駕駛的視覺(jué)技術(shù)主要應(yīng)用有監(jiān)督的深度學(xué)習(xí),是基于已知變量和因變量推導(dǎo)函數(shù)關(guān)系的算法模型,需要大量的標(biāo) 注數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和調(diào)優(yōu)。近幾年,汽車廠商在 ADAS 和自動(dòng)駕駛方向的投入明顯, 對(duì)于數(shù)據(jù)的采集和標(biāo)注需求也逐年增加,汽車廠商有望成為需求主力。
自動(dòng)駕駛領(lǐng)域?qū)τ诨A(chǔ)數(shù)據(jù)服務(wù)商提出更高要求,業(yè)內(nèi)客戶需要全棧式閉環(huán)數(shù)據(jù)解決方案。數(shù)據(jù)獲取和處理能力是自動(dòng)駕駛企業(yè)的核心競(jìng)爭(zhēng)要素之一,自動(dòng)駕駛能力取決于高效的數(shù) 據(jù)閉環(huán)和數(shù)據(jù)的利用效率,并能利用大量有效數(shù)據(jù)訓(xùn)練智能駕駛算法。因此,自動(dòng)駕駛客 戶要求數(shù)據(jù)服務(wù)商能夠提供閉環(huán)數(shù)據(jù)解決方案,以滿足智能駕駛業(yè)務(wù)數(shù)據(jù)處理量大、數(shù)據(jù) 處理需求迭代頻次高等特點(diǎn),專業(yè)知識(shí)、服務(wù)經(jīng)驗(yàn)及準(zhǔn)入資質(zhì)將成為衡量的重要標(biāo)準(zhǔn)。
3.2 場(chǎng)景需求:自動(dòng)駕駛領(lǐng)域數(shù)據(jù)標(biāo)注分為 2D 圖像標(biāo)注與 3D 點(diǎn)云標(biāo)注
自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)可分為車載攝像頭采集的 2D 圖像數(shù)據(jù)和激光雷達(dá)采集的 3D 點(diǎn)云數(shù) 據(jù)。一般而言,低 level 的自動(dòng)駕駛技術(shù)以 2D 圖像數(shù)據(jù)為主,3D 點(diǎn)云標(biāo)注數(shù)據(jù)是中高 level 自動(dòng)駕駛技術(shù)的基礎(chǔ)訓(xùn)練數(shù)據(jù),在自動(dòng)駕駛領(lǐng)域中發(fā)揮著愈發(fā)重要的作用。3D 點(diǎn)云標(biāo)注 數(shù)據(jù)在自動(dòng)駕駛領(lǐng)域的應(yīng)用可以分為兩個(gè)方面,一是基于場(chǎng)景理解和目標(biāo)檢測(cè)的實(shí)時(shí)環(huán)境 感和處理,二是 SLAM(即時(shí)定位與地圖構(gòu)建)加強(qiáng)定位。
2D 標(biāo)注:通過(guò)精確理解來(lái)自可見(jiàn)光攝像頭的信息,尋找能夠創(chuàng)建用于目標(biāo)物體的可 擴(kuò)展邊界框。
3D 點(diǎn)云標(biāo)注:通過(guò)識(shí)別和跟蹤場(chǎng)景中的對(duì)象,了解汽車前方和周圍的場(chǎng)景。將點(diǎn)云 數(shù)據(jù)和視頻流合并到要標(biāo)注的場(chǎng)景中。
視頻對(duì)象和事件跟蹤 3D 點(diǎn)云標(biāo)注:鎖定隨時(shí)間移動(dòng)的對(duì)象,并標(biāo)注時(shí)間事件。在多 幀視頻和 LiDar 場(chǎng)景中跟蹤進(jìn)入和離開(kāi)本體中的關(guān)注區(qū)域的對(duì)象(如其他汽車和行 人)。在整個(gè)視頻中,無(wú)論對(duì)象進(jìn)入和離開(kāi)視線的頻率如何,都會(huì)保持對(duì)其特性的一 致理解。
3.3 場(chǎng)景價(jià)值:自動(dòng)駕駛訓(xùn)練數(shù)據(jù)市場(chǎng)方興未艾,2025 年國(guó)內(nèi)市場(chǎng)規(guī)模或達(dá) 25 億元
自動(dòng)駕駛約占我國(guó) AI 基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模的 35%,2025 年市場(chǎng)規(guī)模或達(dá) 25 億元。自 動(dòng)駕駛的視覺(jué)技術(shù)主要應(yīng)用于有監(jiān)督的深度學(xué)習(xí),需要大量的標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和 調(diào)優(yōu)。目前該領(lǐng)域的數(shù)據(jù)采集和標(biāo)注需求已成為AI基礎(chǔ)數(shù)據(jù)服務(wù)的主要下游之一。據(jù)IDC, 2020 年我國(guó)自動(dòng)駕駛領(lǐng)域占 AI 基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模的 35%,系第一大下游場(chǎng)景。另 據(jù)艾瑞咨詢,2025 年我國(guó)自動(dòng)駕駛 AI 基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模或達(dá) 24.9 億元,預(yù)計(jì) 18~25 年 CAGR 高達(dá) 23.2%,跑贏 AI 基礎(chǔ)數(shù)據(jù)服務(wù)整體增速 21.8%。
4. 國(guó)內(nèi)市場(chǎng)集中度趨勢(shì)性收斂,海天瑞聲具備領(lǐng)先優(yōu)勢(shì)
4.1 發(fā)展趨勢(shì):品牌商價(jià)值效應(yīng)凸顯,國(guó)內(nèi)市場(chǎng)集中度持續(xù)收斂
品牌數(shù)據(jù)服務(wù)商未來(lái)將替代中小型供應(yīng)商成為市場(chǎng)主要供應(yīng)力量。我國(guó) AI 基礎(chǔ)數(shù)據(jù)服務(wù) 行業(yè)主要市場(chǎng)主體包括需求方自建基礎(chǔ)數(shù)據(jù)團(tuán)隊(duì)與基礎(chǔ)數(shù)據(jù)服務(wù)商(品牌數(shù)據(jù)服務(wù)商、中 小數(shù)據(jù)服務(wù)商)。截至 2019 年,中小數(shù)據(jù)供應(yīng)商是主要供應(yīng)力量,占比高達(dá) 47%。其中 百度眾包、海天瑞聲分居 top2,占比分別為 11.0%、8.0%,2019 年行業(yè) CR5 僅為 26.2%。結(jié)合本文 1.2 部分分析可知,近年間需求端垂直場(chǎng)景及專業(yè)化需求凸顯,業(yè)務(wù)門檻提高;供給端競(jìng)爭(zhēng)加劇擠壓中低端業(yè)務(wù)利潤(rùn)空間,加速市場(chǎng)出清。預(yù)計(jì)當(dāng)前我國(guó) AI 基礎(chǔ)數(shù)據(jù)服 務(wù)行業(yè)市場(chǎng)主要以品牌數(shù)據(jù)供應(yīng)商與需求方自建團(tuán)隊(duì)為主,行業(yè)龍頭逐漸浮出水面,中小 供應(yīng)商份額顯著下降。
業(yè)內(nèi)品牌數(shù)據(jù)商包括海外巨頭 Appen、國(guó)內(nèi)領(lǐng)軍廠商海天瑞聲、慧聽(tīng)數(shù)據(jù)、標(biāo)貝科技等:
Appen:1996 年成立于澳大利亞,面向機(jī)器學(xué)習(xí)和人工智能開(kāi)發(fā)的高質(zhì)量人工標(biāo)注 數(shù)據(jù)集,于 2015 年 1 月于澳大利亞證券交易所上市。Appen 在采集并豐富語(yǔ)音、文 字、圖像和視頻等各種數(shù)據(jù)類型上積累多年經(jīng)驗(yàn),與全球技術(shù)、汽車和電子商務(wù)公司, 以及政府部門建立了合作。
海天瑞聲:成立于 2005 年,是國(guó)內(nèi)領(lǐng)先的訓(xùn)練數(shù)據(jù)提供商。主要從事訓(xùn)練數(shù)據(jù)的研 發(fā)設(shè)計(jì)、生產(chǎn)及銷售業(yè)務(wù)。目前已成為同時(shí)具備核心技術(shù)、產(chǎn)品資源、優(yōu)質(zhì)客戶為一體的本土訓(xùn)練數(shù)據(jù)提供企業(yè)。核心收入來(lái)源為數(shù)據(jù)資源定制服務(wù)。
慧聽(tīng)科技:成立于 2011 年,業(yè)務(wù)包括語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音評(píng)測(cè)、語(yǔ)言文本類、 多媒體類等多領(lǐng)域數(shù)據(jù)制作,以及語(yǔ)音合成、語(yǔ)音識(shí)別、輸入法系統(tǒng)的研發(fā)等。公司 提供服務(wù)涵蓋語(yǔ)音訓(xùn)練數(shù)據(jù)制作、音樂(lè)數(shù)據(jù)制作標(biāo)注、語(yǔ)音質(zhì)量評(píng)測(cè)等,經(jīng)營(yíng)模式包 括定制開(kāi)發(fā)和自有訓(xùn)練數(shù)據(jù)產(chǎn)品銷售。
標(biāo)貝科技:成立于 2016 年,主要提供智能語(yǔ)音交互相關(guān)服務(wù),包括語(yǔ)音合成整體解 決方案,以及語(yǔ)音合成、語(yǔ)音識(shí)別、圖像識(shí)別等數(shù)據(jù)服務(wù),經(jīng)營(yíng)模式包括定制開(kāi)發(fā)和 自有訓(xùn)練數(shù)據(jù)產(chǎn)品銷售。
4.2 競(jìng)爭(zhēng)格局:業(yè)內(nèi)主要玩家發(fā)展各有側(cè)重,Appen 及海天瑞聲具備領(lǐng)先優(yōu)勢(shì)
據(jù) IDC,2021 年海天瑞聲在國(guó)內(nèi) AI 基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)市占率高達(dá) 12.9%,位居第一。其 技術(shù)實(shí)力、語(yǔ)種/方言覆蓋能力、專利及軟著數(shù)量、成品訓(xùn)練集數(shù)量均位居行業(yè)前列。相 比之下,Appen 在覆蓋區(qū)域、語(yǔ)種/方言覆蓋能力等方面更具優(yōu)勢(shì)。慧聽(tīng)科技與標(biāo)貝科技 則在音樂(lè)領(lǐng)域具備差異化業(yè)務(wù)覆蓋能力。
在語(yǔ)音類數(shù)據(jù)產(chǎn)品中,海天瑞聲在結(jié)構(gòu)方面的差異主要體現(xiàn)在覆蓋的噪聲類型、錄音通道 數(shù)量、錄音文本內(nèi)容類型等方面。相比之下,海天瑞聲的訓(xùn)練數(shù)據(jù)產(chǎn)品結(jié)構(gòu)整體而言可覆 蓋更豐富的錄音文本內(nèi)容類型、噪音環(huán)境類型、錄音通道數(shù)量,Appen 則在稀有語(yǔ)言覆 蓋數(shù)量上更勝一籌。
在自然語(yǔ)言訓(xùn)練數(shù)據(jù)產(chǎn)品中,不同自然語(yǔ)言訓(xùn)練數(shù)據(jù)產(chǎn)品的結(jié)構(gòu)差異主要體現(xiàn)在文本來(lái)源、 內(nèi)容、標(biāo)注屬性等方面。Appen 具備更為豐富的產(chǎn)品數(shù)量與更為全面的語(yǔ)言覆蓋能力, 海天瑞聲在上述指標(biāo)上緊隨其后。
在計(jì)算機(jī)視覺(jué)訓(xùn)練數(shù)據(jù)產(chǎn)品中,海天瑞聲在結(jié)構(gòu)方面的差異主要體現(xiàn)在人像識(shí)別檢測(cè)相關(guān) 數(shù)據(jù)產(chǎn)品領(lǐng)域。主要玩家均可覆蓋不同類型的人臉、姿勢(shì)、場(chǎng)景等,因計(jì)算機(jī)視覺(jué)數(shù)據(jù)產(chǎn) 品個(gè)性化特征較強(qiáng),各類訓(xùn)練數(shù)據(jù)產(chǎn)品在具體的人臉類型、姿勢(shì)范圍、場(chǎng)景等方面具備一 定差異。與 Appen 相比,海天瑞聲的 OCR 訓(xùn)練數(shù)據(jù)產(chǎn)品可覆蓋更多語(yǔ)種的光學(xué)字符識(shí) 別需要,具備廣泛性、強(qiáng)適用性特征。
4.3 他山之石:Appen 發(fā)展復(fù)盤,全球 AI 基礎(chǔ)數(shù)據(jù)服務(wù)巨頭的崛起之路
Appen 系 AI 基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)全球巨頭,經(jīng)歷爆發(fā)式成長(zhǎng)后收入利潤(rùn)短期雙雙回落。Appen 成立于 1996 年,面向機(jī)器學(xué)習(xí)和人工智能開(kāi)發(fā)的高質(zhì)量人工標(biāo)注數(shù)據(jù)集,于 2015 年于澳大利亞證券交易所上市。2015~2019 年,公司經(jīng)歷了爆發(fā)式成長(zhǎng)期,營(yíng)收增速一 度沖高至 100%以上,同期凈利率接近 10%。2020~2022 年,受到全球疫情及公司內(nèi)生 發(fā)展階段調(diào)整影響,2022 年公司營(yíng)收規(guī)模相較 2021 年回落 13.1%,凈利率由 9.1%回落 至 5.9%。
Appen 業(yè)務(wù)類型齊全,客戶質(zhì)量較高。Appen 主要業(yè)務(wù)類型包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理 與模型評(píng)價(jià)三大類。其中,數(shù)據(jù)采集環(huán)節(jié)基于公司預(yù)先標(biāo)記完備的海量數(shù)據(jù)集為下游客戶 提供大量其所需的高質(zhì)量數(shù)據(jù),數(shù)據(jù)集語(yǔ)種覆蓋范圍領(lǐng)先優(yōu)勢(shì)較大。數(shù)據(jù)預(yù)處理環(huán)節(jié),公 司具備全類型數(shù)據(jù)標(biāo)注能力。模型評(píng)價(jià)環(huán)節(jié),公司通過(guò)用戶測(cè)試及針對(duì)客戶競(jìng)爭(zhēng)對(duì)手的性 能基準(zhǔn)測(cè)試,診斷模型潛在問(wèn)題,并為此提供能夠優(yōu)化模型的訓(xùn)練數(shù)據(jù)。公司主要客戶質(zhì) 量較高,包括 Google、Amazon、Microsoft 等知名 IT 巨頭。
Appen 位居同業(yè)員工量能及數(shù)據(jù)標(biāo)注技術(shù)前列。全球范圍來(lái)看,Appen 位居全球 AI 基礎(chǔ) 數(shù)據(jù)服務(wù)行業(yè)收入體量首位。其員工量能(數(shù)量及質(zhì)量)與數(shù)據(jù)標(biāo)注技術(shù)領(lǐng)先程度均位居 行業(yè)頭部,緊隨之后的是 Telus 和 Lionbrigde。以數(shù)據(jù)堂、海天瑞聲為代表的國(guó)內(nèi)頭部廠 商距離 Appen 等海外大廠仍存在一定差距。
編輯:黃飛
?
評(píng)論
查看更多