亚洲一区二区三区精品视频 ,少妇夜夜春夜夜爽试看视频,国产色视频自在线观看

一個月前，就在GPT 4發(fā)布的第二天，同時也是英偉達（NVIDIA）線上大會的契機，英偉達的創(chuàng)始人兼CEO黃仁勛（"Jensen" Huang）與OpenAI的聯(lián)合創(chuàng)始人兼首席科學家伊爾亞-蘇茨克維（Ilya Sutskever ）展開了一次信息量巨大的長達一個小時的“爐邊談話”（Fireside Chats）。期間談到了從伊爾亞-蘇茨克維早期介入神經(jīng)網(wǎng)絡、深度學習，基于壓縮的無監(jiān)督學習、強化學習、GPT的發(fā)展路徑，以及對未來的展望。相信很多人都已經(jīng)看過了這次談話節(jié)目。我相信，因為其中摻雜的各種專業(yè)術語和未經(jīng)展開的背景，使得無專業(yè)背景的同仁很難徹底消化理解他們談話的內容。本系列嘗試將他們完整的對話進行深度地解讀，以便大家更好地理解ChatGPT到底給我們帶來了什么樣的變革。今天，就是這個系列的第五篇：將要擁抱多模態(tài)的ChatGPT。

關聯(lián)回顧

解讀老黃與Ilya的爐邊談話系列之一——故事要從AlexNet說起

解讀老黃與Ilya的爐邊談話系列之二——信仰、準備、等待機會的涌現(xiàn)

解讀老黃與Ilya的爐邊談話系列之三——超越玄幻，背后是人類老師的艱辛付出

解讀老黃與Ilya的爐邊談話系列之四——人人都是ChatGPT的訓練器

讓ChatGPT自己來談一談人工智能倫理

全圖說ChatGPT的前世今生

對話譯文（05）：

黃仁勛：多模態(tài) GPT-4 具備從文本和圖像中學習，并對文本和圖像輸入做出響應的能力。首先，多模態(tài)學習的基礎是Transformer，它使得我們可以從多個模態(tài)中學習，例如把文本和圖像 token 化。在此基礎上，它還幫助我們理解多模態(tài)是如何增強對世界的認知。我的理解是，除了文本本身外，當你在訓練多模態(tài)模型時，甚至僅僅使用文本提示詞時，文本提示詞本身就可以提升文本理解。從基礎上來看，多模態(tài)為什么如此重要？重大突破是什么，以及由此產(chǎn)生的特征差異是什么？

Ilya Sutskever：有兩個維度可以解釋多模態(tài)學習的重要性，或者說是兩個原因讓它變得有趣。第一個原因有點謙虛，多模態(tài)是有用的，對于神經(jīng)網(wǎng)絡來說看到多種形式的數(shù)據(jù)是有幫助的，特別是視覺數(shù)據(jù)。因為世界是非常視覺化的，人類是非常視覺化的動物。人類大腦皮層的三分之一都用于視覺，因此如果沒有視覺，盡管我們的神經(jīng)網(wǎng)絡的效用仍然相當可觀，但效用可能不如想象的那么大。這是一個非常簡單的效用性的論點。很顯然，GPT-4 可以“看”得很好。

第二個原因是，除了從文本學習之外，我們還可以從圖像中學習這個世界的知識。這也是一個有力的論點，盡管它像看上去不是那么明確。我給你舉個例子，或者說在舉例之前，我要給出一個寬泛的說法，作為人類，我們在整個生命中只能聽到大約10億個詞。

黃仁勛：只有10億個詞？

Ilya Sutskever：是的，只有10億個詞。

黃仁勛：真令人驚訝，這不是很多。

Ilya Sutskever：是的，不是很多。

黃仁勛：它包不包括我腦海里的詞？

Ilya Sutskever：那我們權且說20億個詞好啦，你懂我的意思吧。你知道，因為10億秒等于30年。所以你可以看到，我們每秒鐘只能看到幾個詞，并且我們有一半的時間都在睡覺。我們在一生中只能獲得幾十億個詞。因此，對我們來說，獲得盡可能多的信息來源變得非常重要，我們從視覺中學到的東西要多得多。

對我們的神經(jīng)網(wǎng)絡來說，同樣的論點也是適用的。神經(jīng)網(wǎng)絡可以從相當多的詞中學習，原本很難從幾十億詞的文本中認知世界，可能會從數(shù)萬億詞中變得更容易。舉個例子，比如顏色，人們需要看到顏色才能理解顏色。但是神經(jīng)網(wǎng)絡在“一生中”從沒有“看”過一張照片，如果你問它們哪些顏色彼此更相似，它知道紅色比藍色更接近橙色，它也知道藍色比黃色更接近紫色。

這是怎么實現(xiàn)的？一個答案是這個世界的信息，甚至是視覺的信息會慢慢通過文本傳播出去。但是它非常緩慢，不是很快速。所以當你有很多文本時，你仍然可以學習到很多東西。當然，當你加入視覺信息，并從視覺中學習知識，你就會學到額外的知識，這些知識是無法通過文本獲得的。

但我不會說，這是一個二元的關系，有些東西無法從文本中學習到。我認為這更像是一種匯率，特別是當你想學習的時候，如果你像一個人一樣從10億個詞或1億個詞中學習，那么有其他信息來源會變得重要得多。

黃仁勛：是的，你可以從圖像中學習。是不是意味著，如果我們也想了解世界的結構，就像我的手臂連接著我的肩膀，再連接我的手肘就能移動，這個世界的動畫，這個世界的物理，如果我也想了解這一點，我能只看視頻就學會嗎？

Ilya Sutskever：是的。

黃仁勛：如果我想擴展所有這些，例如，如果有人說“great”的意思，“great”可以是“great（太好了）”，“great”也可以是“great（還好）”。你知道，一個是興奮的，一個是諷刺的。像這樣的詞還有很多，比如“That's sick”，指的是“I’m sick（我生病了）”，或者“I’m sick（我惡心了）”。根據(jù)人們的語氣不同，含義也不同。那么，音頻對于模型學習也會有幫助嗎？我們會好好利用它嗎？

Ilya Sutskever：是的，我認為肯定是這樣。那么關于音頻，我們能說些什么呢？它很有用，它是一個額外的信息來源，可能不如視頻圖片那樣重要。但是，這種情況下還是有必要的。音頻的實用性，無論是在識別方面還是在生成方面。

黃仁勛：在我看到的測試中，最有趣的是你們發(fā)布的數(shù)據(jù)，GPT-3在哪些測試中表現(xiàn)更好？GPT-4 在哪些測試中表現(xiàn)更好？你認為多模態(tài)在這些測試中起了多少作用？

Ilya Sutskever：直觀的說，每當有一個測試需要理解問題的圖表時，比如說在某些數(shù)學競賽中，比如高中生的數(shù)學競賽AMC 12，很多問題可能都有圖表。因此，GPT-3.5在測試中表現(xiàn)很差。GPT-4 僅使用文本時的準確率可能只有2%到20%，但是當加入視覺時，它的成功率躍升至40%。因此，視覺確實做了很多工作。視覺非常出色，我認為能夠進行視覺推理和視覺交流，我們也將變得非常強大，非常棒。

從我們對世界中僅僅幾個事物的了解，發(fā)展到你可以了解整個世界，然后你可以把這個世界做視覺化的推理，視覺化的溝通。現(xiàn)在是在哪里，未來又在哪里？也許在某個未來版本中，如果你問神經(jīng)網(wǎng)絡“嘿，給我解釋一下這個”，它將不僅僅產(chǎn)生四個段落，而是像一個小圖表一樣，清楚地傳達給你需要知道的信息。

智愿君：讓我們繼續(xù)解讀老黃和Ilya爐邊談話的第五段對話，這一段還蠻聚焦的，就談了一個話題——多模態(tài)。上回，我們談到了ChatGPT本質上還是圍繞著文本展開的一個聊天機器人，盡管GPT-4有圖形識別能力，但是還沒有打開。但以上絕非是OpenAI滿意的現(xiàn)狀，今天我們就來聊聊多模態(tài)。

多模態(tài)其實是信息溝通通道的概念

今天的對話中一開始老黃就談到了多模態(tài)。很多人可能第一個問題就是：到底什么是多模態(tài)交互呢？

人和一個智能系統(tǒng)交互的時候，存在雙方相互理解的過程，也就是雙方都通過各種通道去表達，然后也都通過各種通道去分析對方的意圖。多模態(tài)是站在智能系統(tǒng)一方來表達，它更多強調的是智能系統(tǒng)通過多個通道去捕獲人和環(huán)境的信息，或者通過多個通道去呈現(xiàn)信息。

從多個通道呈現(xiàn)信息并非是個新鮮概念，比如我們的電影就是同時有畫面和聲音的多通道呈現(xiàn)的。而今天聊的多模態(tài)重點說的是多模態(tài)交互的另一個方面：智能系統(tǒng)如何從更多個通道獲取用戶的意圖。

我們來做一下類比，例如計算機視覺就是通過攝像頭模擬人的視覺，從而幫助智能系統(tǒng)來感知世界。但這不是簡單的模擬，機器視覺有其獨特的、并且還在不斷高速演進中的技術優(yōu)勢。比如在分辨率、景深、可見光和非可見光光譜范圍、多自由度視覺捕獲能力等方面，以及AI和大數(shù)據(jù)加持的圖像識別、海量攝像頭數(shù)據(jù)分析及挖掘能力上，都會讓計算機視覺表現(xiàn)出驚人的力量和生命力。

我下面列出了幾種類似的感知覺技術優(yōu)勢和演進方向的表格，你可以對照著感受一下。

因為智能系統(tǒng)的演進速度非常快，技術的能力邊界也在不斷提升，很多已經(jīng)遠遠超過人類。所以才會有上述老黃和Ilya談話過程中，Ilya說的“GPT-4 可以“看”得很好”。

需要被刮目相看的機器視覺

視覺是如此被重視，是因為人類對整個世界的認知，也絕大多數(shù)都是通過視覺來認知的。

從生理學上來講，人眼有 700 萬視錐細胞和 1億2000萬視桿細胞。視錐細胞幫助我們看到顏色，視桿細胞幫助我們分辨明暗。我們眼睛可以分辨約一千萬種顏色（360到830納米可見光波長范圍內）。在大腦本身，致力于視覺處理的神經(jīng)元數(shù)以億計，約占大腦皮層的 30%，而觸覺神經(jīng)元占 8%，聽覺神經(jīng)元僅占 3%。將信號從視網(wǎng)膜傳送到大腦的兩條視神經(jīng)中的每一條都由一百萬條纖維組成；每條聽覺神經(jīng)僅攜帶 30,000 個。

實驗心理學家赤瑞特拉（Treicher）通過大量的實驗證實：人類獲取的信息83%來自視覺，11%來自聽覺，這兩個加起來就有94%。還有3.5%來自嗅覺，1.5%來自觸覺，1%來自味覺。而且他還做過另外一個實驗，就是關于知識保持即記憶持久性的實驗。結果是：人們一般能記住自己閱讀內容的10%，自己聽到內容的20%，通過視覺和交流實踐獲得的記憶則高達80%。我們的眼睛看到的還會影響我們聽到的，這就是所謂的“麥格克效應”。視覺動物人類這種對視覺的偏愛，和依賴使得“一種視覺在場的形而上學，一種可稱為‘視覺中心主義’（ocularcentrism）的傳統(tǒng)”在人類文化的長河里順理成章地形成了。

但遺憾的是，機器視覺的感知能力和處理能力，一直發(fā)展緩慢，始終和人的視覺保持較遠的差距。但隨著深度學習和神經(jīng)網(wǎng)絡等計算機算法的改進，以及以老黃的Nvidia為代表的GPU 硬件能力的提升，使得機器視覺出現(xiàn)了革命性的進步。并以日新月異的速度，給我們帶來驚喜。近些年機器視覺的進步，計算機圖形處理技術的突飛猛擊，可以從每年舉行的ACM SIGGTRAPH的熱度，以及收獲的“喔”的數(shù)量上感知到在計算機視覺感知領域的前沿科技對時代的影響。

真正徹底改變這個行業(yè)的是2014年6月，當時在谷歌大腦（Google Brain）的Ian Goodfellow及其同事設計的一個機器學習框架。生成對抗網(wǎng)絡一般由一個生成器（生成網(wǎng)絡），和一個判別器（判別網(wǎng)絡）兩個神經(jīng)網(wǎng)絡組成。生成器的作用是，通過學習訓練集數(shù)據(jù)的特征，在判別器的指導下，將隨機噪聲分布盡量擬合為訓練數(shù)據(jù)的真實分布，從而生成具有訓練集特征的相似數(shù)據(jù)。而判別器則負責區(qū)分輸入的數(shù)據(jù)是真實的還是生成器生成的假數(shù)據(jù)，并反饋給生成器。兩個網(wǎng)絡交替訓練，能力同步提高，以零和博弈的形式相互競爭，直到生成網(wǎng)絡生成的數(shù)據(jù)能夠以假亂真，并與與判別網(wǎng)絡的能力達到一定均衡。

第二年，一個來自于自非平衡態(tài)熱力學的擴散模型（Diffusion Model），也被用在圖像處理領域，獲得了非常好的效果。擴散模型是一種基于隨機過程的模型，它可以通過將噪聲向量逐步“擴散”到圖像像素上，從而生成高質量的圖像。這種模型的一個關鍵優(yōu)勢是，它可以通過自適應地選擇擴散步驟的數(shù)量來控制生成圖像的細節(jié)級別。此外，擴散模型還可以用來生成高分辨率的圖像，而不像其他生成模型需要大量的訓練數(shù)據(jù)和計算資源。擴散模型可以應用于各種任務，如圖像去噪、圖像修復、超分辨率成像、圖像生成等等。例如，一個圖像生成模型，經(jīng)過對自然圖像的擴散過程的反轉訓練之后，可從一張完全隨機的噪聲圖像開始逐步生成新的自然圖像。

在文本到圖像生成中，這兩種模型可以配合使用。Diffusion Model可以用來生成高質量的圖像，而GANs則可以用來提高圖像的真實性和可信度。具體來說，Diffusion Model生成的圖像可以被作為GANs的輸入，然后GANs可以通過學習這些圖像的特征來生成更加逼真的圖像。這種方法可以有效地減少Diffusion Model中可能存在的一些缺陷，并產(chǎn)生更加自然和逼真的圖像。

也正是在這種大背景下，OpenAI才會首次推出的給大眾體驗的產(chǎn)品才不是ChatGPT，而是DALL-E。這是首批引起公眾廣泛關注的文本到圖像模型之一，現(xiàn)在，我們體驗對是能夠生成更復雜和逼真的圖像的后繼模型 DALL-E 2。如今，關于Text-to-Image的圖像生成器，已經(jīng)遍地開花，除了DALL-E之外，還有Midjourney、Stable Diffusion、Jasper Art、Starry AI、Dream by Wombo、Nightcafe、BigSleep、Artbreeder、Photosonic、Craiyon等等一系列眼花繚亂的圖像生成器，而且效果都不差。

相信，正是這些原因，老黃和Ilya在討論視覺信息的時候，才會如此興奮吧。

但是硬幣總有兩面，我們也無法忽視因為這兩個技術的采用，面臨的新的挑戰(zhàn)：1. 生成圖片的數(shù)字版權；2. 運用此能力的深偽技術。我們恰巧有兩篇之前的文章覆蓋了這兩個話題，有興趣的同仁，可以點擊鏈接去看一下：

《HIT 11: AI生成的作品著作權歸屬探討》

《河套IT TALK——TALK43：（原創(chuàng)）合成媒體的達摩克利斯之劍——深偽技術》

數(shù)字世界到底有多少可供大模型學習的信息？

在今天上面分享的這段對話中，有關一個人一生獲取的文字信息為10億個詞，這個話題Ilya和老黃還聊了不少內容。這段內容其實也會讓我們去思考，我們一生中接觸這么多字，那么互聯(lián)網(wǎng)上的信息有多少呢？

根據(jù)國際數(shù)據(jù)公司 IDC的估計，截至2020年，全球數(shù)字宇宙的大小為44 Zettabytes（其中1 Zettabyte等于10億 Terabytes），其中文本、圖像和視頻等非結構化數(shù)據(jù)占據(jù)了絕大部分。具體來說，據(jù)IDC估計，非結構化數(shù)據(jù)占據(jù)數(shù)字宇宙的80%以上，其中視頻數(shù)據(jù)占比最高，約為60%。據(jù)統(tǒng)計，截至2020年，全球每天產(chǎn)生的文本數(shù)據(jù)量約為50萬億字節(jié)，這相當于每天產(chǎn)生50億部普通手機的存儲容量；而每天上傳到YouTube的視頻數(shù)據(jù)量約為500小時，相當于每分鐘上傳約300小時的視頻。

這也映射了之前說的，目前世界上大部分信息都是采用視頻和圖像來保存的。目前GPT-4等大模型，學習到的文本數(shù)據(jù)還是有限的。關于GPT-4學了多大當量的數(shù)據(jù)并不清楚，但是GPT-3學了45TB的文本數(shù)據(jù)。主要來源于：

- Common Crawl：提供了包含超過50億份網(wǎng)頁數(shù)據(jù)的免費數(shù)據(jù)庫。有超過7年的網(wǎng)絡爬蟲數(shù)據(jù)集，包含原始網(wǎng)頁數(shù)據(jù)、元數(shù)據(jù)提取和文本提取。
- Wikipedia：網(wǎng)絡維基百科，目前有超過1億的條目項。
- BooksCorpus：由100萬本英文電子書組成的語料庫。
- WebText：一個來自于互聯(lián)網(wǎng)的語料庫，其中包含了超過8億個網(wǎng)頁的文本內容。
- OpenWebText：類似于WebText，但是包含的文本數(shù)據(jù)更加規(guī)范化和質量更高。
- ConceptNet：一個用于語義網(wǎng)絡的數(shù)據(jù)庫，其中包含大量的語言學知識。
- NewsCrawl：從新聞網(wǎng)站收集的大量新聞文章的集合。
- Reddit：一個包含了大量用戶發(fā)布的信息的論壇網(wǎng)站。

而這些數(shù)據(jù)，也僅僅是互聯(lián)網(wǎng)上文本信息的一部分，當然，可以認為這也是高質量數(shù)據(jù)的一部分。為什么不學習更多的數(shù)據(jù)？我的理解，這里有復雜的原因，既有數(shù)據(jù)的可獲得性考慮，還要有大模型訓練的成本（包括計算成本和時間成本）的平衡。但未來的趨勢，一定是學習更多的數(shù)據(jù)，而且一定是多模態(tài)，多種媒體形式數(shù)據(jù)的學習。現(xiàn)在大模型的訓練，已經(jīng)變成了一種新的熱潮，很多企業(yè)都開始擁抱大模型，也有很多在訓練自己的大模型。Amazon和Texas A&M university 研究團隊構建的現(xiàn)代LLM進化樹，展示了其中部分企業(yè)的最新進展，有興趣可以看一下：

不同媒體形式數(shù)據(jù)Token的差別是什么？

在大模型的機器學習中，token是指在信息數(shù)據(jù)處理中的最小單位，如果是文本信息的話，通常是單詞或者子單詞。在自然語言處理任務中，一個token可以是一個單詞，也可以是一個詞根、一個詞綴或一個字符，這取決于數(shù)據(jù)預處理的方式和任務的需要。

在文本數(shù)據(jù)的預處理中，一個常見的步驟是將原始文本拆分成一個個token，這個過程稱為tokenization。在深度學習模型中，tokenization通常是將文本轉換為數(shù)字表示的第一步。每個token都被賦予一個唯一的整數(shù)編號，這個編號會作為模型輸入中的一個特征向量的一部分。

在大模型的機器學習中，tokens的處理通常涉及到詞表、嵌入矩陣等概念。這些概念都是為了將文本數(shù)據(jù)轉換為數(shù)字表示，以便于神經(jīng)網(wǎng)絡模型進行計算和優(yōu)化。

中文的Token比英文的要復雜，因為中文中沒有明確的單詞邊界。

在英文中，單詞之間通常由空格或標點符號分隔開，這使得單詞的tokenization變得相對簡單。而在中文中，單詞之間沒有空格，相鄰的中文字符也不一定組成一個單詞。因此，中文的tokenization通常需要使用一些特定的技術來處理這種情況。

一種常見的中文tokenization技術是基于中文分詞。中文分詞是將中文文本切分成一個個有意義的詞語的過程。這個過程通常會用到一些預先訓練好的分詞器或字典，通過匹配字典中的詞語或者使用統(tǒng)計方法來實現(xiàn)。

此外，在中文的tokenization中，還需要注意一些漢字之間可能存在的合并或拆分現(xiàn)象，以及不同語境下同一漢字可能表示不同的含義的情況。這些因素都需要考慮到，以保證中文文本的正確切分和tokenization。

除了文字之外，其他的信息，同樣在學習前，也是要tokenization技術處理的。以下是對于不同類型數(shù)據(jù)的token解釋：

- 音頻：在音頻處理中，token通常是指音頻信號的采樣值，即將一段時間內的聲音信號離散化為一系列數(shù)字。這些數(shù)字被用于表示音頻信號，并可以作為神經(jīng)網(wǎng)絡模型的輸入。另外，音頻的tokenization也可以基于聲音的頻率和時域信息，通過一些特征提取算法來實現(xiàn)。
- 圖像：在圖像處理中，token通常是指圖像的像素值。像素是構成數(shù)字圖像的最小單位，每個像素都有一個數(shù)值，代表該像素的顏色和亮度等信息。這些像素值被用于表示圖像，并可以作為神經(jīng)網(wǎng)絡模型的輸入。此外，也可以對圖像進行特征提取，例如使用卷積神經(jīng)網(wǎng)絡等算法來提取圖像的特征。
- 視頻：在視頻處理中，token通常是指視頻中的一幀圖像。視頻由一系列連續(xù)的圖像組成，每個圖像都可以作為一個token。此外，還可以對視頻進行特征提取，例如使用卷積神經(jīng)網(wǎng)絡等算法來提取視頻的空間和時間特征。

對于非文本數(shù)據(jù)，例如圖像和音頻數(shù)據(jù)，如果直接將其全部進行tokenization，將會導致數(shù)據(jù)的體積變得非常大，并且可能丟失數(shù)據(jù)的一些關鍵信息。因此，在處理這些非文本數(shù)據(jù)時，可能需要使用一些特定的處理方法和特征提取技術，而不是直接進行tokenization。

支持AIGC的語音聊天機器人

今天分享的這段對話中，老黃和Ilya簡單提到了語音語調在大模型識別和生成的重要性。其實這挺關鍵的，想到過去幾年，非常火的智能語音技術。真正的體驗是非常不好的，不僅僅需要每次溝通都要提示詞，而且對包括方言等非標準語言的理解力很差，更不要說去理解語氣語調了。而且，回答問題的方式也千篇一律，給人的感覺就是并不夠智能。大部分的使用場景成了問天氣，設鬧鐘，放歌和智能家電開關等簡單用途上了。

未來，這些基于語音的交互智能家庭助手也應該支持類似ChatGPT的能力。ChatGPT能夠實現(xiàn)對復雜的自然語言理解和生成任務的處理，而這些任務也可以應用到基于語音的交互智能家庭助手中。例如，基于語音的交互智能家庭助手可以使用ChatGPT來實現(xiàn)更加自然、流暢的對話和問答。同時，ChatGPT還可以通過對大量語音和文本數(shù)據(jù)的學習，提高基于語音的交互智能家庭助手的語音識別和自然語言處理能力。再也不用擔心自己說的話不標準，AI不響應了，可以慢慢聊，逐漸趨近于業(yè)務需求，而且也不用刻意遵守什么AI對話語言規(guī)則，所謂的換了一種說話方式，AI就聽不懂的情況。甚至更神奇的將是，你說什么語言，AI就會按照什么語言來回應。比如你說方言，它就方言回應，你說英語，它就英語回應。要多自然，有多自然。

不過，我們還是要意識到，AIGC的語音聊天機器人，必然面臨新的挑戰(zhàn)：

- 數(shù)據(jù)體積：音頻數(shù)據(jù)通常比文本和圖像數(shù)據(jù)更大，因此需要更多的存儲空間和處理能力。對于大規(guī)模音頻數(shù)據(jù)的處理，需要使用高效的計算和存儲方案。
- 數(shù)據(jù)預處理：音頻數(shù)據(jù)需要進行預處理，以便于神經(jīng)網(wǎng)絡的訓練和推斷。預處理包括提取特征、標準化和降噪等步驟。不同的預處理方法可能會影響模型的性能和效果。
- 噪聲和變異性：音頻數(shù)據(jù)通常會受到噪聲和變異性的影響，例如不同的說話者、語氣和背景噪聲等。這些噪聲和變異性可能會影響模型的精度和魯棒性，需要使用合適的預處理方法和模型設計來處理。
- 音頻模型的設計：對于不同的音頻任務，需要使用不同的模型結構和訓練方法。例如，對于語音識別任務，可以使用基于卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡的模型，而對于語音合成任務，可以使用基于生成對抗網(wǎng)絡和自注意力機制的模型。
- 訓練數(shù)據(jù)和標注：音頻數(shù)據(jù)需要進行標注，以便于模型的訓練和評估。對于語音識別任務，需要進行音素或字級別的標注，而對于語音合成任務，則需要進行音高、音調和語速等方面的標注。標注數(shù)據(jù)的質量和數(shù)量會影響模型的性能和效果。

不過，我有信心，隨著時間的推移，以上挑戰(zhàn)終將不是問題。隨著人工智能技術的不斷發(fā)展和普及，基于語音的交互智能家庭助手會不斷地提高自己的能力，以更好地服務用戶，而且在和人的語音對話過程中，也是自我學習提升改進的過程（也就是通過每次溝通訓練對任務的理解和表達能力，形成記憶，自主成長）。在未來，基于語音的交互智能家庭助手可能還會采用更加先進的技術和算法，例如端到端的語音識別和合成技術、基于深度強化學習的對話生成技術等，以提供更加智能化、個性化的服務。相信，不遠的將來，能更為自然和人聊天的語音機器人會很快上市。

更加值得期待的多媒體交互

老黃和Ilya今天分享談話的最后，Ilya談到了對多模態(tài)的暢想。

支持多模態(tài)輸出對ChatGPT對信息的回復，也不會簡單局限在“蹦字兒”的狀態(tài)了。比如如果我們在餐館見到一個菜超級好吃，就把它拍下來，輸入給ChatGPT。ChatGPT除了回復正常做菜的選料，預處理，烹飪的文本描述之外，每樣原材料、預處理的手法，以及烹調的順序和詳細過程，還會有圖片、視頻相對應，避免理解錯誤。當然，這只是理想場景，現(xiàn)實場景，多模態(tài)輸出未必如此賞心悅目。

一般來說，選擇合適的模態(tài)輸出需要考慮以下幾個方面：

- 信息的類型和內容：不同類型和內容的信息適合使用不同的模態(tài)輸出。例如，當需要傳達具體的操作步驟或指示時，使用語音或視頻等模態(tài)輸出會更為直觀和有效；而當需要傳達大量的文本信息時，使用文字輸出會更為方便和快速。
- 用戶的偏好和需求：不同的用戶有不同的偏好和需求，因此需要根據(jù)用戶的特點選擇合適的模態(tài)輸出。例如，當用戶更喜歡通過聽覺方式獲取信息時，使用語音輸出會更為合適；而當用戶更喜歡通過視覺方式獲取信息時，使用圖像或視頻輸出會更為合適。
- 應用場景和環(huán)境：不同的應用場景和環(huán)境對模態(tài)輸出的要求也不同。例如，在嘈雜的環(huán)境中，使用語音輸出可能會受到干擾，此時可以選擇使用圖像或文字等其他模態(tài)輸出；而在需要快速操作的場景中，使用語音輸出可能更為方便。

需要注意的是，如果同時使用多個模態(tài)輸出來展示信息，可能會導致信息輸入的瓶頸或信息擁塞，從而降低溝通效果。因此，在選擇模態(tài)輸出時，需要根據(jù)具體情況綜合考慮，選擇最為合適的模態(tài)輸出方式，以提高信息傳達的效率和準確性。

在多模態(tài)輸出的場景中，如何選擇合適的模態(tài)輸出是一個需要考慮的問題。選擇合適的模態(tài)輸出，可以提高信息傳達的效率和準確性，并且可以改善用戶體驗。

因為機器或許在信息處理和輸出方面，速度可以靈活調整。但人類的注意力通道無法承載過多的信息輸入。人類注意力的帶寬是極為有限的，而且生物進化的緩慢速度相比于設備的增長、處理能力的提升幾乎可以被定性為停滯不前。如果一味追求多媒體的輸出，用戶會被淹沒在各種多媒體信息的海洋中中應接不暇、無所適從。因為注意力被各種多媒體透支占用，我們從之前的從容處理任務，逐漸過渡到被高負荷信息壓得喘不過氣的時代。所以，在合適的時機，合適的場景，針對合適的人，以合適的模態(tài)進行溝通，不去過多耗費用戶的注意力，快速處理完事情后用戶應立即撤回注意力做別的事情。才是最好的溝通策略。從我以前對多模態(tài)交互的理解，這個叫做平靜交互原則。

在探討AI技術決定論的前提下，注重體驗仍然是非常關鍵的因素。

好了，今天我們先解讀到這里。下次，我們會繼續(xù)針對黃仁勛與Ilya Sutskever的“爐邊談話”的其他部分進行解讀，敬請期待。

未完待續(xù)……

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

開源技術

開源技術

+關注

關注
0

文章
389

瀏覽量
7892
OpenHarmony

OpenHarmony

+關注

關注
25

文章
3614

瀏覽量
15993

原文標題：河套IT TALK 76: (原創(chuàng)) 解讀老黃與Ilya的爐邊談話系列之五——將要擁抱多模態(tài)的ChatGPT（萬字長文）

文章出處：【微信號：開源技術服務中心，微信公眾號：共熵服務中心】歡迎添加關注！文章轉載請注明出處。

單日獲客成本超20萬，國產(chǎn)大模型開卷200萬字以上的長文本處理

電子發(fā)燒友網(wǎng)報道（文/周凱揚）隨著AGI生態(tài)的蓬勃發(fā)展，各種支持多模態(tài)的大模型推陳出新，比如最近比較火的音樂大模型Suno和文生視頻大模型Sora等等。然而在傳統(tǒng)基于文本的大語言模型上，除了追求更快

發(fā)表于 03-27 00:53 ?3259次閱讀

單日獲客成本超20<b class='flag-5'>萬</b>，國產(chǎn)大模型開卷200<b class='flag-5'>萬字</b>以上的<b class='flag-5'>長文</b>本處理

NVIDIA助力企業(yè)用AI創(chuàng)建數(shù)據(jù)飛輪

在與 Snowflake 首席執(zhí)行官的爐邊談話中，黃仁勛介紹了兩家公司將如何幫助企業(yè)通過加速計算來處理數(shù)據(jù)，從而產(chǎn)生商業(yè)洞察。

發(fā)表于 10-10 09:22 ?268次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術的浩瀚星海中，多模態(tài)交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨運的山海多

發(fā)表于 08-27 15:20 ?326次閱讀

萬字長文淺談系統(tǒng)穩(wěn)定性建設

流程：需求階段，研發(fā)階段，測試階段，上線階段，運維階段；整個流程中的所有參與人員：產(chǎn)品，研發(fā)，測試，運維人員都應關注系統(tǒng)的穩(wěn)定性。業(yè)務的發(fā)展及系統(tǒng)建設過程中，穩(wěn)定性就是那個1，其他的是1后面的0，沒有穩(wěn)定性，就好比將萬

發(fā)表于 07-02 10:31 ?307次閱讀

<b class='flag-5'>萬字長文</b>淺談系統(tǒng)穩(wěn)定性建設

MiniMax推出“海螺AI”，支持超長文本處理

近日，大模型公司MiniMax宣布，其全新產(chǎn)品“海螺AI”已正式上架。這款強大的AI工具支持高達200ktokens的上下文長度，能夠在1秒內處理近3萬字的文本。

發(fā)表于 05-17 09:30 ?654次閱讀

AI快訊：華為助力金融行業(yè)加速擁抱AI 馬斯克xAI 展示首個多模態(tài)模型

AI快訊：華為助力金融行業(yè)加速擁抱AI 馬斯克xAI 展示首個多模態(tài)模型小編給大家匯總一下近期的AI資訊。華為助力金融行業(yè)加速擁抱AI 日前在以“數(shù)創(chuàng)未來，智慧金融”為主題的202

發(fā)表于 04-15 12:32 ?370次閱讀

阿里通義千問重磅升級，免費開放1000萬字長文檔處理功能

近日，阿里巴巴旗下的人工智能應用通義千問迎來重磅升級，宣布向所有人免費開放1000萬字的長文檔處理功能，這一創(chuàng)新舉措使得通義千問成為全球文檔處理容量第一的AI應用。

發(fā)表于 03-26 11:09 ?700次閱讀

“單純靠大模型無法實現(xiàn) AGI”！萬字長文看人工智能演進

人工智能是指讓計算機或機器具有類似于人類智能的能力，如學習、推理、解決問題和使用語言、常識、創(chuàng)造力、情感和道德等。

發(fā)表于 02-19 14:22 ?998次閱讀

“單純靠大模型無法實現(xiàn) AGI”！<b class='flag-5'>萬字長文</b>看人工智能演進

【國產(chǎn)FPGA+OMAPL138開發(fā)板體驗】（原創(chuàng)）6.FPGA連接ChatGPT 4

。若要在FPGA上實現(xiàn)與ChatGPT4的交互，需要通過嵌入式處理器（如ARM核）運行網(wǎng)絡協(xié)議棧，并調用相應的API接口與ChatGPT4服務通信。今天先寫到這里... 接上五篇：【國產(chǎn)

發(fā)表于 02-14 21:58

如何用AI聊天機器人寫出萬字長文

如何用AI聊天機器人寫出萬字長文

發(fā)表于 12-26 16:25 ?1006次閱讀

人工智能領域多模態(tài)的概念和應用場景

隨著人工智能技術的不斷發(fā)展，多模態(tài)成為了一個備受關注的研究方向。多模態(tài)技術旨在將不同類型的數(shù)據(jù)和信息進行融合，以實現(xiàn)更加準確、高效的人工智能應用。本文將詳細介紹

發(fā)表于 12-15 14:28 ?8277次閱讀

大模型+多模態(tài)的3種實現(xiàn)方法

我們知道，預訓練LLM已經(jīng)取得了諸多驚人的成就，然而其明顯的劣勢是不支持其他模態(tài)（包括圖像、語音、視頻模態(tài)）的輸入和輸出，那么如何在預訓練LLM的基礎上引入跨模態(tài)的信息，讓其變得更強大、更通用呢？本節(jié)將介紹“大模型+

發(fā)表于 12-13 13:55 ?1548次閱讀

大模型+<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>的3種實現(xiàn)方法

22000字長文傳感器發(fā)展簡史

本文內容相對較“雜”，長達20000字，涉及傳感器發(fā)展歷史、各國傳感器產(chǎn)業(yè)研究、傳感器產(chǎn)業(yè)體系、現(xiàn)狀和發(fā)展、國內外主流傳感器企業(yè)介紹等內容，對整體了解中國傳感器產(chǎn)業(yè)比較有幫助。文中指出過去25年來

發(fā)表于 11-20 15:12 ?544次閱讀

22000<b class='flag-5'>字長文</b>傳感器發(fā)展簡史

全面！萬字長文解析全球激光雷達產(chǎn)業(yè)技術及市場格局

在自動化駕駛的 5 級標準中，L3 級標準下的 ADAS 高級輔助駕駛市場與 L4、L5 級標準下的無人駕駛市場都對激光雷達技術產(chǎn)品擁有著較高的需求，隨著中國自動駕駛領域的政策和規(guī)范的不斷成熟，激光雷達行業(yè)將迎來廣闊的發(fā)展空間。? 根據(jù) Velodyne 預測，2022 年激光雷達市場規(guī)模將達到 119 億美元，其中約 72 億美元來自汽車領域的應用，占比約 60%。在自動汽車領域中，機械式和固態(tài)式激光雷達的技術發(fā)展方向之爭也將在未來深刻的影響著激光雷達市場的發(fā)

發(fā)表于 11-20 15:05 ?745次閱讀

全面！<b class='flag-5'>萬字長文</b>解析全球激光雷達產(chǎn)業(yè)技術及市場格局

探究編輯多模態(tài)大語言模型的可行性

不同于單模態(tài)模型編輯，多模態(tài)模型編輯需要考慮更多的模態(tài)信息。文章出發(fā)點依然從單模態(tài)模型編輯入手，將單模態(tài)

發(fā)表于 11-09 14:53 ?454次閱讀

搜索歷史

河套IT TALK 76: (原創(chuàng)) 解讀老黃與Ilya的爐邊談話系列之五——將要擁抱多模態(tài)的ChatGPT（萬字長文）

評論