三人成全免费观看电视剧高清,国产精品无码久久久久成人免费看,亚洲成a∧人片在线播放

★多模態(tài)大模型；GPU算力；LLMS；LLM；LMM；GPT-4V；GH200；圖像識(shí)別；目標(biāo)定位；圖像描述；視覺問答；視覺對(duì)話；英偉達(dá)；Nvidia；H100;L40s；A100;H100；A800；H800，AI算力，AI算法

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)大模型成為越來越重要的發(fā)展趨勢(shì)。多模態(tài)大模型通過融合視覺等多種感知能力來擴(kuò)展語言模型，實(shí)現(xiàn)更強(qiáng)大的通用人工智能。GPT-4V（GPT-4 近日開放的視覺模態(tài)）大型多模型（LMMs）擴(kuò)展大型語言模型（LLMs）以增強(qiáng)多感知技能（如視覺理解等）從而實(shí)現(xiàn)更強(qiáng)大的通用智能。本文著重對(duì)GPT-4V進(jìn)行深入分析，以進(jìn)一步深化對(duì)LMM的理解。在此本文分析核心是GPT-4V可以執(zhí)行的任務(wù)，同時(shí)包含用于探測(cè)其能力質(zhì)量和通用性的測(cè)試樣本。

研究結(jié)果表明，GPT-4V在處理交錯(cuò)多模態(tài)輸入方面有著前所未有的能力，并且其通用性使其成為一個(gè)強(qiáng)大的多模態(tài)綜合智能系統(tǒng)。GPT-4V的獨(dú)特能力主要表現(xiàn)在理解輸入圖像上繪制的視覺標(biāo)記，同時(shí)還能產(chǎn)生新的人機(jī)交互方法如視覺指引提示。本文將探討GPT-4V的初步探索、多模態(tài)對(duì)算力影響、英偉達(dá)最強(qiáng)AI芯片GH200究竟強(qiáng)在哪里，以及藍(lán)海大腦大模型訓(xùn)練平臺(tái)等多個(gè)方面的內(nèi)容。

GPT-4V的初步探索

本文采用定性案例設(shè)計(jì)方法，對(duì)GPT-4V進(jìn)行全面探索。著重以案例方式進(jìn)行評(píng)估，而非傳統(tǒng)的定量評(píng)測(cè)，旨在激發(fā)后續(xù)研究建立針對(duì)大型多模態(tài)模型的評(píng)估基準(zhǔn)?？紤]到不同的交互模式可能會(huì)對(duì)模型表現(xiàn)產(chǎn)生影響，因此主要采用零樣本提示的方式，以減少對(duì)上下文示例的依賴，從而更好地評(píng)估GPT-4V獨(dú)立處理復(fù)雜多模態(tài)輸入的能力。

一、GPT-4V的輸入模式

GPT-4V是一個(gè)文本輸入的單模型語言系統(tǒng)，同時(shí)具備接受圖像-文本對(duì)輸入的能力。作為純文本輸入模型，GPT-4V表現(xiàn)出強(qiáng)大的語言處理能力。對(duì)于文本輸入，GPT-4V只需要純文本輸入和輸出即可完成各種語言和編碼任務(wù)。GPT-4V的另一個(gè)應(yīng)用模式是接受單個(gè)圖像-文本對(duì)輸入，可以完成各種視覺及視覺語言任務(wù)（如圖像識(shí)別、目標(biāo)定位、圖像描述、視覺問答、視覺對(duì)話以及生成密集式圖像描述等）。此外，GPT-4V還支持交錯(cuò)的圖像-文本輸入模式，這種靈活的輸入方式使其具有更廣泛的應(yīng)用場(chǎng)景，比如計(jì)算多張收據(jù)圖片的總稅額、從多圖片中提取查詢信息，以及關(guān)聯(lián)交錯(cuò)的圖像文本信息等。處理這種交錯(cuò)輸入也是少樣本學(xué)習(xí)和其他高級(jí)提示技術(shù)的基礎(chǔ)，從而進(jìn)一步增強(qiáng)GPT-4V的適用范圍。

GPT-4V支持使用多圖像和交錯(cuò)圖像-文本輸入

二、GPT-4V的工作方式和提示技術(shù)

GPT-4V可以理解并遵循文本指令，生成所需的文本輸出或?qū)W會(huì)完成一項(xiàng)新任務(wù)。紅色表示信息較少的答案。

GPT-4V的獨(dú)特優(yōu)勢(shì)在于其強(qiáng)大自然語言指令理解和遵循能力。指令可以用自然語言形式規(guī)定各種視覺語言任務(wù)所需的輸出文本格式。此外，GPT-4V能夠通過理解復(fù)雜指令來完成具有挑戰(zhàn)性的任務(wù)，如包含中間步驟的抽象推理問題。GPT-4V具有適應(yīng)未知應(yīng)用和任務(wù)的巨大潛力。

1、視覺指向和視覺引用提示

指點(diǎn)是人與人之間互動(dòng)的基本方面，為提供可比的交互渠道，探索各種形式的“指點(diǎn)”來表示圖片中的空間興趣區(qū)域（如數(shù)字坐標(biāo)框、箭頭、框、圈、手繪等）。鑒于圖像上繪制的靈活性，提出一種新的提示方式即“視覺指代提示”，通過編輯輸入圖像的像素來指定目標(biāo)（如畫視覺指示器或手寫場(chǎng)景文字）。不同于傳統(tǒng)文本提示，視覺指代提示通過圖像像素編輯來完成任務(wù)。例如：可以基于畫出的對(duì)象生成簡(jiǎn)單描述，同時(shí)保持對(duì)整體場(chǎng)景的理解，或者將指定對(duì)象與場(chǎng)景文本索引關(guān)聯(lián)起來，或者回答貼邊或刁鉆角度的問題等。

2、視覺+文本提示

視覺引用提示可以與其他圖像文本提示結(jié)合使用，呈現(xiàn)簡(jiǎn)潔細(xì)致的界面。GPT-4V展現(xiàn)出強(qiáng)大的提示靈活性，特別是在集成不同輸入格式以及無縫混合指導(dǎo)方面。GPT-4V具有強(qiáng)大的泛化性和靈活性，可以像人類一樣理解多模態(tài)指令，并具有適應(yīng)未知任務(wù)的能力。

同時(shí)GPT-4V能處理多模態(tài)指令（包括圖像、子圖像、文本、場(chǎng)景文本和視覺指針），這使其具有更強(qiáng)的擴(kuò)展能力和通用性。此外，GPT-4V可將抽象語言指令與視覺示例關(guān)聯(lián)，作為多模態(tài)演示，這比僅文本指令或上下文少樣本學(xué)習(xí)更符合人類學(xué)習(xí)方式。

約束提示以JSON格式返回。圖像是樣本的示例id。紅色的突出顯示錯(cuò)誤的答案。

在大型語言模型（LLM）中，The_Dawn_of_LMMs：Preliminary_Explorations_with_GPT-4V(ision)報(bào)告中觀察到一種新的上下文少樣本學(xué)習(xí)能力，即LLM可以通過添加格式相同的上下文示例生成預(yù)期輸出，無需參數(shù)更新。類似的能力也在多模態(tài)模型中被觀察到，查詢輸入為格式化的圖像-文本對(duì)。展示GPT-4V的上下文少樣本學(xué)習(xí)能力，強(qiáng)調(diào)在某些情況下，充分的示例數(shù)量至關(guān)重要，特別是在零射或一射指令不足時(shí)。

例如，在速度計(jì)的復(fù)雜場(chǎng)景中，GPT-4V在提供2個(gè)上下文示例后成功預(yù)測(cè)正確讀數(shù)。在另一個(gè)多步推理的線圖案例中，只有在給出額外示例的二射提示下，GPT-4V才能得出正確結(jié)論。這些驗(yàn)證實(shí)例展示了上下文少樣本學(xué)習(xí)對(duì)提升LMM性能的重要作用，成為可行的微調(diào)替代選擇。

在讀取速度計(jì)的挑戰(zhàn)性場(chǎng)景下的零射擊性能。GPT-4V即使采用不同的提示方式，也能夠準(zhǔn)確讀取速度表并避免失敗。紅色表示錯(cuò)誤的答案。

三、視覺語言能力

1、不同域的圖像描述

GPT-4V在處理“圖像-文字對(duì)”輸入時(shí)的能力和泛化性。要求其生成自然語言描述并涵蓋以下主題：名人識(shí)別、地標(biāo)識(shí)別、食物識(shí)別、醫(yī)學(xué)圖像理解、Logo識(shí)別、場(chǎng)景理解和逆向示例。

名人識(shí)別方面，GPT-4V能夠準(zhǔn)確識(shí)別不同背景的名人并理解場(chǎng)景與背景信息，例如在2023年G7峰會(huì)上識(shí)別總統(tǒng)演講。

地標(biāo)識(shí)別方面，GPT-4V可以準(zhǔn)確描述地標(biāo)并生成生動(dòng)詳細(xì)的敘述，捕捉地標(biāo)本質(zhì)。

食物識(shí)別方面，GPT-4V能夠準(zhǔn)確識(shí)別各種菜肴并捕捉菜肴的復(fù)雜細(xì)節(jié)。

醫(yī)學(xué)圖像理解方面，GPT-4V可以識(shí)別X光牙齒結(jié)構(gòu)并能根據(jù)CT掃描判斷潛在問題。

Logo識(shí)別方面，GPT-4V可以準(zhǔn)確描述Logo的設(shè)計(jì)和含義。

場(chǎng)景理解方面，GPT-4V可以描述道路場(chǎng)景中的車輛位置、顏色并讀取路標(biāo)限速提示。

逆向示例方面，當(dāng)遇到誤導(dǎo)性問題時(shí)，GPT-4V可以正確描述圖像內(nèi)容，不被誤導(dǎo)。

名人識(shí)別和描述結(jié)果：GPT-4V可以識(shí)別各種名人描述視覺信息(包括他們的職業(yè)、行動(dòng)、背景和事件)細(xì)節(jié)

2、對(duì)象定位、計(jì)數(shù)和密集字幕

GPT-4V在理解圖像中人與物體的空間關(guān)系方面表現(xiàn)出色，能夠分析圖像中的空間信息并正確理解人與物體的相對(duì)位置。GPT-4V在物體計(jì)數(shù)方面的能力，能成功計(jì)算出圖像中出現(xiàn)的物體數(shù)量，如蘋果、橙子和人。但在物體被遮擋或場(chǎng)景混亂時(shí)，計(jì)數(shù)可能會(huì)出錯(cuò)。

空間關(guān)系理解結(jié)果：GPT-4V能夠識(shí)別圖像中物體之間的空間關(guān)系

3、物體定位

物體定位是計(jì)算機(jī)視覺中的一項(xiàng)難題，而GPT-4V模型在初步實(shí)驗(yàn)中能夠通過簡(jiǎn)單的文本提示生成邊界框坐標(biāo)來定位圖像中的人物，但在復(fù)雜場(chǎng)景中可能會(huì)遇到挑戰(zhàn)。在場(chǎng)景或背景相對(duì)簡(jiǎn)單且較少混亂時(shí)，定位結(jié)果具有潛力，但更復(fù)雜的場(chǎng)景（如物體遮擋）中，模型仍需要進(jìn)一步的提示技術(shù)來提升物體定位性能。在目標(biāo)定位結(jié)果方面，GPT-4V能夠近似邊界框坐標(biāo)的指定對(duì)象，但在更復(fù)雜的場(chǎng)景中模型仍有局限性。

4、密集字幕生成

密集字幕生成需要對(duì)每個(gè)圖像區(qū)域做出詳細(xì)描述，通常需要一個(gè)復(fù)雜的系統(tǒng)，包含目標(biāo)檢測(cè)器、名人識(shí)別模型和圖像字幕生成模型。為了考察本模型在密集字幕生成方面的能力，采用文本提示形式，結(jié)果顯示模型成功地定位和識(shí)別圖像中的個(gè)體，并提供了簡(jiǎn)潔的描述。

密集字幕的結(jié)果：成功為輸入圖像生成詳細(xì)的說明

四、多模態(tài)知識(shí)和常識(shí)

GPT-4V在解釋表情包和理解幽默元素方面表現(xiàn)出色，能從文本和圖像中收集信息并理解幽默效果。在科學(xué)知識(shí)推理任務(wù)中，GPT-4V也能夠正確回答涵蓋廣泛主題的問題。此外，GPT-4V在多模態(tài)常識(shí)推理方面也表現(xiàn)出強(qiáng)大的能力，能夠利用圖像中的邊界框識(shí)別個(gè)體執(zhí)行的動(dòng)作，并推斷出場(chǎng)景中的細(xì)節(jié)。在更具體的輸入提示下，還能夠辨別圖像中的微妙線索并提供可能的假設(shè)。

笑話和模因理解的結(jié)果：GPT-4V展示了令人印象深刻的能力理解表情包中的幽默

五、場(chǎng)景文本、表格、圖表和文檔推理

GPT-4V能準(zhǔn)確地識(shí)別和解讀圖像中的場(chǎng)景文本，包括手寫和打印文本，并能提取關(guān)鍵數(shù)學(xué)信息解決問題。此外，對(duì)圖表、流程圖、x軸、y軸等細(xì)節(jié)均有理解和推理能力，還能將流程圖的詳細(xì)信息轉(zhuǎn)化為Python代碼。GPT-4V也能理解各種類型文檔（如平面圖、海報(bào)和考卷）并提供合理的回答。在更具挑戰(zhàn)性的案例中，GPT-4V展示出令人印象深刻的結(jié)果，但偶爾可能會(huì)遺漏一些實(shí)現(xiàn)細(xì)節(jié)。

場(chǎng)景文本識(shí)別結(jié)果：GPT-4V可以識(shí)別許多具有挑戰(zhàn)性的場(chǎng)景文本場(chǎng)景

六、多語言多模式理解

GPT-4V通過自然圖像測(cè)試成功識(shí)別不同語言的輸入文本提示，并生成相應(yīng)正確語言的圖像描述。在涉及多語言場(chǎng)景文字識(shí)別的場(chǎng)景中，GPT-4V能夠正確識(shí)別和理解不同場(chǎng)景中的文字，并將其翻譯成不同語言。此外，在多元文化理解能力測(cè)試中，GPT-4V能夠理解文化細(xì)微差別并生成合理的多語言描述。

多語言圖像描述的結(jié)果：GPT-4V能夠根據(jù)圖像生成不同語言的描述

七、與人類的互動(dòng)視覺參考提示

在人機(jī)交互中，指向特定空間位置的能力至關(guān)重要，特別是在多模態(tài)系統(tǒng)中的視覺對(duì)話。GPT-4V能夠很好地理解在圖像上直接繪制的視覺指示。因此提出了一種名為“視覺引用提示”的新型模型交互方法。其核心思想是將視覺指示或場(chǎng)景文本編輯繪制在圖像像素空間中，作為人類參考指令。

最后，科學(xué)家們探索了使GPT-4V生成視覺指針輸出來與人類進(jìn)行交互的方法。這些視覺指針對(duì)于人類和機(jī)器都是直觀的，成為人機(jī)交互的良好渠道。GPT-4V可以識(shí)別不同類型的視覺標(biāo)記作為指針，并生成具有基礎(chǔ)描述的字幕。與傳統(tǒng)的視覺語言模型相比，能夠處理更具挑戰(zhàn)性的問題，即生成專注于特定感興趣區(qū)域的視覺描述。此外，GPT-4V可以理解坐標(biāo)，并在沒有額外的框令牌微調(diào)的情況下實(shí)現(xiàn)空間引用。盡管存在一些空間不精確問題，但與文本坐標(biāo)相比，GPT-4V在帶有疊加視覺指示的提示下能夠更可靠地工作。

GPT-4V理解圖像上的視覺指針

受GPT-4V在理解和處理視覺指向上能力的啟發(fā)，提出一種新的與GPT-4V交互的方式，即視覺參照提示。這種方式利用了在輸入圖像的像素空間進(jìn)行直接編輯的技巧，從而為人機(jī)交互增添新的可能性。例如，GPT-4V能夠自然地將箭頭指向的對(duì)象與給定的對(duì)象索引關(guān)聯(lián)起來；能夠理解圖像上書寫的問題并指向相應(yīng)的邊緣或角度；可以指向圖中的任意區(qū)域。

視覺參照提示提供一種全新的交互方式，有望促進(jìn)各種不同應(yīng)用案例的實(shí)現(xiàn)。GPT-4V能夠生成自己的指示輸出，從而進(jìn)一步促進(jìn)人機(jī)交互中的閉環(huán)交互過程。例如，通過讓GPT-4V在文本格式中預(yù)測(cè)區(qū)域坐標(biāo)來生成視覺指示輸出。在提示中包含例子引導(dǎo)指令有助于GPT-4V理解坐標(biāo)的定義，進(jìn)而生成更好的指示輸出。這種迭代指示生成、理解和執(zhí)行的能力將有助于GPT-4V在各種復(fù)雜的視覺推理任務(wù)中取得更好的表現(xiàn)。

視覺參考提示直接編輯輸入圖像作為輸入提示，如繪圖視覺指針和場(chǎng)景文本。作為文本提示的補(bǔ)充，視覺引用提示提供了一個(gè)更微妙和自然的交互。例如，(1)將有指向的對(duì)象與索引相關(guān)聯(lián)，(2)指向?qū)D像進(jìn)行質(zhì)疑，(3)在文件和表格中突出線條，(4)繪制圖案在圖像上，以及許多其他新穎的用例。

八、情商測(cè)驗(yàn)

GPT-4V在人類互動(dòng)中展現(xiàn)出同理心和情商，理解和分享人類的情感。根據(jù)人類情商測(cè)試的定義，檢驗(yàn)了其在以下方面的能力：

1、識(shí)別和解讀面部表情中的情感

2、理解視覺內(nèi)容如何引發(fā)情感

3、在期望的情感和情緒態(tài)度下生成適當(dāng)?shù)奈谋据敵?/p>

GPT-4V了解不同的視覺內(nèi)容如何激發(fā)人類的情感

接下來探討GPT-4V在理解視覺內(nèi)容如何引發(fā)情感方面的能力。這種能力至關(guān)重要，因?yàn)橐茴A(yù)測(cè)不同的視覺內(nèi)容如何喚起人類的情感并做出相應(yīng)的反應(yīng)（如憤怒、驚嘆和恐懼）。這種能力在家用機(jī)器人等使用場(chǎng)景中具有極其重要的意義。

GPT-4V根據(jù)社會(huì)標(biāo)準(zhǔn)和規(guī)范來判斷圖像美學(xué)

除理解視覺情感，GPT-4V還能與人類主觀判斷保持一致，如審美觀點(diǎn)。如圖所示，GPT-4V可以根據(jù)社會(huì)標(biāo)準(zhǔn)判斷圖像的美學(xué)。

GPT-4V能根據(jù)感知到的情緒，有效生成與所需情緒相匹配的適當(dāng)文本輸出。例如GPT-4V能根據(jù)提示描述右邊的恐怖圖像，使其更加可怕或令人安心。這展示了其在實(shí)現(xiàn)情緒感知人機(jī)交流方面的潛力。

多模態(tài)對(duì)算力影響的探討

一、CLIP 打開圖文對(duì)齊大門，或成為實(shí)現(xiàn)多模態(tài)的核心基礎(chǔ)

目前視覺+語言的多模態(tài)大模型相對(duì)主流的方法為：借助預(yù)訓(xùn)練好的大語言模型和圖像編碼器，用一個(gè)圖文特征對(duì)齊模塊來連接，從而讓語言模型理解圖像特征并進(jìn)行更深層的問答推理。

根據(jù) OpenAI 及微軟目前官方發(fā)布的 GPT-4V 相關(guān)新聞與論文，并不能詳細(xì)了解其實(shí)現(xiàn)多模態(tài)，尤其是視覺模型的具體方法，或許可以從 OpenAI 發(fā)布的 CLIP 以及其迭代后的 BLIP、BLIP2 等模型上，初步了解多模態(tài)大模型的實(shí)現(xiàn)方式。

1、CLIP 模型實(shí)現(xiàn)了圖像與文本的特征對(duì)齊，基礎(chǔ)架構(gòu)已于 2021 年發(fā)布

過去的計(jì)算機(jī)視覺系統(tǒng)主要被訓(xùn)練為圖像分類模型，這限制了它們?cè)谔幚砦粗悇e時(shí)的泛化能力。為了獲取大量廣泛的弱監(jiān)督訓(xùn)練數(shù)據(jù)，直接從原始文本中學(xué)習(xí)視覺表示，成為一種更有前途的方法。

OpenAI在2021年提出的CLIP模型采用了圖像文本對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練方法，這種預(yù)訓(xùn)練模型可以在大規(guī)模數(shù)據(jù)上學(xué)習(xí)將圖像視覺特征與相匹配的文本進(jìn)行關(guān)聯(lián)。即使不進(jìn)行微調(diào)，也可以直接用于下游視覺任務(wù)，達(dá)到不錯(cuò)的效果。CLIP克服了以往需要大量標(biāo)注數(shù)據(jù)的限制。

代表性視覺大模型發(fā)布時(shí)間

2、CLIP 的輸入是配對(duì)好的圖片-文本對(duì)，輸出為對(duì)應(yīng)特征，然后在特征上進(jìn)行對(duì)比學(xué)習(xí)，即可以實(shí)現(xiàn) zero-shot 的圖像分類

CLIP模型接受一系列圖像和對(duì)應(yīng)的描述文本組成的訓(xùn)練樣本對(duì)作為輸入。圖像通過圖像編碼器提取視覺特征，而文本則通過文本編碼器提取語義特征。模型會(huì)計(jì)算每一張圖像的視覺特征與相匹配的文本特征之間的相似度，作為正樣本；同時(shí)也會(huì)計(jì)算每一張圖像的視覺特征與不匹配的文本特征之間的相似度，作為負(fù)樣本。CLIP的訓(xùn)練目標(biāo)是最大程度地提高所有正樣本對(duì)的相似度，并最小程度地降低所有負(fù)樣本對(duì)的相似度。這意味著，匹配的圖像和文本對(duì)之間的特征盡可能相似，而不匹配的圖像和文本對(duì)之間的特征盡可能不同。通過這種預(yù)訓(xùn)練方式，CLIP模型可以廣泛應(yīng)用于下游的圖像理解任務(wù)中，無需進(jìn)行額外的微調(diào)。

CLIP 訓(xùn)練方法

在零樣本圖像分類中使用CLIP模型，首先根據(jù)每個(gè)類別設(shè)計(jì)描述文本，如“一張{label}的圖片”。通過輸入這些描述文本來提取文本特征。假設(shè)有n個(gè)類別，那么就會(huì)得到n個(gè)文本特征向量。然后，輸入需要預(yù)測(cè)的圖像，提取其圖像特征，并計(jì)算這個(gè)圖像特征與n個(gè)類別文本特征的相似度。相似度最高的類別對(duì)應(yīng)的文本標(biāo)簽就是模型對(duì)該圖像的預(yù)測(cè)。進(jìn)一步將相似度轉(zhuǎn)化為logits，經(jīng)過softmax處理后，得到每個(gè)類別的預(yù)測(cè)概率。預(yù)訓(xùn)練的CLIP模型可以直接用于上述零樣本分類，無需進(jìn)行額外的訓(xùn)練或微調(diào)。

3、CLIP 最大的創(chuàng)新在于使用超大規(guī)模的數(shù)據(jù)集進(jìn)行直接訓(xùn)練，簡(jiǎn)單而有效

CLIP模型的創(chuàng)新之處在于，它沒有提出新的網(wǎng)絡(luò)架構(gòu)，而是采用高效的圖像文本匹配模型，并在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練。在發(fā)布CLIP之前，主要的視覺數(shù)據(jù)集，如COCO和VisualGenome，都是人工標(biāo)注的，質(zhì)量很好，但數(shù)據(jù)量只有數(shù)百萬級(jí)別。相比之下，YFCC100M有1億個(gè)數(shù)據(jù)，但質(zhì)量參差不齊，經(jīng)過過濾后只剩下1500萬個(gè)，與ImageNet的數(shù)據(jù)規(guī)模相當(dāng)。由于數(shù)據(jù)量不足，OpenAI構(gòu)建了包含40億個(gè)數(shù)據(jù)點(diǎn)的WIT數(shù)據(jù)集，通過5000萬個(gè)查詢生成，每個(gè)查詢對(duì)應(yīng)約20萬張圖像文本對(duì)的數(shù)據(jù)量，這個(gè)數(shù)據(jù)量與訓(xùn)練GPT-2相當(dāng)。WIT大數(shù)據(jù)量的存在使得CLIP模型的訓(xùn)練更加充分。

4、2021 年，最優(yōu)的模型大約需要 256 張英偉達(dá)V100、訓(xùn)練 12 天，效果即可顯著優(yōu)于傳統(tǒng)視覺系統(tǒng)

OpenAI訓(xùn)練了一系列CLIP模型，基于多種ResNet和Vision Transformer架構(gòu)。最大的ResNet模型使用592個(gè)NVIDIAV100 GPU進(jìn)行18天的訓(xùn)練，而最大的ViT模型則使用256個(gè)V100 GPU進(jìn)行12天的訓(xùn)練。結(jié)果顯示，ViT模型優(yōu)于ResNet模型，更大的ViT模型優(yōu)于較小的ViT模型。最終的最優(yōu)模型是ViT-L/14@336px。相比早期的工作，CLIP在零樣本分類上的表現(xiàn)有了顯著的提升，顯示出其在零樣本學(xué)習(xí)能力上達(dá)到了新的高度。

CLIP 與以往視覺分類模型效果比較

CLIP通過預(yù)訓(xùn)練圖像文本匹配，將視覺和語義特征映射到統(tǒng)一的嵌入空間，從而架起文本和圖像理解之間的橋梁。這一技術(shù)的出現(xiàn)，使得在多模態(tài)上下文中進(jìn)行推理成為可能?；贑LIP等模型，大規(guī)模語言模型如ChatGPT獲得了視覺理解的能力。CLIP系列模型為視覺語言統(tǒng)一預(yù)訓(xùn)練奠定了基礎(chǔ)，是實(shí)現(xiàn)多模態(tài)ChatGPT的關(guān)鍵所在。

二、多模態(tài)應(yīng)用空間廣闊，算力需求或呈量級(jí)式提升

多模態(tài)模型的訓(xùn)練對(duì)算力需求有數(shù)量級(jí)的提升，可能需要數(shù)萬張GPU卡。有報(bào)道稱，與GPT-3.5相當(dāng)?shù)拇笠?guī)模語言模型Inflection在訓(xùn)練時(shí)使用了約3500張英偉達(dá)H100 GPU。對(duì)于初創(chuàng)公司來說，訓(xùn)練大型語言模型通常需要數(shù)千張H100 GPU，而微調(diào)過程則需要數(shù)十到數(shù)百張。還有報(bào)道顯示，GPT-4可能在1萬到2.5萬張英偉達(dá)A100 GPU上進(jìn)行訓(xùn)練，而GPT-5需要的H100 GPU數(shù)量可能是2.5萬到5萬張，相比GPT-3.5的規(guī)模提升了約10倍。

在推理階段，從數(shù)據(jù)量來看，圖像、視頻和語音相對(duì)于文本交互提升了數(shù)個(gè)數(shù)量級(jí)，導(dǎo)致算力需求急劇擴(kuò)張。

1、在文本方面，從搜索到郵件主流軟件已逐步開放

Outlook和Gmail等主流電子郵件服務(wù)商已經(jīng)支持ChatGPT功能。Outlook允許根據(jù)不同需求自動(dòng)生成電子郵件回復(fù)，而Gmail用戶可以通過ChatGPT AI生成完整的電子郵件。此外，Chrome瀏覽器也提供免費(fèi)支持。據(jù)統(tǒng)計(jì)，全球每天發(fā)送超過3300億封電子郵件，其中近一半是垃圾郵件。在郵件客戶端中，Gmail和Outlook的市場(chǎng)占有率分別是27.2%和7.8%。估算非垃圾郵件量，Outlook日均郵件數(shù)量約為137億封。根據(jù)郵件平均長(zhǎng)度統(tǒng)計(jì)，考慮文本存儲(chǔ)格式的影響，估算Outlook日均郵件數(shù)據(jù)量約為25.52TB。假設(shè)ChatGPT在Outlook郵件場(chǎng)景中的使用率為1%，每日可能需要處理生成的數(shù)據(jù)量約261GB，比當(dāng)前問答場(chǎng)景提升近8倍。

Outlook 利用 GPT 生成郵件

2、語音：Te ams 已于 OpenAI 結(jié)合，大幅提升線上會(huì)議效率

微軟的Teams平臺(tái)已經(jīng)與OpenAI實(shí)現(xiàn)了結(jié)合，支持自動(dòng)生成會(huì)議紀(jì)要、章節(jié)劃分、時(shí)間標(biāo)記等多種功能。用戶每月支付10美元后，可以使用GPT-3.5模型，獲得自動(dòng)生成會(huì)議紀(jì)要、實(shí)時(shí)翻譯、章節(jié)劃分、時(shí)間軸標(biāo)記等服務(wù)。Teams平臺(tái)擁有多種主要功能，其中包括自動(dòng)生成紀(jì)要、40種語言的實(shí)時(shí)翻譯、AI章節(jié)劃分、個(gè)性化時(shí)間標(biāo)記、保護(hù)隱私的水印和加密等。這些功能可以幫助用戶提高工作效率，節(jié)省時(shí)間成本，豐富會(huì)議體驗(yàn)，而自動(dòng)生成的紀(jì)要和章節(jié)劃分尤其有益。Teams實(shí)現(xiàn)與GPT-3.5的融合，代表了移動(dòng)互聯(lián)時(shí)代生產(chǎn)力工具的新方向，為用戶提供更智能化的服務(wù)。

通過實(shí)時(shí)翻譯與字幕，減少會(huì)議期間的語言障礙

隨著語音輸入在大模型中的應(yīng)用在Teams平臺(tái)中得到日益廣泛的應(yīng)用，其新增數(shù)據(jù)量的需求也將得到相應(yīng)的提升。數(shù)字音頻的存儲(chǔ)原理表明，采樣頻率、量化位數(shù)以及聲道數(shù)都會(huì)影響其存儲(chǔ)量。在電話質(zhì)量的音頻中，采用8kHz的采樣率、8bit的量化、雙聲道的存儲(chǔ)方式，其存儲(chǔ)量約為每秒2字節(jié)。假設(shè)在Teams的語音交互場(chǎng)景下，ChatGPT每天需要處理1小時(shí)的音頻數(shù)據(jù)，那么每天新增的數(shù)據(jù)量需求約為7200字節(jié)，即7.03KB。

考慮到Teams目前日活躍用戶已過億，我們可以估算，如果所有用戶都使用1小時(shí)的音頻交互，那么每天新增的數(shù)據(jù)量需求約為7.03KB * 1億 = 703GB。相比當(dāng)前的文本交互，語音數(shù)據(jù)量需求提升了約200倍。因此，語音交互場(chǎng)景的引入將給AI系統(tǒng)帶來數(shù)據(jù)量級(jí)的顯著提升。

音頻數(shù)字化后的數(shù)據(jù)量計(jì)算方式為：以字節(jié)為單位，模擬波形聲音被數(shù)字化后音頻文件的存儲(chǔ)量（假定未經(jīng)壓縮）為：存儲(chǔ)量=采樣頻率（Hz）x量化位數(shù)（bit）/8x聲道數(shù)x時(shí)間。這種計(jì)算方式可以幫助我們更好地理解和預(yù)測(cè)音頻數(shù)據(jù)存儲(chǔ)的需求。

根據(jù)微軟公開數(shù)據(jù)，Teams平臺(tái)的日活躍用戶數(shù)量從2020年的1.15億增長(zhǎng)到了2022年的2.7億。假設(shè)Teams的會(huì)議總時(shí)長(zhǎng)與用戶數(shù)成比例增長(zhǎng)，那么2022年Teams的會(huì)議總時(shí)長(zhǎng)估計(jì)約為60億分鐘。根據(jù)音頻存儲(chǔ)原理，以電話質(zhì)量參數(shù)估算，60億分鐘音頻對(duì)應(yīng)的存儲(chǔ)量約為671GB。假設(shè)約50%的用戶使用ChatGPT生成會(huì)議紀(jì)要，那么Teams新增語音數(shù)據(jù)需求約為336GB。需要注意的是，這只是基于電話音質(zhì)的參數(shù)估算，而實(shí)際上音頻采樣率和碼率的差異可能會(huì)導(dǎo)致實(shí)際數(shù)據(jù)量更大。另外，使用ChatGPT生成紀(jì)要的用戶比例也可能會(huì)有所調(diào)整，從而影響最終的需求。

3、圖片：Filmora 接入 OpenAI 服務(wù)，實(shí)現(xiàn)“文生圖”及“圖生圖”

Filmora視頻制作軟件已集成OpenAI功能，可通過一鍵智能生成圖片素材。萬興科技為Filmora提供了對(duì)OpenAI AI繪圖能力的支持，用戶只需簡(jiǎn)單描繪出形狀，即可在幾秒鐘內(nèi)獲得AI生成的完整圖像。在最新的情人節(jié)版本中，F(xiàn)ilmora實(shí)現(xiàn)了從“文生圖”到“圖生圖”的轉(zhuǎn)換，用戶只需輸入簡(jiǎn)單文本即可獲得高質(zhì)量的AI生成圖片。這代表了創(chuàng)作工具與AI結(jié)合的新方向。通過與OpenAI的結(jié)合，F(xiàn)ilmora可以幫助普通用戶輕松獲得高質(zhì)量圖像，從而輔助視頻創(chuàng)作。未來，F(xiàn)ilmora預(yù)計(jì)將加入更多AI生成內(nèi)容的功能，為用戶提供更智能高效的創(chuàng)作體驗(yàn)。

Wondershare Filmora 一鍵“創(chuàng)作”圖片

根據(jù)Filmora的圖片參數(shù)估算，其OpenAI生成圖片每天的輸出數(shù)據(jù)量約為586GB。Filmora的默認(rèn)分辨率為1920*1080，每張圖片約為6MB。假設(shè)每月活躍用戶數(shù)為300萬，每天調(diào)用OpenAI 10萬次，則每天的數(shù)據(jù)量約為586GB。萬興科技旗下的億圖腦圖也已集成了AI生成內(nèi)容功能，用戶只需輸入文本即可自動(dòng)生成各種腦圖。這種技術(shù)的應(yīng)用場(chǎng)景非常廣泛，包括營(yíng)銷、出版、藝術(shù)、醫(yī)療等領(lǐng)域。未來，預(yù)計(jì)AI生成圖像的應(yīng)用空間將會(huì)進(jìn)一步擴(kuò)大。

4、視頻：AIGC 輔助生成動(dòng)畫，星辰大海拉開序幕

AIGC技術(shù)在商業(yè)動(dòng)畫片《犬與少年》中的應(yīng)用前景廣闊。該作品由Netflix、小冰公司日本分部（rinna）、WIT STUDIO共同創(chuàng)作。小冰公司是一家獨(dú)立的技術(shù)研發(fā)實(shí)體，前身為微軟人工智能小冰團(tuán)隊(duì)，2020年分拆為獨(dú)立公司。2022年11月7日，小冰公司完成總額10億元的新融資，用于加速AI Being小冰框架技術(shù)研發(fā)，并宣布升級(jí)其人工智能數(shù)字員工（AI Being Employee）產(chǎn)品線，包括大模型對(duì)話引擎、3D神經(jīng)網(wǎng)絡(luò)渲染、超級(jí)自然語音及AIGC人工智能內(nèi)容生成。小冰公司的業(yè)務(wù)覆蓋全球多個(gè)國(guó)家和地區(qū)，擁有眾多用戶和觀眾。

《犬與少年》AI 參與制作

Runway Gen2已開放，視頻生成費(fèi)用為0.2美元。Runway宣布開放Gen-1和Gen-2模型，免費(fèi)提供給公眾試用，發(fā)布視頻長(zhǎng)度4秒，每秒消耗5積分。若積分用盡，用戶可以選擇付費(fèi)使用，0.01美元/積分，即生成一個(gè)視頻需要0.2美元。Gen-2只需文字、圖像或文字加圖像的描述即可快速生成相關(guān)視頻，是市場(chǎng)上首個(gè)公開可用的文本到視頻模型。視頻單秒輸出數(shù)據(jù)量達(dá)1MB，預(yù)示著未來星辰大海的序幕正在拉開。隨著AIGC技術(shù)在影視劇集、宣傳視頻等領(lǐng)域逐步滲透，視頻創(chuàng)作效率有望顯著提升。

SDR 視頻上 Youtube 的推薦比特率

綜上所述，得出以下結(jié)論：目前ChatGPT和AIGC的應(yīng)用場(chǎng)景遠(yuǎn)未被完全挖掘，語音、圖片、視頻等多種形式的輸入輸出將為內(nèi)容創(chuàng)作領(lǐng)域帶來革命性變化。更廣泛的數(shù)據(jù)形態(tài)、更多的應(yīng)用場(chǎng)景和更深入的用戶體驗(yàn)將增加對(duì)人工智能算力的需求，這可能導(dǎo)致算力的高速擴(kuò)張時(shí)代到來。

OpenAI 大模型各類場(chǎng)景數(shù)據(jù)量測(cè)算

三、英偉達(dá)最強(qiáng)AI芯片GH200究竟強(qiáng)在哪里？

GH200和H100屬于同一代產(chǎn)品，其AI計(jì)算芯片架構(gòu)相同，計(jì)算能力相當(dāng)。但是，GH200的內(nèi)存容量比H100大了3.5倍，這對(duì)于需要處理更復(fù)雜模型或更大數(shù)據(jù)量的AI任務(wù)來說更加有利。因此，GH200相較于H100的優(yōu)勢(shì)在于其更大容量的內(nèi)存，而不是計(jì)算能力。

GH200包含一個(gè)Grace CPU芯片和一個(gè)Hopper GPU芯片，兩者通過高速NVLink-C2C互連，帶寬高達(dá)900GB/s，實(shí)現(xiàn)了緊密的CPU和GPU數(shù)據(jù)交換。這使得GH200的GPU能夠直接訪問CPU內(nèi)存。相比之下，在H100系統(tǒng)中，CPU和GPU通常僅通過PCIe連接，即使是最新一代的帶寬也只有128GB/s，不及GH200的NVLink-C2C的七分之一。因此，通過芯片級(jí)別的優(yōu)化設(shè)計(jì)，GH200實(shí)現(xiàn)了更高效的CPU-GPU內(nèi)存共享，這對(duì)于需要頻繁進(jìn)行CPU-GPU數(shù)據(jù)交換的AI計(jì)算更加友好。

每個(gè)GH200集成512GB CPU內(nèi)存和96GB GPU HBM3內(nèi)存。Hopper GPU通過NVLink-C2C訪問Grace CPU全部?jī)?nèi)存。相比之下，單顆H100最多80GB HBM3內(nèi)存,且無法高效連接CPU?；贕H200的DGX GH200集群，256個(gè)GPU連接后共享144TB內(nèi)存(計(jì)算方式:(480GB+96GB)* 256)。DGX GH200適用于存在GPU內(nèi)存瓶頸的AI和HPC應(yīng)用。GH200通過超大內(nèi)存和CPU-GPU互聯(lián),可以加速這些應(yīng)用。

藍(lán)海大腦大模型訓(xùn)練平臺(tái)

藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的算力支持，包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)洌瑵M足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展，同時(shí)可以擴(kuò)展至萬卡AI集群，滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù)，當(dāng)BMC收到PSU故障或錯(cuò)誤警告（如斷電、電涌，過熱），自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM（超低頻模式，以實(shí)現(xiàn)最低功耗）。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

一、為什么需要大模型？

1、模型效果更優(yōu)

大模型在各場(chǎng)景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強(qiáng)

大模型能夠進(jìn)行內(nèi)容生成（AIGC），助力內(nèi)容規(guī)?；a(chǎn)

3、靈活定制場(chǎng)景

通過舉例子的方式，定制大模型海量的應(yīng)用場(chǎng)景

4、標(biāo)注數(shù)據(jù)更少

通過學(xué)習(xí)少量行業(yè)數(shù)據(jù)，大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求

二、平臺(tái)特點(diǎn)

1、異構(gòu)計(jì)算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案，用于調(diào)度和管理多種異構(gòu)計(jì)算資源，包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能，能夠輕松部署底層計(jì)算資源，并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力，以加快模型的運(yùn)行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

支持多存儲(chǔ)類型協(xié)議，包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通，提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制，確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲(chǔ)，并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā)，透?jìng)魑锢砭W(wǎng)絡(luò)性能，顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面，采用嚴(yán)格的權(quán)限管理機(jī)制，確保模型倉庫的安全性。在數(shù)據(jù)存儲(chǔ)方面，提供私有化部署和數(shù)據(jù)磁盤加密等措施，保證數(shù)據(jù)的安全可控性。同時(shí)，在模型分發(fā)和運(yùn)行過程中，提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能，全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、處理器CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、顯卡GPU：

NVIDIA L40S GPU 48GB

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW×8

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46316

瀏覽量
236480
語言模型

語言模型

+關(guān)注

關(guān)注
0

文章
490

瀏覽量
10225
英偉達(dá)

英偉達(dá)

+關(guān)注

關(guān)注
22

文章
3680

瀏覽量
90481

評(píng)論

相關(guān)推薦

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

，有助于加速數(shù)據(jù)傳輸和處理，提高整體性能。 **4. **先進(jìn)的技術(shù)整合英偉達(dá)第五代 NVLi

發(fā)表于 05-13 17:16

英偉達(dá)DPU的過“芯”之處

安培GPU的AI功能得以增強(qiáng)。而在英偉達(dá)的路線圖里，未來的Bluefield-4 將會(huì)引入CUDA 和 NVIDIA AI，極大加快網(wǎng)絡(luò)中計(jì)算

發(fā)表于 03-29 14:42

搭載256顆GH200超級(jí)芯片的超級(jí)計(jì)算機(jī)

據(jù)悉，DGX GH200的內(nèi)存儲(chǔ)量是英偉達(dá)目前DGXA100系統(tǒng)的近500倍。英偉達(dá)CEO黃仁勛在COMPUTEX2023的主題演講中表示：

發(fā)表于 05-30 10:23 ?1104次閱讀

英偉達(dá)推出超級(jí)計(jì)算機(jī)DGX GH200

DGX GH200人工智能超級(jí)計(jì)算機(jī)則集成了英偉達(dá)最先進(jìn)加速計(jì)算和網(wǎng)絡(luò)技術(shù)。

發(fā)表于 05-30 16:20 ?2562次閱讀

英偉達(dá)新發(fā)GH200對(duì)PCB的影響如何？

DGX H100的架構(gòu)為典型的機(jī)架式服務(wù)器，8個(gè)GPU之間通過4個(gè)NVLink Switch在1張UBB板中完成，而GH200的架構(gòu)中因GPU與CPU完成了集成（合成為SuperChip）

發(fā)表于 06-05 15:11 ?877次閱讀

生成式AI新增多重亮點(diǎn)，英偉達(dá)推出超級(jí)芯片GH200 Grace

GH200 Grace芯片搭載全球首款HBM3e處理器，可通過英偉達(dá)的NVLink技術(shù)連接其他GH200芯片，計(jì)劃明年二季度投產(chǎn)。

發(fā)表于 08-09 17:19 ?553次閱讀

gh200和h100性能對(duì)比

gh200和h100性能對(duì)比隨著計(jì)算機(jī)的普及和技術(shù)的不斷提高，CPU發(fā)熱問題越來越重要。因此，散熱器作為一種重要的CPU散熱裝置，起到了非常重要的作用。其中，GH200和H100散熱

發(fā)表于 08-16 17:33 ?899次閱讀

gh200芯片參數(shù)介紹

的用戶體驗(yàn)。 GH200芯片采用了新一代的64位架構(gòu)，具有4個(gè)高性能的核心和4個(gè)低功耗的核心。高性能核心在需要運(yùn)行大型應(yīng)用程序和

發(fā)表于 08-16 17:33 ?876次閱讀

gh200相比gh100的區(qū)別

gh200相比gh100的區(qū)別 GH200和GH100是兩種不同種類的石油鉆探鉆頭。它們?cè)谠S多方面都有所不同，包括形狀、尺寸、重量、確切的鉆頭構(gòu)造和優(yōu)缺點(diǎn)等。形狀和尺寸：

發(fā)表于 08-16 17:33 ?734次閱讀

gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛

gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛? 隨著科技的不斷發(fā)展，計(jì)算機(jī)已經(jīng)成為人類生活不可或缺的一部分。計(jì)算機(jī)的崛起極大地改變了世界和每個(gè)人的生活。過去幾十年中，人們對(duì)

發(fā)表于 08-16 17:34 ?524次閱讀

gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛

gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛隨著科技的不斷發(fā)展，計(jì)算機(jī)已經(jīng)成為人類生活不可或缺的一部分。計(jì)算機(jī)的崛起極大地改變了世界和每個(gè)人的生活。過去幾十年中，人們對(duì)

發(fā)表于 08-17 10:51 ?463次閱讀

英偉達(dá)GH200、特斯拉Dojo超級(jí)算力集群，性能爆棚！算力之爭(zhēng)加??！

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）今年8月，在計(jì)算機(jī)圖形學(xué)頂會(huì)SIGGRAPH 2023現(xiàn)場(chǎng)，英偉達(dá)發(fā)布了新一代GH200 Grace Hopper平臺(tái)，該平臺(tái)專為

發(fā)表于 09-14 09:10 ?3059次閱讀

 178頁，128個(gè)案例，GPT-4V醫(yī)療領(lǐng)域全面測(cè)評(píng)，離臨床應(yīng)用與實(shí)際決策尚有距離

與語音的輸入能力。該研究則旨在通過案例分析評(píng)估 GPT-4V (ision) 在多模態(tài)醫(yī)療診斷領(lǐng)域的性能，一共展現(xiàn)并分析共

發(fā)表于 11-05 20:15 ?515次閱讀

英偉達(dá)H200算力怎么樣

英偉達(dá)H200的算力非常強(qiáng)大。作為新一代AI芯片，H200在

發(fā)表于 03-07 16:15 ?1822次閱讀

英偉達(dá)H200性能怎么樣

英偉達(dá)H200性能卓越，集成了高性能CPU和GPU，通過高速NVLink連接，消除了傳統(tǒng)計(jì)算瓶頸

發(fā)表于 03-07 16:39 ?864次閱讀