0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

高性能計(jì)算與多模態(tài)處理的探索之旅:英偉達(dá)GH200性能優(yōu)化與GPT-4V的算力加速未來

GPU視覺識(shí)別 ? 來源: GPU視覺識(shí)別 ? 作者: GPU視覺識(shí)別 ? 2023-10-19 10:45 ? 次閱讀

★多模態(tài)大模型;GPU算力;LLMS;LLM;LMM;GPT-4V;GH200;圖像識(shí)別;目標(biāo)定位;圖像描述;視覺問答;視覺對(duì)話;英偉達(dá);Nvidia;H100;L40s;A100;H100;A800;H800,AI算力,AI算法

隨著人工智能技術(shù)的不斷發(fā)展,多模態(tài)大模型成為越來越重要的發(fā)展趨勢(shì)。多模態(tài)大模型通過融合視覺等多種感知能力來擴(kuò)展語言模型,實(shí)現(xiàn)更強(qiáng)大的通用人工智能。GPT-4V(GPT-4 近日開放的視覺模態(tài))大型多模型(LMMs)擴(kuò)展大型語言模型(LLMs)以增強(qiáng)多感知技能(如視覺理解等)從而實(shí)現(xiàn)更強(qiáng)大的通用智能。本文著重對(duì)GPT-4V進(jìn)行深入分析,以進(jìn)一步深化對(duì)LMM的理解。在此本文分析核心是GPT-4V可以執(zhí)行的任務(wù),同時(shí)包含用于探測(cè)其能力質(zhì)量和通用性的測(cè)試樣本。

研究結(jié)果表明,GPT-4V在處理交錯(cuò)多模態(tài)輸入方面有著前所未有的能力,并且其通用性使其成為一個(gè)強(qiáng)大的多模態(tài)綜合智能系統(tǒng)。GPT-4V的獨(dú)特能力主要表現(xiàn)在理解輸入圖像上繪制的視覺標(biāo)記,同時(shí)還能產(chǎn)生新的人機(jī)交互方法如視覺指引提示。本文將探討GPT-4V的初步探索、多模態(tài)對(duì)算力影響、英偉達(dá)最強(qiáng)AI芯片GH200究竟強(qiáng)在哪里,以及藍(lán)海大腦大模型訓(xùn)練平臺(tái)等多個(gè)方面的內(nèi)容。

GPT-4V的初步探索

本文采用定性案例設(shè)計(jì)方法,對(duì)GPT-4V進(jìn)行全面探索。著重以案例方式進(jìn)行評(píng)估,而非傳統(tǒng)的定量評(píng)測(cè),旨在激發(fā)后續(xù)研究建立針對(duì)大型多模態(tài)模型的評(píng)估基準(zhǔn)??紤]到不同的交互模式可能會(huì)對(duì)模型表現(xiàn)產(chǎn)生影響,因此主要采用零樣本提示的方式,以減少對(duì)上下文示例的依賴,從而更好地評(píng)估GPT-4V獨(dú)立處理復(fù)雜多模態(tài)輸入的能力。

一、GPT-4V的輸入模式

GPT-4V是一個(gè)文本輸入的單模型語言系統(tǒng),同時(shí)具備接受圖像-文本對(duì)輸入的能力。作為純文本輸入模型,GPT-4V表現(xiàn)出強(qiáng)大的語言處理能力。對(duì)于文本輸入,GPT-4V只需要純文本輸入和輸出即可完成各種語言和編碼任務(wù)。GPT-4V的另一個(gè)應(yīng)用模式是接受單個(gè)圖像-文本對(duì)輸入,可以完成各種視覺及視覺語言任務(wù)(如圖像識(shí)別、目標(biāo)定位、圖像描述、視覺問答、視覺對(duì)話以及生成密集式圖像描述等)。此外,GPT-4V還支持交錯(cuò)的圖像-文本輸入模式,這種靈活的輸入方式使其具有更廣泛的應(yīng)用場(chǎng)景,比如計(jì)算多張收據(jù)圖片的總稅額、從多圖片中提取查詢信息,以及關(guān)聯(lián)交錯(cuò)的圖像文本信息等。處理這種交錯(cuò)輸入也是少樣本學(xué)習(xí)和其他高級(jí)提示技術(shù)的基礎(chǔ),從而進(jìn)一步增強(qiáng)GPT-4V的適用范圍。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

GPT-4V支持使用多圖像和交錯(cuò)圖像-文本輸入

二、GPT-4V的工作方式和提示技術(shù)

image.png

GPT-4V可以理解并遵循文本指令,生成所需的文本輸出或?qū)W會(huì)完成一項(xiàng)新任務(wù)。紅色表示信息較少的答案。

GPT-4V的獨(dú)特優(yōu)勢(shì)在于其強(qiáng)大自然語言指令理解和遵循能力。指令可以用自然語言形式規(guī)定各種視覺語言任務(wù)所需的輸出文本格式。此外,GPT-4V能夠通過理解復(fù)雜指令來完成具有挑戰(zhàn)性的任務(wù),如包含中間步驟的抽象推理問題。GPT-4V具有適應(yīng)未知應(yīng)用和任務(wù)的巨大潛力。

1、視覺指向和視覺引用提示

指點(diǎn)是人與人之間互動(dòng)的基本方面,為提供可比的交互渠道,探索各種形式的“指點(diǎn)”來表示圖片中的空間興趣區(qū)域(如數(shù)字坐標(biāo)框、箭頭、框、圈、手繪等)。鑒于圖像上繪制的靈活性,提出一種新的提示方式即“視覺指代提示”,通過編輯輸入圖像的像素來指定目標(biāo)(如畫視覺指示器或手寫場(chǎng)景文字)。不同于傳統(tǒng)文本提示,視覺指代提示通過圖像像素編輯來完成任務(wù)。例如:可以基于畫出的對(duì)象生成簡(jiǎn)單描述,同時(shí)保持對(duì)整體場(chǎng)景的理解,或者將指定對(duì)象與場(chǎng)景文本索引關(guān)聯(lián)起來,或者回答貼邊或刁鉆角度的問題等。

2、視覺+文本提示

視覺引用提示可以與其他圖像文本提示結(jié)合使用,呈現(xiàn)簡(jiǎn)潔細(xì)致的界面。GPT-4V展現(xiàn)出強(qiáng)大的提示靈活性,特別是在集成不同輸入格式以及無縫混合指導(dǎo)方面。GPT-4V具有強(qiáng)大的泛化性和靈活性,可以像人類一樣理解多模態(tài)指令,并具有適應(yīng)未知任務(wù)的能力。

同時(shí)GPT-4V能處理多模態(tài)指令(包括圖像、子圖像、文本、場(chǎng)景文本和視覺指針),這使其具有更強(qiáng)的擴(kuò)展能力和通用性。此外,GPT-4V可將抽象語言指令與視覺示例關(guān)聯(lián),作為多模態(tài)演示,這比僅文本指令或上下文少樣本學(xué)習(xí)更符合人類學(xué)習(xí)方式。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

約束提示以JSON格式返回。圖像是樣本的示例id。紅色的突出顯示錯(cuò)誤的答案。

在大型語言模型(LLM)中,The_Dawn_of_LMMs:Preliminary_Explorations_with_GPT-4V(ision)報(bào)告中觀察到一種新的上下文少樣本學(xué)習(xí)能力,即LLM可以通過添加格式相同的上下文示例生成預(yù)期輸出,無需參數(shù)更新。類似的能力也在多模態(tài)模型中被觀察到,查詢輸入為格式化的圖像-文本對(duì)。展示GPT-4V的上下文少樣本學(xué)習(xí)能力,強(qiáng)調(diào)在某些情況下,充分的示例數(shù)量至關(guān)重要,特別是在零射或一射指令不足時(shí)。

例如,在速度計(jì)的復(fù)雜場(chǎng)景中,GPT-4V在提供2個(gè)上下文示例后成功預(yù)測(cè)正確讀數(shù)。在另一個(gè)多步推理的線圖案例中,只有在給出額外示例的二射提示下,GPT-4V才能得出正確結(jié)論。這些驗(yàn)證實(shí)例展示了上下文少樣本學(xué)習(xí)對(duì)提升LMM性能的重要作用,成為可行的微調(diào)替代選擇。

image.pngwKgZomUwmECAAb2qAAAAK9URceg373.gif

在讀取速度計(jì)的挑戰(zhàn)性場(chǎng)景下的零射擊性能。GPT-4V即使采用不同的提示方式,也能夠準(zhǔn)確讀取速度表并避免失敗。紅色表示錯(cuò)誤的答案。

三、視覺語言能力

1、不同域的圖像描述

GPT-4V在處理“圖像-文字對(duì)”輸入時(shí)的能力和泛化性。要求其生成自然語言描述并涵蓋以下主題:名人識(shí)別、地標(biāo)識(shí)別、食物識(shí)別、醫(yī)學(xué)圖像理解、Logo識(shí)別、場(chǎng)景理解和逆向示例。

名人識(shí)別方面,GPT-4V能夠準(zhǔn)確識(shí)別不同背景的名人并理解場(chǎng)景與背景信息,例如在2023年G7峰會(huì)上識(shí)別總統(tǒng)演講。

地標(biāo)識(shí)別方面,GPT-4V可以準(zhǔn)確描述地標(biāo)并生成生動(dòng)詳細(xì)的敘述,捕捉地標(biāo)本質(zhì)。

食物識(shí)別方面,GPT-4V能夠準(zhǔn)確識(shí)別各種菜肴并捕捉菜肴的復(fù)雜細(xì)節(jié)。

醫(yī)學(xué)圖像理解方面,GPT-4V可以識(shí)別X光牙齒結(jié)構(gòu)并能根據(jù)CT掃描判斷潛在問題。

Logo識(shí)別方面,GPT-4V可以準(zhǔn)確描述Logo的設(shè)計(jì)和含義。

場(chǎng)景理解方面,GPT-4V可以描述道路場(chǎng)景中的車輛位置、顏色并讀取路標(biāo)限速提示。

逆向示例方面,當(dāng)遇到誤導(dǎo)性問題時(shí),GPT-4V可以正確描述圖像內(nèi)容,不被誤導(dǎo)。

wKgZomUwmECAAb2qAAAAK9URceg373.gifimage.png

名人識(shí)別和描述結(jié)果:GPT-4V可以識(shí)別各種名人描述視覺信息(包括他們的職業(yè)、行動(dòng)、背景和事件)細(xì)節(jié)

2、對(duì)象定位、計(jì)數(shù)和密集字幕

GPT-4V在理解圖像中人與物體的空間關(guān)系方面表現(xiàn)出色,能夠分析圖像中的空間信息并正確理解人與物體的相對(duì)位置。GPT-4V在物體計(jì)數(shù)方面的能力,能成功計(jì)算出圖像中出現(xiàn)的物體數(shù)量,如蘋果、橙子和人。但在物體被遮擋或場(chǎng)景混亂時(shí),計(jì)數(shù)可能會(huì)出錯(cuò)。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

空間關(guān)系理解結(jié)果:GPT-4V能夠識(shí)別圖像中物體之間的空間關(guān)系

3、物體定位

物體定位是計(jì)算機(jī)視覺中的一項(xiàng)難題,而GPT-4V模型在初步實(shí)驗(yàn)中能夠通過簡(jiǎn)單的文本提示生成邊界框坐標(biāo)來定位圖像中的人物,但在復(fù)雜場(chǎng)景中可能會(huì)遇到挑戰(zhàn)。在場(chǎng)景或背景相對(duì)簡(jiǎn)單且較少混亂時(shí),定位結(jié)果具有潛力,但更復(fù)雜的場(chǎng)景(如物體遮擋)中,模型仍需要進(jìn)一步的提示技術(shù)來提升物體定位性能。在目標(biāo)定位結(jié)果方面,GPT-4V能夠近似邊界框坐標(biāo)的指定對(duì)象,但在更復(fù)雜的場(chǎng)景中模型仍有局限性。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

4、密集字幕生成

密集字幕生成需要對(duì)每個(gè)圖像區(qū)域做出詳細(xì)描述,通常需要一個(gè)復(fù)雜的系統(tǒng),包含目標(biāo)檢測(cè)器、名人識(shí)別模型和圖像字幕生成模型。為了考察本模型在密集字幕生成方面的能力,采用文本提示形式,結(jié)果顯示模型成功地定位和識(shí)別圖像中的個(gè)體,并提供了簡(jiǎn)潔的描述。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

密集字幕的結(jié)果:成功為輸入圖像生成詳細(xì)的說明

四、多模態(tài)知識(shí)和常識(shí)

GPT-4V在解釋表情包和理解幽默元素方面表現(xiàn)出色,能從文本和圖像中收集信息并理解幽默效果。在科學(xué)知識(shí)推理任務(wù)中,GPT-4V也能夠正確回答涵蓋廣泛主題的問題。此外,GPT-4V在多模態(tài)常識(shí)推理方面也表現(xiàn)出強(qiáng)大的能力,能夠利用圖像中的邊界框識(shí)別個(gè)體執(zhí)行的動(dòng)作,并推斷出場(chǎng)景中的細(xì)節(jié)。在更具體的輸入提示下,還能夠辨別圖像中的微妙線索并提供可能的假設(shè)。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

笑話和模因理解的結(jié)果:GPT-4V展示了令人印象深刻的能力理解表情包中的幽默

五、場(chǎng)景文本、表格、圖表和文檔推理

GPT-4V能準(zhǔn)確地識(shí)別和解讀圖像中的場(chǎng)景文本,包括手寫和打印文本,并能提取關(guān)鍵數(shù)學(xué)信息解決問題。此外,對(duì)圖表、流程圖、x軸、y軸等細(xì)節(jié)均有理解和推理能力,還能將流程圖的詳細(xì)信息轉(zhuǎn)化為Python代碼。GPT-4V也能理解各種類型文檔(如平面圖、海報(bào)和考卷)并提供合理的回答。在更具挑戰(zhàn)性的案例中,GPT-4V展示出令人印象深刻的結(jié)果,但偶爾可能會(huì)遺漏一些實(shí)現(xiàn)細(xì)節(jié)。

wKgZomUwmECAAb2qAAAAK9URceg373.gifimage.png

場(chǎng)景文本識(shí)別結(jié)果:GPT-4V可以識(shí)別許多具有挑戰(zhàn)性的場(chǎng)景文本場(chǎng)景

六、多語言多模式理解

GPT-4V通過自然圖像測(cè)試成功識(shí)別不同語言的輸入文本提示,并生成相應(yīng)正確語言的圖像描述。在涉及多語言場(chǎng)景文字識(shí)別的場(chǎng)景中,GPT-4V能夠正確識(shí)別和理解不同場(chǎng)景中的文字,并將其翻譯成不同語言。此外,在多元文化理解能力測(cè)試中,GPT-4V能夠理解文化細(xì)微差別并生成合理的多語言描述。

wKgZomUwmECAAb2qAAAAK9URceg373.gifimage.png

多語言圖像描述的結(jié)果:GPT-4V能夠根據(jù)圖像生成不同語言的描述

七、與人類的互動(dòng)視覺參考提示

在人機(jī)交互中,指向特定空間位置的能力至關(guān)重要,特別是在多模態(tài)系統(tǒng)中的視覺對(duì)話。GPT-4V能夠很好地理解在圖像上直接繪制的視覺指示。因此提出了一種名為“視覺引用提示”的新型模型交互方法。其核心思想是將視覺指示或場(chǎng)景文本編輯繪制在圖像像素空間中,作為人類參考指令。

最后,科學(xué)家們探索了使GPT-4V生成視覺指針輸出來與人類進(jìn)行交互的方法。這些視覺指針對(duì)于人類和機(jī)器都是直觀的,成為人機(jī)交互的良好渠道。GPT-4V可以識(shí)別不同類型的視覺標(biāo)記作為指針,并生成具有基礎(chǔ)描述的字幕。與傳統(tǒng)的視覺語言模型相比,能夠處理更具挑戰(zhàn)性的問題,即生成專注于特定感興趣區(qū)域的視覺描述。此外,GPT-4V可以理解坐標(biāo),并在沒有額外的框令牌微調(diào)的情況下實(shí)現(xiàn)空間引用。盡管存在一些空間不精確問題,但與文本坐標(biāo)相比,GPT-4V在帶有疊加視覺指示的提示下能夠更可靠地工作。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

GPT-4V理解圖像上的視覺指針

受GPT-4V在理解和處理視覺指向上能力的啟發(fā),提出一種新的與GPT-4V交互的方式,即視覺參照提示。這種方式利用了在輸入圖像的像素空間進(jìn)行直接編輯的技巧,從而為人機(jī)交互增添新的可能性。例如,GPT-4V能夠自然地將箭頭指向的對(duì)象與給定的對(duì)象索引關(guān)聯(lián)起來;能夠理解圖像上書寫的問題并指向相應(yīng)的邊緣或角度;可以指向圖中的任意區(qū)域。

視覺參照提示提供一種全新的交互方式,有望促進(jìn)各種不同應(yīng)用案例的實(shí)現(xiàn)。GPT-4V能夠生成自己的指示輸出,從而進(jìn)一步促進(jìn)人機(jī)交互中的閉環(huán)交互過程。例如,通過讓GPT-4V在文本格式中預(yù)測(cè)區(qū)域坐標(biāo)來生成視覺指示輸出。在提示中包含例子引導(dǎo)指令有助于GPT-4V理解坐標(biāo)的定義,進(jìn)而生成更好的指示輸出。這種迭代指示生成、理解和執(zhí)行的能力將有助于GPT-4V在各種復(fù)雜的視覺推理任務(wù)中取得更好的表現(xiàn)。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

視覺參考提示直接編輯輸入圖像作為輸入提示,如繪圖視覺指針和場(chǎng)景文本。作為文本提示的補(bǔ)充,視覺引用提示提供了一個(gè)更微妙和自然的交互。例如,(1)將有指向的對(duì)象與索引相關(guān)聯(lián),(2)指向?qū)D像進(jìn)行質(zhì)疑,(3)在文件和表格中突出線條,(4)繪制圖案在圖像上,以及許多其他新穎的用例。

八、情商測(cè)驗(yàn)

GPT-4V在人類互動(dòng)中展現(xiàn)出同理心和情商,理解和分享人類的情感。根據(jù)人類情商測(cè)試的定義,檢驗(yàn)了其在以下方面的能力:

1、識(shí)別和解讀面部表情中的情感

2、理解視覺內(nèi)容如何引發(fā)情感

3、在期望的情感和情緒態(tài)度下生成適當(dāng)?shù)奈谋据敵?/p>

wKgZomUwmECAAb2qAAAAK9URceg373.gifimage.png

GPT-4V了解不同的視覺內(nèi)容如何激發(fā)人類的情感

接下來探討GPT-4V在理解視覺內(nèi)容如何引發(fā)情感方面的能力。這種能力至關(guān)重要,因?yàn)橐茴A(yù)測(cè)不同的視覺內(nèi)容如何喚起人類的情感并做出相應(yīng)的反應(yīng)(如憤怒、驚嘆和恐懼)。這種能力在家用機(jī)器人等使用場(chǎng)景中具有極其重要的意義。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

GPT-4V根據(jù)社會(huì)標(biāo)準(zhǔn)和規(guī)范來判斷圖像美學(xué)

除理解視覺情感,GPT-4V還能與人類主觀判斷保持一致,如審美觀點(diǎn)。如圖所示,GPT-4V可以根據(jù)社會(huì)標(biāo)準(zhǔn)判斷圖像的美學(xué)。

wKgZomUwmECAAb2qAAAAK9URceg373.gifimage.png

GPT-4V能根據(jù)感知到的情緒,有效生成與所需情緒相匹配的適當(dāng)文本輸出。例如GPT-4V能根據(jù)提示描述右邊的恐怖圖像,使其更加可怕或令人安心。這展示了其在實(shí)現(xiàn)情緒感知人機(jī)交流方面的潛力。

多模態(tài)對(duì)算力影響的探討

一、CLIP 打開圖文對(duì)齊大門,或成為實(shí)現(xiàn)多模態(tài)的核心基礎(chǔ)

目前視覺+語言的多模態(tài)大模型相對(duì)主流的方法為:借助預(yù)訓(xùn)練好的大語言模型和圖像編碼器,用一個(gè)圖文特征對(duì)齊模塊來連接,從而讓語言模型理解圖像特征并進(jìn)行更深層的問答推理。

根據(jù) OpenAI 及微軟目前官方發(fā)布的 GPT-4V 相關(guān)新聞與論文,并不能詳細(xì)了解其實(shí)現(xiàn)多模態(tài),尤其是視覺模型的具體方法,或許可以從 OpenAI 發(fā)布的 CLIP 以及其迭代后的 BLIP、BLIP2 等模型上,初步了解多模態(tài)大模型的實(shí)現(xiàn)方式。

1、CLIP 模型實(shí)現(xiàn)了圖像與文本的特征對(duì)齊,基礎(chǔ)架構(gòu)已于 2021 年發(fā)布

過去的計(jì)算機(jī)視覺系統(tǒng)主要被訓(xùn)練為圖像分類模型,這限制了它們?cè)谔幚砦粗悇e時(shí)的泛化能力。為了獲取大量廣泛的弱監(jiān)督訓(xùn)練數(shù)據(jù),直接從原始文本中學(xué)習(xí)視覺表示,成為一種更有前途的方法。

OpenAI在2021年提出的CLIP模型采用了圖像文本對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練方法,這種預(yù)訓(xùn)練模型可以在大規(guī)模數(shù)據(jù)上學(xué)習(xí)將圖像視覺特征與相匹配的文本進(jìn)行關(guān)聯(lián)。即使不進(jìn)行微調(diào),也可以直接用于下游視覺任務(wù),達(dá)到不錯(cuò)的效果。CLIP克服了以往需要大量標(biāo)注數(shù)據(jù)的限制。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

代表性視覺大模型發(fā)布時(shí)間

2、CLIP 的輸入是配對(duì)好的圖片-文本對(duì),輸出為對(duì)應(yīng)特征,然后在特征上進(jìn)行對(duì)比學(xué)習(xí),即可以實(shí)現(xiàn) zero-shot 的圖像分類

CLIP模型接受一系列圖像和對(duì)應(yīng)的描述文本組成的訓(xùn)練樣本對(duì)作為輸入。圖像通過圖像編碼器提取視覺特征,而文本則通過文本編碼器提取語義特征。模型會(huì)計(jì)算每一張圖像的視覺特征與相匹配的文本特征之間的相似度,作為正樣本;同時(shí)也會(huì)計(jì)算每一張圖像的視覺特征與不匹配的文本特征之間的相似度,作為負(fù)樣本。CLIP的訓(xùn)練目標(biāo)是最大程度地提高所有正樣本對(duì)的相似度,并最小程度地降低所有負(fù)樣本對(duì)的相似度。這意味著,匹配的圖像和文本對(duì)之間的特征盡可能相似,而不匹配的圖像和文本對(duì)之間的特征盡可能不同。通過這種預(yù)訓(xùn)練方式,CLIP模型可以廣泛應(yīng)用于下游的圖像理解任務(wù)中,無需進(jìn)行額外的微調(diào)。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

CLIP 訓(xùn)練方法

在零樣本圖像分類中使用CLIP模型,首先根據(jù)每個(gè)類別設(shè)計(jì)描述文本,如“一張{label}的圖片”。通過輸入這些描述文本來提取文本特征。假設(shè)有n個(gè)類別,那么就會(huì)得到n個(gè)文本特征向量。然后,輸入需要預(yù)測(cè)的圖像,提取其圖像特征,并計(jì)算這個(gè)圖像特征與n個(gè)類別文本特征的相似度。相似度最高的類別對(duì)應(yīng)的文本標(biāo)簽就是模型對(duì)該圖像的預(yù)測(cè)。進(jìn)一步將相似度轉(zhuǎn)化為logits,經(jīng)過softmax處理后,得到每個(gè)類別的預(yù)測(cè)概率。預(yù)訓(xùn)練的CLIP模型可以直接用于上述零樣本分類,無需進(jìn)行額外的訓(xùn)練或微調(diào)。

3、CLIP 最大的創(chuàng)新在于使用超大規(guī)模的數(shù)據(jù)集進(jìn)行直接訓(xùn)練,簡(jiǎn)單而有效

CLIP模型的創(chuàng)新之處在于,它沒有提出新的網(wǎng)絡(luò)架構(gòu),而是采用高效的圖像文本匹配模型,并在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練。在發(fā)布CLIP之前,主要的視覺數(shù)據(jù)集,如COCO和VisualGenome,都是人工標(biāo)注的,質(zhì)量很好,但數(shù)據(jù)量只有數(shù)百萬級(jí)別。相比之下,YFCC100M有1億個(gè)數(shù)據(jù),但質(zhì)量參差不齊,經(jīng)過過濾后只剩下1500萬個(gè),與ImageNet的數(shù)據(jù)規(guī)模相當(dāng)。由于數(shù)據(jù)量不足,OpenAI構(gòu)建了包含40億個(gè)數(shù)據(jù)點(diǎn)的WIT數(shù)據(jù)集,通過5000萬個(gè)查詢生成,每個(gè)查詢對(duì)應(yīng)約20萬張圖像文本對(duì)的數(shù)據(jù)量,這個(gè)數(shù)據(jù)量與訓(xùn)練GPT-2相當(dāng)。WIT大數(shù)據(jù)量的存在使得CLIP模型的訓(xùn)練更加充分。

4、2021 年,最優(yōu)的模型大約需要 256 張 英偉達(dá)V100、訓(xùn)練 12 天,效果即可顯著優(yōu)于傳統(tǒng)視覺系統(tǒng)

OpenAI訓(xùn)練了一系列CLIP模型,基于多種ResNet和Vision Transformer架構(gòu)。最大的ResNet模型使用592個(gè)NVIDIAV100 GPU進(jìn)行18天的訓(xùn)練,而最大的ViT模型則使用256個(gè)V100 GPU進(jìn)行12天的訓(xùn)練。結(jié)果顯示,ViT模型優(yōu)于ResNet模型,更大的ViT模型優(yōu)于較小的ViT模型。最終的最優(yōu)模型是ViT-L/14@336px。相比早期的工作,CLIP在零樣本分類上的表現(xiàn)有了顯著的提升,顯示出其在零樣本學(xué)習(xí)能力上達(dá)到了新的高度。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

CLIP 與以往視覺分類模型效果比較

CLIP通過預(yù)訓(xùn)練圖像文本匹配,將視覺和語義特征映射到統(tǒng)一的嵌入空間,從而架起文本和圖像理解之間的橋梁。這一技術(shù)的出現(xiàn),使得在多模態(tài)上下文中進(jìn)行推理成為可能?;贑LIP等模型,大規(guī)模語言模型如ChatGPT獲得了視覺理解的能力。CLIP系列模型為視覺語言統(tǒng)一預(yù)訓(xùn)練奠定了基礎(chǔ),是實(shí)現(xiàn)多模態(tài)ChatGPT的關(guān)鍵所在。

二、多模態(tài)應(yīng)用空間廣闊,算力需求或呈量級(jí)式提升

多模態(tài)模型的訓(xùn)練對(duì)算力需求有數(shù)量級(jí)的提升,可能需要數(shù)萬張GPU卡。有報(bào)道稱,與GPT-3.5相當(dāng)?shù)拇笠?guī)模語言模型Inflection在訓(xùn)練時(shí)使用了約3500張英偉達(dá)H100 GPU。對(duì)于初創(chuàng)公司來說,訓(xùn)練大型語言模型通常需要數(shù)千張H100 GPU,而微調(diào)過程則需要數(shù)十到數(shù)百張。還有報(bào)道顯示,GPT-4可能在1萬到2.5萬張英偉達(dá)A100 GPU上進(jìn)行訓(xùn)練,而GPT-5需要的H100 GPU數(shù)量可能是2.5萬到5萬張,相比GPT-3.5的規(guī)模提升了約10倍。

在推理階段,從數(shù)據(jù)量來看,圖像、視頻和語音相對(duì)于文本交互提升了數(shù)個(gè)數(shù)量級(jí),導(dǎo)致算力需求急劇擴(kuò)張。

1、在文本方面,從搜索到郵件主流軟件已逐步開放

Outlook和Gmail等主流電子郵件服務(wù)商已經(jīng)支持ChatGPT功能。Outlook允許根據(jù)不同需求自動(dòng)生成電子郵件回復(fù),而Gmail用戶可以通過ChatGPT AI生成完整的電子郵件。此外,Chrome瀏覽器也提供免費(fèi)支持。據(jù)統(tǒng)計(jì),全球每天發(fā)送超過3300億封電子郵件,其中近一半是垃圾郵件。在郵件客戶端中,Gmail和Outlook的市場(chǎng)占有率分別是27.2%和7.8%。估算非垃圾郵件量,Outlook日均郵件數(shù)量約為137億封。根據(jù)郵件平均長(zhǎng)度統(tǒng)計(jì),考慮文本存儲(chǔ)格式的影響,估算Outlook日均郵件數(shù)據(jù)量約為25.52TB。假設(shè)ChatGPT在Outlook郵件場(chǎng)景中的使用率為1%,每日可能需要處理生成的數(shù)據(jù)量約261GB,比當(dāng)前問答場(chǎng)景提升近8倍。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

Outlook 利用 GPT 生成郵件

2、語音:Teams 已于 OpenAI 結(jié)合,大幅提升線上會(huì)議效率

微軟的Teams平臺(tái)已經(jīng)與OpenAI實(shí)現(xiàn)了結(jié)合,支持自動(dòng)生成會(huì)議紀(jì)要、章節(jié)劃分、時(shí)間標(biāo)記等多種功能。用戶每月支付10美元后,可以使用GPT-3.5模型,獲得自動(dòng)生成會(huì)議紀(jì)要、實(shí)時(shí)翻譯、章節(jié)劃分、時(shí)間軸標(biāo)記等服務(wù)。Teams平臺(tái)擁有多種主要功能,其中包括自動(dòng)生成紀(jì)要、40種語言的實(shí)時(shí)翻譯、AI章節(jié)劃分、個(gè)性化時(shí)間標(biāo)記、保護(hù)隱私的水印和加密等。這些功能可以幫助用戶提高工作效率,節(jié)省時(shí)間成本,豐富會(huì)議體驗(yàn),而自動(dòng)生成的紀(jì)要和章節(jié)劃分尤其有益。Teams實(shí)現(xiàn)與GPT-3.5的融合,代表了移動(dòng)互聯(lián)時(shí)代生產(chǎn)力工具的新方向,為用戶提供更智能化的服務(wù)。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

通過實(shí)時(shí)翻譯與字幕,減少會(huì)議期間的語言障礙

隨著語音輸入在大模型中的應(yīng)用在Teams平臺(tái)中得到日益廣泛的應(yīng)用,其新增數(shù)據(jù)量的需求也將得到相應(yīng)的提升。數(shù)字音頻的存儲(chǔ)原理表明,采樣頻率、量化位數(shù)以及聲道數(shù)都會(huì)影響其存儲(chǔ)量。在電話質(zhì)量的音頻中,采用8kHz的采樣率、8bit的量化、雙聲道的存儲(chǔ)方式,其存儲(chǔ)量約為每秒2字節(jié)。假設(shè)在Teams的語音交互場(chǎng)景下,ChatGPT每天需要處理1小時(shí)的音頻數(shù)據(jù),那么每天新增的數(shù)據(jù)量需求約為7200字節(jié),即7.03KB。

考慮到Teams目前日活躍用戶已過億,我們可以估算,如果所有用戶都使用1小時(shí)的音頻交互,那么每天新增的數(shù)據(jù)量需求約為7.03KB * 1億 = 703GB。相比當(dāng)前的文本交互,語音數(shù)據(jù)量需求提升了約200倍。因此,語音交互場(chǎng)景的引入將給AI系統(tǒng)帶來數(shù)據(jù)量級(jí)的顯著提升。

音頻數(shù)字化后的數(shù)據(jù)量計(jì)算方式為:以字節(jié)為單位,模擬波形聲音被數(shù)字化后音頻文件的存儲(chǔ)量(假定未經(jīng)壓縮)為:存儲(chǔ)量=采樣頻率(Hz)x量化位數(shù)(bit)/8x聲道數(shù)x時(shí)間。這種計(jì)算方式可以幫助我們更好地理解和預(yù)測(cè)音頻數(shù)據(jù)存儲(chǔ)的需求。

根據(jù)微軟公開數(shù)據(jù),Teams平臺(tái)的日活躍用戶數(shù)量從2020年的1.15億增長(zhǎng)到了2022年的2.7億。假設(shè)Teams的會(huì)議總時(shí)長(zhǎng)與用戶數(shù)成比例增長(zhǎng),那么2022年Teams的會(huì)議總時(shí)長(zhǎng)估計(jì)約為60億分鐘。根據(jù)音頻存儲(chǔ)原理,以電話質(zhì)量參數(shù)估算,60億分鐘音頻對(duì)應(yīng)的存儲(chǔ)量約為671GB。假設(shè)約50%的用戶使用ChatGPT生成會(huì)議紀(jì)要,那么Teams新增語音數(shù)據(jù)需求約為336GB。需要注意的是,這只是基于電話音質(zhì)的參數(shù)估算,而實(shí)際上音頻采樣率和碼率的差異可能會(huì)導(dǎo)致實(shí)際數(shù)據(jù)量更大。另外,使用ChatGPT生成紀(jì)要的用戶比例也可能會(huì)有所調(diào)整,從而影響最終的需求。

3、圖片:Filmora 接入 OpenAI 服務(wù),實(shí)現(xiàn)“文生圖”及“圖生圖”

Filmora視頻制作軟件已集成OpenAI功能,可通過一鍵智能生成圖片素材。萬興科技為Filmora提供了對(duì)OpenAI AI繪圖能力的支持,用戶只需簡(jiǎn)單描繪出形狀,即可在幾秒鐘內(nèi)獲得AI生成的完整圖像。在最新的情人節(jié)版本中,F(xiàn)ilmora實(shí)現(xiàn)了從“文生圖”到“圖生圖”的轉(zhuǎn)換,用戶只需輸入簡(jiǎn)單文本即可獲得高質(zhì)量的AI生成圖片。這代表了創(chuàng)作工具與AI結(jié)合的新方向。通過與OpenAI的結(jié)合,F(xiàn)ilmora可以幫助普通用戶輕松獲得高質(zhì)量圖像,從而輔助視頻創(chuàng)作。未來,F(xiàn)ilmora預(yù)計(jì)將加入更多AI生成內(nèi)容的功能,為用戶提供更智能高效的創(chuàng)作體驗(yàn)。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

Wondershare Filmora 一鍵“創(chuàng)作”圖片

根據(jù)Filmora的圖片參數(shù)估算,其OpenAI生成圖片每天的輸出數(shù)據(jù)量約為586GB。Filmora的默認(rèn)分辨率為1920*1080,每張圖片約為6MB。假設(shè)每月活躍用戶數(shù)為300萬,每天調(diào)用OpenAI 10萬次,則每天的數(shù)據(jù)量約為586GB。萬興科技旗下的億圖腦圖也已集成了AI生成內(nèi)容功能,用戶只需輸入文本即可自動(dòng)生成各種腦圖。這種技術(shù)的應(yīng)用場(chǎng)景非常廣泛,包括營(yíng)銷、出版、藝術(shù)、醫(yī)療等領(lǐng)域。未來,預(yù)計(jì)AI生成圖像的應(yīng)用空間將會(huì)進(jìn)一步擴(kuò)大。

4、視頻:AIGC 輔助生成動(dòng)畫,星辰大海拉開序幕

AIGC技術(shù)在商業(yè)動(dòng)畫片《犬與少年》中的應(yīng)用前景廣闊。該作品由Netflix、小冰公司日本分部(rinna)、WIT STUDIO共同創(chuàng)作。小冰公司是一家獨(dú)立的技術(shù)研發(fā)實(shí)體,前身為微軟人工智能小冰團(tuán)隊(duì),2020年分拆為獨(dú)立公司。2022年11月7日,小冰公司完成總額10億元的新融資,用于加速AI Being小冰框架技術(shù)研發(fā),并宣布升級(jí)其人工智能數(shù)字員工(AI Being Employee)產(chǎn)品線,包括大模型對(duì)話引擎、3D神經(jīng)網(wǎng)絡(luò)渲染、超級(jí)自然語音及AIGC人工智能內(nèi)容生成。小冰公司的業(yè)務(wù)覆蓋全球多個(gè)國(guó)家和地區(qū),擁有眾多用戶和觀眾。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

《犬與少年》AI 參與制作

Runway Gen2已開放,視頻生成費(fèi)用為0.2美元。Runway宣布開放Gen-1和Gen-2模型,免費(fèi)提供給公眾試用,發(fā)布視頻長(zhǎng)度4秒,每秒消耗5積分。若積分用盡,用戶可以選擇付費(fèi)使用,0.01美元/積分,即生成一個(gè)視頻需要0.2美元。Gen-2只需文字、圖像或文字加圖像的描述即可快速生成相關(guān)視頻,是市場(chǎng)上首個(gè)公開可用的文本到視頻模型。視頻單秒輸出數(shù)據(jù)量達(dá)1MB,預(yù)示著未來星辰大海的序幕正在拉開。隨著AIGC技術(shù)在影視劇集、宣傳視頻等領(lǐng)域逐步滲透,視頻創(chuàng)作效率有望顯著提升。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

SDR 視頻上 Youtube 的推薦比特率

綜上所述,得出以下結(jié)論:目前ChatGPT和AIGC的應(yīng)用場(chǎng)景遠(yuǎn)未被完全挖掘,語音、圖片、視頻等多種形式的輸入輸出將為內(nèi)容創(chuàng)作領(lǐng)域帶來革命性變化。更廣泛的數(shù)據(jù)形態(tài)、更多的應(yīng)用場(chǎng)景和更深入的用戶體驗(yàn)將增加對(duì)人工智能算力的需求,這可能導(dǎo)致算力的高速擴(kuò)張時(shí)代到來。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

image.png

OpenAI 大模型各類場(chǎng)景數(shù)據(jù)量測(cè)算

三、英偉達(dá)最強(qiáng)AI芯片GH200究竟強(qiáng)在哪里?

GH200和H100屬于同一代產(chǎn)品,其AI計(jì)算芯片架構(gòu)相同,計(jì)算能力相當(dāng)。但是,GH200的內(nèi)存容量比H100大了3.5倍,這對(duì)于需要處理更復(fù)雜模型或更大數(shù)據(jù)量的AI任務(wù)來說更加有利。因此,GH200相較于H100的優(yōu)勢(shì)在于其更大容量的內(nèi)存,而不是計(jì)算能力。

wKgZomUwmECAAb2qAAAAK9URceg373.gif

GH200包含一個(gè)Grace CPU芯片和一個(gè)Hopper GPU芯片,兩者通過高速NVLink-C2C互連,帶寬高達(dá)900GB/s,實(shí)現(xiàn)了緊密的CPU和GPU數(shù)據(jù)交換。這使得GH200的GPU能夠直接訪問CPU內(nèi)存。相比之下,在H100系統(tǒng)中,CPU和GPU通常僅通過PCIe連接,即使是最新一代的帶寬也只有128GB/s,不及GH200的NVLink-C2C的七分之一。因此,通過芯片級(jí)別的優(yōu)化設(shè)計(jì),GH200實(shí)現(xiàn)了更高效的CPU-GPU內(nèi)存共享,這對(duì)于需要頻繁進(jìn)行CPU-GPU數(shù)據(jù)交換的AI計(jì)算更加友好。

wKgZomUwmECAAb2qAAAAK9URceg373.gifimage.png

每個(gè)GH200集成512GB CPU內(nèi)存和96GB GPU HBM3內(nèi)存。Hopper GPU通過NVLink-C2C訪問Grace CPU全部?jī)?nèi)存。相比之下,單顆H100最多80GB HBM3內(nèi)存,且無法高效連接CPU?;贕H200的DGX GH200集群,256個(gè)GPU連接后共享144TB內(nèi)存(計(jì)算方式:(480GB+96GB)* 256)。DGX GH200適用于存在GPU內(nèi)存瓶頸的AI和HPC應(yīng)用。GH200通過超大內(nèi)存和CPU-GPU互聯(lián),可以加速這些應(yīng)用。

藍(lán)海大腦大模型訓(xùn)練平臺(tái)

藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)洌瑵M足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時(shí)可以擴(kuò)展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯(cuò)誤警告(如斷電、電涌,過熱),自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM(超低頻模式,以實(shí)現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場(chǎng)景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強(qiáng)

大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)

3、靈活定制場(chǎng)景

通過舉例子的方式,定制大模型海量的應(yīng)用場(chǎng)景

4、標(biāo)注數(shù)據(jù)更少

通過學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對(duì)特定業(yè)務(wù)場(chǎng)景的需求

二、平臺(tái)特點(diǎn)

1、異構(gòu)計(jì)算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對(duì)象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級(jí)故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透?jìng)魑锢砭W(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉庫的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過程中,提供全面的賬號(hào)認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

1、處理器CPU:

Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W

Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W

Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W

AMD EPYC? 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W

AMD EPYC? 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W

2、顯卡GPU:

NVIDIA L40S GPU 48GB

NVIDIA NVLink-A100-SXM640GB

NVIDIA HGX A800 80GB

NVIDIA Tesla H800 80GB HBM2

NVIDIA A800-80GB-400Wx8-NvlinkSW×8

image.png

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46316

    瀏覽量

    236480
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    490

    瀏覽量

    10225
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3680

    瀏覽量

    90481
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級(jí)芯片

    ,有助于加速數(shù)據(jù)傳輸和處理,提高整體性能。 **4. **先進(jìn)的技術(shù)整合 英偉達(dá)第五代 NVLi
    發(fā)表于 05-13 17:16

    英偉達(dá)DPU的過“芯”之處

    安培GPU的AI功能得以增強(qiáng)。而在英偉達(dá)的路線圖里,未來的Bluefield-4 將會(huì)引入CUDA 和 NVIDIA AI,極大加快網(wǎng)絡(luò)中計(jì)算
    發(fā)表于 03-29 14:42

    搭載256顆GH200超級(jí)芯片的超級(jí)計(jì)算機(jī)

    據(jù)悉,DGX GH200的內(nèi)存儲(chǔ)量是英偉達(dá)目前DGXA100系統(tǒng)的近500倍。英偉達(dá)CEO黃仁勛在COMPUTEX2023的主題演講中表示:
    的頭像 發(fā)表于 05-30 10:23 ?1104次閱讀

    英偉達(dá)推出超級(jí)計(jì)算機(jī)DGX GH200

    DGX GH200人工智能超級(jí)計(jì)算機(jī)則集成了英偉達(dá)最先進(jìn)加速計(jì)算和網(wǎng)絡(luò)技術(shù)。
    的頭像 發(fā)表于 05-30 16:20 ?2562次閱讀

    英偉達(dá)新發(fā)GH200對(duì)PCB的影響如何?

    DGX H100的架構(gòu)為典型的機(jī)架式服務(wù)器,8個(gè)GPU之間通過4個(gè)NVLink Switch在1張UBB板中完成,而GH200的架構(gòu)中因GPU與CPU完成了集成(合成為SuperChip)
    發(fā)表于 06-05 15:11 ?877次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>新發(fā)<b class='flag-5'>GH200</b>對(duì)PCB的影響如何?

    生成式AI新增多重亮點(diǎn),英偉達(dá)推出超級(jí)芯片GH200 Grace

    GH200 Grace芯片搭載全球首款HBM3e處理器,可通過英偉達(dá)的NVLink技術(shù)連接其他GH200芯片,計(jì)劃明年二季度投產(chǎn)。
    發(fā)表于 08-09 17:19 ?553次閱讀
    生成式AI新增多重亮點(diǎn),<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>推出超級(jí)芯片<b class='flag-5'>GH200</b> Grace

    gh200和h100性能對(duì)比

    gh200和h100性能對(duì)比 隨著計(jì)算機(jī)的普及和技術(shù)的不斷提高,CPU發(fā)熱問題越來越重要。因此,散熱器作為一種重要的CPU散熱裝置,起到了非常重要的作用。其中,GH200和H100散熱
    的頭像 發(fā)表于 08-16 17:33 ?899次閱讀

    gh200芯片參數(shù)介紹

    的用戶體驗(yàn)。 GH200芯片采用了新一代的64位架構(gòu),具有4個(gè)高性能的核心和4個(gè)低功耗的核心。高性能核心在需要運(yùn)行大型應(yīng)用程序和
    的頭像 發(fā)表于 08-16 17:33 ?876次閱讀

    gh200相比gh100的區(qū)別

    gh200相比gh100的區(qū)別 GH200GH100是兩種不同種類的石油鉆探鉆頭。它們?cè)谠S多方面都有所不同,包括形狀、尺寸、重量、確切的鉆頭構(gòu)造和優(yōu)缺點(diǎn)等。 形狀和尺寸:
    的頭像 發(fā)表于 08-16 17:33 ?734次閱讀

    gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛

    gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛? 隨著科技的不斷發(fā)展,計(jì)算機(jī)已經(jīng)成為人類生活不可或缺的一部分。計(jì)算機(jī)的崛起極大地改變了世界和每個(gè)人的生活。過去幾十年中,人們對(duì)
    的頭像 發(fā)表于 08-16 17:34 ?524次閱讀

    gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛

    gh200和超級(jí)計(jì)算機(jī)哪個(gè)牛 隨著科技的不斷發(fā)展,計(jì)算機(jī)已經(jīng)成為人類生活不可或缺的一部分。計(jì)算機(jī)的崛起極大地改變了世界和每個(gè)人的生活。過去幾十年中,人們對(duì)
    的頭像 發(fā)表于 08-17 10:51 ?463次閱讀

    英偉達(dá)GH200、特斯拉Dojo超級(jí)集群,性能爆棚!之爭(zhēng)加??!

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)今年8月,在計(jì)算機(jī)圖形學(xué)頂會(huì)SIGGRAPH 2023現(xiàn)場(chǎng),英偉達(dá)發(fā)布了新一代GH200 Grace Hopper平臺(tái),該平臺(tái)專為
    的頭像 發(fā)表于 09-14 09:10 ?3059次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b><b class='flag-5'>GH200</b>、特斯拉Dojo超級(jí)<b class='flag-5'>算</b><b class='flag-5'>力</b>集群,<b class='flag-5'>性能</b>爆棚!<b class='flag-5'>算</b><b class='flag-5'>力</b>之爭(zhēng)加?。? />    </a>
</div>                            <div   id=

    178頁,128個(gè)案例,GPT-4V醫(yī)療領(lǐng)域全面測(cè)評(píng),離臨床應(yīng)用與實(shí)際決策尚有距離

    與語音的輸入能力。該研究則旨在通過案例分析評(píng)估 GPT-4V (ision) 在 模態(tài)醫(yī)療診斷 領(lǐng)域的性能,一共展現(xiàn)并分析共
    的頭像 發(fā)表于 11-05 20:15 ?515次閱讀
    178頁,128個(gè)案例,<b class='flag-5'>GPT-4V</b>醫(yī)療領(lǐng)域全面測(cè)評(píng),離臨床應(yīng)用與實(shí)際決策尚有距離

    英偉達(dá)H200怎么樣

    英偉達(dá)H200非常強(qiáng)大。作為新一代AI芯片,H200
    的頭像 發(fā)表于 03-07 16:15 ?1822次閱讀

    英偉達(dá)H200性能怎么樣

    英偉達(dá)H200性能卓越,集成了高性能CPU和GPU,通過高速NVLink連接,消除了傳統(tǒng)計(jì)算瓶頸
    的頭像 發(fā)表于 03-07 16:39 ?864次閱讀