0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

風(fēng)口浪尖行穩(wěn)致遠(yuǎn) - 英偉達(dá)等企業(yè)如何順應(yīng)高性能計(jì)算大模型浪潮

焦點(diǎn)訊 ? 來源:焦點(diǎn)訊 ? 作者:焦點(diǎn)訊 ? 2023-08-23 17:36 ? 次閱讀

關(guān)鍵詞:PLM;NLP;Transformer;ChatGPT;BERT;RNN;CNN;自注意力機(jī)制;多頭注意力機(jī)制;Decoder Only ;Encoder Only;訊飛星火;百度文心一言;商湯商量;智譜AI-ChatGLM;昆侖萬維天工;阿里通義千問;瀾舟科技Mchat;360智腦;H100;H800;A100;A800;MI200;MI250;LaMA;OpenAI;GQA;RMSNorm;SFT;RTX 4090;A6000;AIGC;CHATGLM;LLVM;LLMs;GLM;AGI;HPC;GPU;CPU;CPU+GPU;英偉達(dá);Nvidia;英特爾;AMD;高性能計(jì)算;高性能服務(wù)器;藍(lán)海大腦;多元異構(gòu)算力;大模型訓(xùn)練;通用人工智能;GPU服務(wù)器;GPU集群;大模型訓(xùn)練GPU集群;大語言模型;深度學(xué)習(xí);機(jī)器學(xué)習(xí);計(jì)算機(jī)視覺;生成式AI;ML;DLC;圖像分割;預(yù)訓(xùn)練語言模型;AI服務(wù)器;GH200;L40S;HBM3e;Grace Hopper;gracehopper

摘要:近年來,預(yù)訓(xùn)練語言模型(PLM)的出現(xiàn)為AI語言技術(shù)發(fā)展提供了新的思路。PLM通過在大規(guī)模語料上預(yù)訓(xùn)練Transformer模型,在各類自然語言處理任務(wù)上展現(xiàn)出強(qiáng)大的語言理解和生成能力。

當(dāng)然,要實(shí)現(xiàn)語言AI的產(chǎn)業(yè)化應(yīng)用,還面臨一定難題。一方面,目前大規(guī)模模型仍需消耗大量算力進(jìn)行訓(xùn)練,這增加了應(yīng)用門檻。另一方面,從算法層面來說,PLM的表示學(xué)習(xí)和特征工程還需進(jìn)一步優(yōu)化,才能真正達(dá)到人類語言水平。業(yè)內(nèi)企業(yè)正在積極應(yīng)對這些挑戰(zhàn)。

以英偉達(dá)為例,其正調(diào)整產(chǎn)品策略,在保持GPU性能領(lǐng)先的同時(shí),也開始布局AI芯片等產(chǎn)業(yè)。國內(nèi)初創(chuàng)公司如浪潮、聯(lián)想、華為、藍(lán)海大腦等,則致力于研發(fā)大模型訓(xùn)練平臺(tái),以降低訓(xùn)練成本??梢钥闯?提升算力支持和算法創(chuàng)新正在成為當(dāng)前語言AI發(fā)展的兩個(gè)重要方向。各方共同努力將有助于突破技術(shù)瓶頸,加速PLM模型在復(fù)雜環(huán)境中的應(yīng)用,推動(dòng)語言AI技術(shù)實(shí)現(xiàn)從實(shí)驗(yàn)室到實(shí)際場景的飛躍。

特征工程算法測評

Transformer算法是自然語言處理領(lǐng)域中的一項(xiàng)重要技術(shù),相較于循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),采用自注意力機(jī)制可以更好地處理模型長距離依賴問題,并通過并行計(jì)算提高效率。其核心思路是首先將輸入映射到高維空間表示,然后通過多層自注意力網(wǎng)絡(luò)學(xué)習(xí)表示之間的關(guān)系,實(shí)現(xiàn)信息的傳遞和變換,最后再解碼回輸出。該結(jié)構(gòu)避免了循環(huán)神經(jīng)網(wǎng)絡(luò)中的順序計(jì)算限制,也沒有卷積神經(jīng)網(wǎng)絡(luò)對序列長度的限制。借助這種強(qiáng)大的表征學(xué)習(xí)能力,Transformer模型在機(jī)器翻譯、文本生成等任務(wù)上取得突破性進(jìn)展。

一、Transformer 工作流程

Transformer算法的工作流程可以概括為:獲取輸入序列——對輸入序列添加位置編碼,以表示其在序列中的位置信息——將編碼后的輸入序列輸入到Transformer模型中——Transformer模型內(nèi)部通過多頭注意力機(jī)制學(xué)習(xí)輸入序列的表示——經(jīng)過多層Transformer塊的處理,得到輸出序列。

Transformer是一個(gè)序列到序列的結(jié)構(gòu),通過自注意力來學(xué)習(xí)輸入序列的特征表示,然后生成對應(yīng)的輸出序列。相較于RNN和CNN,能更好地建模長序列的語義信息。輸入的位置編碼為模型提供序列順序的信息。多頭注意力允許同時(shí)關(guān)注不同位置的內(nèi)容。最終,Transformer可完成諸如翻譯、文本生成等從輸入序列到輸出序列的任務(wù)。

wKgZomTl0v-AR_IZAABieZal4vc168.png

Transformer 框架

Transformer模型主要包含編碼器和解碼器兩個(gè)組件。編碼器負(fù)責(zé)分析輸入序列;解碼器負(fù)責(zé)生成輸出序列。可根據(jù)實(shí)際需要進(jìn)行靈活組合,構(gòu)建適用于不同NLP任務(wù)的Transformer模型。ChatGPT和BERT就是編碼器解碼器用法的代表案例。

wKgaomTl0wCAYah7AACSyzik5hA027.png

Transformer 編碼器、解碼器結(jié)構(gòu)

Transformer模型中的編碼器-解碼器堆疊結(jié)構(gòu)指將多個(gè)編碼器塊和解碼器塊按順序疊加在一起,形成一個(gè)多層的結(jié)構(gòu)。具體來說,就是輸入序列經(jīng)過第一個(gè)編碼器塊處理后,輸出作為第二個(gè)編碼器塊的輸入,以此類推。編碼器最后輸出的表示向量作為第一個(gè)解碼器塊的輸入,然后依次通過每個(gè)解碼器塊。這種堆疊結(jié)構(gòu)增強(qiáng)了模型學(xué)習(xí)輸入輸出序列的特征表示能力。下層編碼器聚焦局部特征,上層編碼器聚焦全局特征。類似的下層解碼器關(guān)注細(xì)節(jié),上層解碼器關(guān)注全局結(jié)構(gòu)。

wKgZomTl0wCAa1ryAAD3_s4wiog248.png

Encoders- Decoders 堆疊

Encoder 編碼器由兩個(gè)主要組件組成:自注意力機(jī)制(Self-Attention)和前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Neural Network)。自注意力機(jī)制是 Encoder 編碼器的核心部分,將在下文中進(jìn)行詳細(xì)介紹。前饋神經(jīng)網(wǎng)絡(luò)由兩個(gè)全連接層和一個(gè)激活函數(shù)組成,能夠?qū)斎胄蛄械谋硎具M(jìn)行映射和變換,以捕捉更豐富的特征和語義信息。

Transformer編碼器(Encoder)由自注意力機(jī)制和前饋全連接網(wǎng)絡(luò)兩個(gè)核心模塊組成。自注意力機(jī)制通過計(jì)算序列中不同位置之間的相關(guān)性,為模型提供輸入序列的全局信息。前饋全連接網(wǎng)絡(luò)提供一個(gè)非線性轉(zhuǎn)換,使模型能夠建模更復(fù)雜的特征表示。編碼器通過這兩個(gè)模塊的結(jié)合,實(shí)現(xiàn)對輸入序列語義信息的深層特征學(xué)習(xí)和表達(dá)。自注意力機(jī)制是編碼器的核心,前饋全連接網(wǎng)絡(luò)進(jìn)行特征映射和增強(qiáng),二者相互配合,構(gòu)成Transformer編碼器的基本框架。

wKgaomTl0wGAMkzHAACJ6b1Mq70345.png

Encoder 內(nèi)部結(jié)構(gòu)

自注意力機(jī)制是Transformer模型的核心組成部分,廣泛用于編碼器和解碼器中。主要作用是建模輸入序列不同位置之間的關(guān)聯(lián)關(guān)系,得到與整體上下文相關(guān)的表示。其工作流程可以概括為:計(jì)算查詢向量Q鍵向量K和值向量V(來自輸入序列的線性變換)——通過點(diǎn)積計(jì)算查詢向量和鍵向量之間的相關(guān)性,得到注意力權(quán)重——根據(jù)權(quán)重對值向量進(jìn)行加權(quán)求和,得到自注意力輸出——通過注意力權(quán)重分配不同及位置不同程度的關(guān)注,獲得整體上下文表示。自注意力通過學(xué)習(xí)輸入序列內(nèi)部的依賴關(guān)系,為模型提供序列的全局信息。

wKgZomTl0wGABI0jAABYyNznD6Q428.png

Query, key, Value 矩陣運(yùn)算

實(shí)際上,在自注意力機(jī)制中,需要通過機(jī)器學(xué)習(xí)來獲取的參數(shù)是 W_Q、W_K 和 W_V 這三個(gè)矩陣。在實(shí)踐中,注意力機(jī)制模塊可以在計(jì)算得到 O 矩陣后,對 O 矩陣進(jìn)行線性變換,因此會(huì)額外增加一個(gè) W_O 矩陣需要進(jìn)行學(xué)習(xí)。

wKgaomTl0wKAQ7a3AAKBn0lCA1U119.png

Transformer 算法流程圖

人工智能大模型體驗(yàn)報(bào)告

大型AI模型的發(fā)展正推動(dòng)產(chǎn)業(yè)智能化升級。過去針對不同場景需要重復(fù)開發(fā)AI模型,效率較低。大型通用模型的出現(xiàn)改變了這一局面,使同一個(gè)模型可服務(wù)多場景,加速產(chǎn)業(yè)向全鏈路智能化方向發(fā)展?!渡墒饺斯ぶ悄芊?wù)管理暫行辦法》為大模型的發(fā)展指明方向,國家將致力于促進(jìn)創(chuàng)新與安全并重。

在各方共同努力下,中國大模型的產(chǎn)業(yè)生態(tài)已初步形成。未來企業(yè)可根據(jù)定位發(fā)揮優(yōu)勢,頭部企業(yè)可繼續(xù)自主研發(fā),解決方案企業(yè)可通過垂直細(xì)分積累特色。頭部企業(yè)還應(yīng)當(dāng)充分開放共享,幫助推廣大型模型,發(fā)揮技術(shù)的社會(huì)價(jià)值。

大模型與行業(yè)的融合也將發(fā)揮關(guān)鍵作用,在諸如金融、工業(yè)、醫(yī)療等領(lǐng)域已展現(xiàn)出巨大應(yīng)用潛力。持續(xù)探索行業(yè)解決方案是大模型企業(yè)的重要方向。新一代AI有望成為企業(yè)的競爭優(yōu)勢。各方攜手合作,推動(dòng)大型模型落地應(yīng)用,將促進(jìn)人工智能產(chǎn)業(yè)進(jìn)步。

一、大模型成為AI大規(guī)模落地拐點(diǎn)

中國大模型發(fā)展勢頭強(qiáng)勁,獲得持續(xù)關(guān)注和資本追捧。天眼查數(shù)據(jù)顯示,2023年上半年直接與“大模型”相關(guān)的融資事件超過20起,熱點(diǎn)地區(qū)以北京、上海、杭州為主,反映出北京在人工智能領(lǐng)域的領(lǐng)先地位。越來越多企業(yè)和學(xué)術(shù)機(jī)構(gòu)開始關(guān)注大模型的應(yīng)用落地和商業(yè)化。主要進(jìn)展集中在:

研究層面:中國在理論、方法、軟硬件等方面形成體系化的大模型研發(fā)能力,學(xué)界和產(chǎn)業(yè)界共同推動(dòng),健全了理論框架。

應(yīng)用層面:大模型開始滲透各行各業(yè),并實(shí)現(xiàn)商業(yè)化應(yīng)用。超過半數(shù)大模型已開源。

可以看出,在資本的推動(dòng)下中國大模型技術(shù)在研究和應(yīng)用方面都獲得長足發(fā)展,產(chǎn)業(yè)化進(jìn)程正在加速推進(jìn)。這為中國在人工智能領(lǐng)域的領(lǐng)先地位奠定了基礎(chǔ)。

wKgZomTl0wKAETImAAE7xbR0FXg269.png

1、大模型進(jìn)程過半,如何讓AI真正走進(jìn)千家萬戶成關(guān)注重點(diǎn)

人工智能發(fā)展的重點(diǎn)正在從追求模型規(guī)模向提升實(shí)用性和可持續(xù)性轉(zhuǎn)變。要實(shí)現(xiàn)AI大規(guī)模應(yīng)用,還需要在多方面進(jìn)行優(yōu)化:

1)降低訓(xùn)練成本。主要通過算法優(yōu)化、分布式訓(xùn)練、模型壓縮等方式來減少計(jì)算資源消耗。

2)提高易用性。采用友好的用戶交互方式,提供簡單的開發(fā)工具,加強(qiáng)用戶教育和運(yùn)營支持,降低使用門檻。

3)增強(qiáng)安全性。提高數(shù)據(jù)質(zhì)量,增強(qiáng)模型魯棒性,建立持續(xù)監(jiān)控機(jī)制及時(shí)發(fā)現(xiàn)和修復(fù)問題。

4)保護(hù)隱私。對用戶數(shù)據(jù)加密和脫敏,實(shí)施訪問控制和認(rèn)證機(jī)制,開展安全審計(jì)防止數(shù)據(jù)泄露。

總之,要促進(jìn)人類從AI獲益,需要讓技術(shù)更實(shí)用、易用、可解釋和可控。只有當(dāng)科技發(fā)展以人為本、造福社會(huì),才能贏得廣泛認(rèn)可。

2、未來已來,大模型概念紅利逐漸消失,回歸到實(shí)際應(yīng)用

為推動(dòng)大模型技術(shù)實(shí)現(xiàn)從實(shí)驗(yàn)室到實(shí)際應(yīng)用的飛躍,需要在以下幾個(gè)方面著力:

1)加強(qiáng)算力基礎(chǔ)設(shè)施建設(shè),實(shí)現(xiàn)集中高效的算力供給

2)融合跨領(lǐng)域知識和多模態(tài)數(shù)據(jù),建立綜合性知識體系,實(shí)現(xiàn)技術(shù)和數(shù)據(jù)的深度融合

3)提升模型的安全性和可解釋性,建立安全可靠的大模型應(yīng)用

4)將大模型應(yīng)用于實(shí)體經(jīng)濟(jì),探索商業(yè)化路徑

5)發(fā)展在線學(xué)習(xí)和增量學(xué)習(xí)技術(shù),提高模型的自主學(xué)習(xí)和適應(yīng)能力

只有系統(tǒng)性推進(jìn)大模型技術(shù)的產(chǎn)業(yè)化進(jìn)程持續(xù)強(qiáng)化基礎(chǔ)研究,才能加速人工智能走向深度融入經(jīng)濟(jì)社會(huì)發(fā)展的日常應(yīng)用,真正造福人類。

二、大模型廠商整體測評

通過對比Benchmark結(jié)果可以得出以下結(jié)論:在基礎(chǔ)能力方面,AI算法模型受人類編程思維影響,利用人類的智慧和知識進(jìn)行開發(fā),因此與人類在某些方面的能力相當(dāng)。在政策的積極引導(dǎo)下,AI在善良性和語言能力上表現(xiàn)出色,逐漸接近人類專家的水平。然而,大模型的安全可解釋性需要持續(xù)投入,以避免不受控制的現(xiàn)象出現(xiàn)。

盡管AI在某些方面能夠達(dá)到或超過人類的水平,但整體上人類在智商方面仍然具有明顯優(yōu)勢。人類通過善用工具和解決問題的能力以及通過互聯(lián)網(wǎng)等渠道獲取各方面的信息并進(jìn)行總結(jié)、積累和歸納,形成個(gè)人知識體系,展現(xiàn)了智商的高水平。

在情商方面,AI與人類之間的差距最為明顯。目前尚未觀察到AI具備情緒感知能力的明顯跡象。相比之下,人類在情緒理解和處理方面通常具有更強(qiáng)的優(yōu)勢和更靈活的能力。人類的情感智慧是人類智能的重要組成部分,涉及到高級認(rèn)知和社交能力,而AI需要進(jìn)一步發(fā)展感知智能。

在工具效率提升方面,AI對人類提供有力的支持,處理速度遠(yuǎn)遠(yuǎn)超過人類。然而,在某些復(fù)雜和具有創(chuàng)新性的任務(wù)中,人類的智慧和想象力仍然無法替代。

1、基礎(chǔ)能力指數(shù)及測評

大型AI模型具備多個(gè)基礎(chǔ)能力,其中最重要的是語言能力。語言是人類智慧的體現(xiàn),也是人工智能系統(tǒng)需要理解和模仿的重要領(lǐng)域。大型AI模型通過學(xué)習(xí)和訓(xùn)練,能夠理解和生成自然語言文本,并在多語言翻譯和多語言對話方面展現(xiàn)出強(qiáng)大的能力。

除了語言能力,大型AI模型還具備AI向善能力。AI向善指的是人工智能系統(tǒng)在運(yùn)行過程中,能夠遵循道德和倫理原則保護(hù)人類的利益和安全。此外,大型AI模型還具備跨模態(tài)和多輪對話的能力。跨模態(tài)能力指的是在不同模態(tài)之間進(jìn)行轉(zhuǎn)換和遷移,例如將圖像轉(zhuǎn)換為文字描述或?qū)⒄Z音轉(zhuǎn)換為文字,這些能力有助于大型AI模型在自動(dòng)駕駛、智能家居等領(lǐng)域的應(yīng)用中更好地理解和處理不同模態(tài)的信息。多輪對話能力則使大型AI模型能夠在多個(gè)對話回合中保持連續(xù)性和邏輯性,從而完成更復(fù)雜的任務(wù)和問題解答。

wKgaomTl0wOAO09zAACV6V07vUI679.png

2、智商指數(shù)及述評

評估大模型的智能水平可以從三個(gè)方面進(jìn)行考察:常識知識、邏輯能力和專業(yè)知識。

1)常識知識

指大模型對于世界、社會(huì)和文化等基本信息的認(rèn)知能力。具備常識知識,大模型能夠更好地理解人類的語言和行為,并在各種情境下做出正確的推理和決策。

2)邏輯能力

邏輯能力是大模型不可或缺的能力之一,使大模型在處理復(fù)雜問題時(shí)能夠提供嚴(yán)謹(jǐn)?shù)乃季S邏輯和強(qiáng)大的分析決策能力,從而推動(dòng)人工智能從認(rèn)知層面向感知層面的發(fā)展。

3)專業(yè)知識

指大模型需要具備特定領(lǐng)域的專業(yè)知識和技能。例如,在醫(yī)療領(lǐng)域,大模型需要了解醫(yī)學(xué)知識和診斷技能;在法律領(lǐng)域,需要了解法律知識和法律推理能力。這些專業(yè)知識有助于大模型在特定領(lǐng)域中進(jìn)行準(zhǔn)確、高效的問題處理。

wKgZomTl0wOATYZFAACTx3_yzic615.png

3、情商指數(shù)及述評

大模型的情商考察涉及評估其在情感和人際交往方面的能力。包括對日常尷尬事項(xiàng)的反應(yīng)、處理一語雙關(guān)問題以及應(yīng)對人際關(guān)系難題等方面的表現(xiàn)。這些情商考察涉及與朋友、家人、同事等各種場景下的交往問題。

具體而言,日常尷尬事項(xiàng)的反饋指的是大模型在處理一些尷尬或棘手問題時(shí),能否給出合適的回答或解決方案。例如,當(dāng)被問及一些私人或敏感問題時(shí),大模型需要具備足夠的情商和應(yīng)變能力,以避免造成不必要的尷尬和誤解。在中國語言中,常常出現(xiàn)一語雙關(guān)的情況,大模型需要通過敏銳的洞察力、判斷力和感知能力等,準(zhǔn)確理解當(dāng)前環(huán)境和詞語的含義,并做出恰當(dāng)?shù)幕貞?yīng)。

另一方面,人際關(guān)系相處難題指的是大模型在與人類進(jìn)行交互時(shí),能否幫助人類處理各種人際關(guān)系問題,例如解決沖突、進(jìn)行情感交流和表達(dá)同理心等。這些問題的處理需要大模型具備高超的人際交往能力和情商,以建立和維護(hù)良好的人際關(guān)系。

在情商方面,商湯商量、百度文心一言、瀾舟科技Mchat和智譜AI-ChatGLM表現(xiàn)優(yōu)秀;360智腦、訊飛星火、阿里通義千問和昆侖萬維天工表現(xiàn)良好。

wKgaomTl0wSAJ_wgAACRDGmcxCc719.png

4、工具提效指數(shù)及述評

工作提效的考察主要涉及工具提效和創(chuàng)新推動(dòng)兩個(gè)方面。

1)工具提效

指的是大模型是否能夠提供有效的工具來提高工作效率。包括代碼自動(dòng)生成、數(shù)據(jù)分析與可視化工具、自然語言處理、文件整理、關(guān)鍵內(nèi)容總結(jié)整合以及機(jī)器翻譯工具等。

2)創(chuàng)新推動(dòng)

指的是大模型是否能夠提供新的思路和方法,推動(dòng)工作方式的改進(jìn)和升級。這些創(chuàng)新可以涉及新的業(yè)務(wù)流程、創(chuàng)新選題、內(nèi)容創(chuàng)新等。

測評中工作提效的考察包括工具提效和創(chuàng)新推動(dòng)兩個(gè)方面,其中工具提效占50%的權(quán)重,創(chuàng)新推動(dòng)占50%的權(quán)重。在工作提效方面,訊飛星火、百度文心一言、商湯商量和智譜AI-ChatGLM表現(xiàn)優(yōu)秀;昆侖萬維天工、阿里通義千問、瀾舟科技Mchat和360智腦表現(xiàn)良好。

wKgZomTl0wSAEScaAACZ0dtvz-0925.png

三、各大廠商優(yōu)秀答案展示


1、科大訊飛-星火

科大訊飛推出名為"訊飛星火認(rèn)知大模型"的新一代認(rèn)知智能大模型,具備七大核心能力,包括文本生成、語言理解、知識問答、邏輯推理、數(shù)學(xué)能力、代碼能力和多模態(tài)能力。該模型擁有跨領(lǐng)域的知識和語言理解能力,能夠通過自然對話方式理解并執(zhí)行各種任務(wù)。通過不斷學(xué)習(xí)海量數(shù)據(jù)和大規(guī)模知識,實(shí)現(xiàn)從問題的提出、規(guī)劃到解決的全流程閉環(huán)。

wKgaomTl0wWARfUKAALX0K8rSk8362.png

2、百度-文言一新

百度開發(fā)的人工智能大語言模型——文心一言,具有跨模態(tài)和跨語言的深度語義理解與生成能力。文心一言擁有五大核心能力,包括文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解以及多模態(tài)生成。

wKgZomTl0wWABnVpAARuljjj4RQ545.png

3、商湯-商量

商湯-商量以"堅(jiān)持原創(chuàng),讓AI引領(lǐng)人類進(jìn)步"為使命,是首家將人臉支付技術(shù)成功應(yīng)用于地鐵售票系統(tǒng)的公司。同時(shí)還為北京大興國際機(jī)場提供58套由商湯科技AI技術(shù)支持的"智能旅客安檢系統(tǒng)",為全球旅客提供高效便捷的服務(wù)。這些舉措展示了商湯科技在推動(dòng)人工智能應(yīng)用和為人類帶來進(jìn)步方面的領(lǐng)導(dǎo)地位。

wKgaomTl0waAMiczAATThvNB6b0388.png

4、智譜AI-ChatGLM

智譜AI是一家由清華大學(xué)計(jì)算機(jī)系技術(shù)成果轉(zhuǎn)化而成立的公司,專注于開發(fā)新一代認(rèn)知智能通用模型。其引入全新的"模型即服務(wù)(MaaS)"市場理念,并建立認(rèn)知大模型平臺(tái)以及數(shù)字人和科技情報(bào)產(chǎn)品,旨在為用戶提供更廣泛的認(rèn)知智能服務(wù),并推動(dòng)科技成果的商業(yè)化應(yīng)用。

wKgZomTl0waAA-OcAATgZc7Jp5I086.png

5、360-360智腦

360公司是中國領(lǐng)先的互聯(lián)網(wǎng)安全軟件與互聯(lián)網(wǎng)服務(wù)公司,主要經(jīng)營360安全衛(wèi)士。自主研發(fā)了名為"360智腦"的千億參數(shù)大語言模型。360的創(chuàng)始人周鴻祎表示,公司將堅(jiān)持"兩翼齊飛"的大模型戰(zhàn)略,一方面致力于自主研發(fā)核心技術(shù),另一方面通過大模型在城市、政府和企業(yè)領(lǐng)域的應(yīng)用,進(jìn)一步推動(dòng)產(chǎn)業(yè)數(shù)字化和智能化發(fā)展。

wKgaomTl0weAa_DeAAVKGBKYRCQ879.png

6、昆侖萬維-天工

昆侖萬維是中國領(lǐng)先的互聯(lián)網(wǎng)平臺(tái)出海企業(yè),深耕海外市場十余載?!疤旃ぁ贝竽P褪怯衫鋈f維主導(dǎo)研發(fā)的雙千億級大語言模型。目前“天工”最高已能支持1萬字以上文本對話,實(shí)現(xiàn)20輪次以上用戶交互,在多類問答場景中都能實(shí)現(xiàn)較高的輸出水平。

wKgZomTl0weAbFoTAAQihdFLpsQ081.png

7、阿里-通義千問

阿里通義大模型是阿里云推出的一款超大規(guī)模語言模型,具備多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解和多語言支持等功能。它是阿里云在人工智能領(lǐng)域的重要成果之一,已經(jīng)在多個(gè)領(lǐng)域廣泛應(yīng)用。阿里通義為業(yè)務(wù)提供強(qiáng)大的基礎(chǔ)框架和工具,推動(dòng)人工智能技術(shù)的發(fā)展和應(yīng)用。這一模型為用戶提供了豐富的功能和靈活性,助力各行各業(yè)實(shí)現(xiàn)創(chuàng)新發(fā)展。

wKgaomTl0wiASUweAAjdQZ4QM-g840.png

8、瀾舟科技-MChat

瀾舟科技是一家由創(chuàng)新工場孵化的認(rèn)知智能公司,成立于2021年6月。專注于AI 2.0大模型的研發(fā),并以自然語言處理(NLP)技術(shù)為基礎(chǔ),提供新一代的認(rèn)知智能平臺(tái)。瀾舟科技的主要產(chǎn)品是一系列基于"孟子大模型"核心技術(shù)打造的能力平臺(tái)和垂直場景應(yīng)用。致力于為用戶提供先進(jìn)的智能解決方案,以推動(dòng)行業(yè)的數(shù)字化轉(zhuǎn)型和創(chuàng)新發(fā)展。

wKgaomTl0wmAI949AAlTvC3jfxM542.png

各大龍頭企業(yè)如何應(yīng)對大模型發(fā)展?

NVIDIA 已成為 AI 大模型開發(fā)的首選,但 GPU 短缺問題短期內(nèi)難以解決。NVIDIA 在 AI 芯片領(lǐng)域的長期積累,使其在生成式AI浪潮中占據(jù)主導(dǎo)地位,其GPU也成為各大科技公司爭相采購的對象。但 GPU供應(yīng)有限,制約了人工智能的快速發(fā)展,OpenAI CEO表示GPU短缺限制了他們在模型調(diào)優(yōu)和上下文窗口等方面的進(jìn)展。目前最強(qiáng)的GPU NVIDIA H100也面臨嚴(yán)重缺貨。從供給角度看,H100供應(yīng)直接受制于臺(tái)積電產(chǎn)能,短時(shí)間內(nèi)難以找到替代的代工廠,出貨量有限。從需求端看,市場對H100的需求約在43.2萬張左右,總價(jià)值將超過150億美元,還沒有考慮中國對H800的需求。NVIDIA正在提升產(chǎn)能,但GPU短缺可能還會(huì)持續(xù)一段時(shí)間。

國產(chǎn)算力板塊仍具潛力,算力產(chǎn)業(yè)鏈值得關(guān)注。當(dāng)前算力板塊景氣度較高,H800將批量供應(yīng)中國,相關(guān)的AI服務(wù)器企業(yè)有望迎來放量。此外各地智能算力中心建設(shè)也在推進(jìn),國內(nèi)對AI芯片的需求快速增長,國產(chǎn)化替代的需求隨之提升。根據(jù)測算,中國AI芯片市場規(guī)模到2027年將達(dá)到2164億元。目前在AI加速卡出貨量上,NVIDIA在中國市場份額超過80%,國產(chǎn)化的需求持續(xù)增長。

wKgZomTl0wmAbCXDAAEADyNh4gU122.png

中國 AI 芯片市場規(guī)模及增速

一、行業(yè)變化

1、SIGGRAPH 2023 召開,英偉達(dá) AI 布局持續(xù)演進(jìn)

1) AI 芯片再度升級,英偉達(dá)鞏固 AI 算力領(lǐng)域主導(dǎo)地位

在SIGGRAPH 2023世界計(jì)算機(jī)圖形學(xué)大會(huì)上,英偉達(dá)創(chuàng)始人兼CEO黃仁勛做主題演講,重點(diǎn)介紹下一代AI超級芯片GH200。他將生成式AI比喻為AI的“iPhone時(shí)刻”,自然語言是新的編程語言,使計(jì)算機(jī)科學(xué)實(shí)現(xiàn)民主化,人人皆可成為“程序員”。他認(rèn)為大語言模型是新型計(jì)算平臺(tái),將賦能各類新應(yīng)用,并讓舊平臺(tái)帶來諸如Office和Copilot等好處。演講中,英偉達(dá)宣布推出下一代GH200 Grace Hopper超級芯片,搭載全球首個(gè)HBM3e內(nèi)存。黃仁勛的演說充分展現(xiàn)出英偉達(dá)對大語言模型計(jì)算平臺(tái)前景的信心和領(lǐng)先視野,也預(yù)示著英偉達(dá)將繼續(xù)通過創(chuàng)新芯片產(chǎn)品,推動(dòng)大模型技術(shù)的發(fā)展。

wKgaomTl0wqAe5U1AAu-NNUEkkU223.png

生成式 AI 是 AI 的“iPhone 時(shí)刻”

英偉達(dá)計(jì)劃于2024年第二季度開始生產(chǎn)GH200芯片,該芯片將取代H100 GPU,性能大幅提升。在2022年3月,英偉達(dá)首次推出Grace Hopper超級芯片,該芯片將CPU和GPU融合在一塊主板上,直到今年5月才開始正式量產(chǎn)。而此次推出的GH200芯片則采用新型的HBM3e內(nèi)存。GH200芯片專為高性能計(jì)算和生成式AI時(shí)代而設(shè)計(jì),將在今年年底左右進(jìn)行樣片測試,并于2024年第二季度末開始投入生產(chǎn)。GH200芯片由72核的Grace CPU和4 PFLOPS的Hopper GPU組成,通過NVLink C2C技術(shù)連接,搭載141GB的HBM3e內(nèi)存,提供每秒5TB的帶寬。每個(gè)GPU的容量是NVIDIA H100 GPU的1.7倍,帶寬是H100的1.55倍。通過將兩個(gè)GH200芯片連接在一起,可以獲得更高性能的計(jì)算服務(wù)。與前一代相比,雙配置的內(nèi)存容量增加了3.5倍,帶寬增加3倍。

wKgZomTl0wqAJt10AAiDAuAxmV8758.png

由兩個(gè) GH200 芯片組成的計(jì)算平臺(tái)

該芯片具備出色的可擴(kuò)展性,最多支持將256個(gè)芯片連接在一起,形成DGX GH200計(jì)算平臺(tái)。通過NV Link Switch技術(shù),可以將256塊GH200芯片組裝成DGX GH200 SuperPod,提供高達(dá)1 EFLOPS的計(jì)算能力和144TB的高速內(nèi)存。通過NVIDIA Quantum-2 InfiniBand Switch技術(shù),可以使用高速、低延遲的網(wǎng)絡(luò)連接多個(gè)DGX GH200 SuperPod,從而構(gòu)建出面向生成式AI時(shí)代的Grace Hopper AI超級計(jì)算機(jī)。

wKgaomTl0wuAcORvAAZkynZOiT4249.png

由 256 張 GH200 組成的 DGX GH200 系統(tǒng)

隨著芯片的升級,數(shù)據(jù)中心在同等預(yù)算和工作負(fù)載條件下的能效顯著提高,相較以往以CPU為主的數(shù)據(jù)中心有巨大的改進(jìn)。在過去的60年中通用計(jì)算是主流,1億美元可以構(gòu)建一個(gè)由8800塊x86 CPU組成的數(shù)據(jù)中心,功耗為5MW。然而,在當(dāng)前和未來的加速計(jì)算和AI計(jì)算時(shí)代,同樣1億美元可以構(gòu)建一個(gè)由2500塊GH200芯片組成的數(shù)據(jù)中心,功耗僅為3MW。而且,這個(gè)AI推理性能相當(dāng)于之前提到的CPU系統(tǒng)的12倍,能效提高20倍。如果想要達(dá)到和1億美元的x86 CPU數(shù)據(jù)中心相同的AI性能,只需要210塊GH200芯片構(gòu)成的計(jì)算平臺(tái),功耗僅為0.26MW,成本也只需800萬美元。

wKgZomTl0wuAIcC8AAVLiiEOraU790.png

同等預(yù)算下 GH200 數(shù)據(jù)中心的能效是 x86 CPU 數(shù)據(jù)中心的 20 倍

為滿足生成式AI、大模型開發(fā)、內(nèi)容創(chuàng)作和數(shù)據(jù)科學(xué)等領(lǐng)域的需求,NVIDIA推出全新的桌面級AI GPU系列。其中包括RTX 6000、RTX 5000、RTX 4500和RTX 4000四款產(chǎn)品,基于最強(qiáng)大的是RTX 6000。NVIDIA還提供一站式解決方案RTX Workstation,專為企業(yè)級用戶設(shè)計(jì)。RTX Workstation支持最多4張RTX 6000 GPU,可以在15小時(shí)內(nèi)完成對GPT3-40B模型的8.6億個(gè)token的微調(diào),同時(shí)還能讓Stable Diffusion XL每分鐘生成40張圖片,比RTX 4090快了5倍。

wKgaomTl0wyAVIMGABEaHHP13so066.png

英偉達(dá)推出基于 RTX 6000 的 RTX Workstation

為滿足數(shù)據(jù)中心的需求,英偉達(dá)推出OVX服務(wù)器,其搭載L40S Ada GPU。這款服務(wù)器經(jīng)過圖形、計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)的優(yōu)化,每臺(tái)服務(wù)器最多可搭載8個(gè)L40S GPU,每個(gè)GPU配備48GB GDDR6內(nèi)存,提供1.45 PFLOPS的算力。OVX服務(wù)器令人驚嘆的是,僅需7小時(shí)就能完成對GPT3-40B模型的8.6億個(gè)token的微調(diào),其性能表現(xiàn)甚至超過A100的1.7倍。

wKgZomTl0wyAZYHiAAZnQLIrzxU884.png

英偉達(dá)推出基于 L40S GPU 的 OVX 服務(wù)器

英偉達(dá)在AI基礎(chǔ)設(shè)施領(lǐng)域依然穩(wěn)居主導(dǎo)地位。自從ChatGPT引領(lǐng)生成式AI浪潮以來,NVIDIA GPU已經(jīng)成為支持生成式AI和大模型訓(xùn)練的首選芯片,功不可沒。隨著GH200超級AI芯片的升級和多款GPU、服務(wù)器產(chǎn)品的推出,英偉達(dá)展現(xiàn)了其在AI基礎(chǔ)設(shè)施領(lǐng)域的絕對主導(dǎo)地位。

2、AI 生態(tài)持續(xù)拓展,助力生成式 AI 開發(fā)與多領(lǐng)域應(yīng)用

英偉達(dá)與Hugging Face合作,使得在NVIDIA DGX Cloud上訓(xùn)練模型變得更加便捷。Hugging Face是目前最受AI開發(fā)者喜愛的平臺(tái)之一,擁有超過200萬用戶、超過25萬個(gè)模型和5萬個(gè)數(shù)據(jù)集。通過與英偉達(dá)的合作,開發(fā)人員可以利用DGX Cloud的超級計(jì)算能力來構(gòu)建大語言模型和其他高級AI應(yīng)用程序。每個(gè)DGX Cloud實(shí)例配備了8個(gè)NVIDIA H100或A100 80GB Tensor Core GPU,每個(gè)節(jié)點(diǎn)的GPU內(nèi)存總計(jì)達(dá)到640GB。

wKgaomTl0w2AfSVDAALZwYbuqTQ268.png

英偉達(dá)與 Hugging Face 達(dá)成合作

NVIDIA 推出的 AI Workbench是一個(gè)統(tǒng)一的工作空間,可以加速定制生成式 AI 應(yīng)用的開發(fā)。它可以幫助開發(fā)者在 PC 或工作站上快速創(chuàng)建、測試和調(diào)優(yōu)模型并無縫擴(kuò)展到數(shù)據(jù)中心、公有云或 NVIDIA DGX Cloud。AI Workbench 還與 GitHub、NVIDIA NGC、Hugging Face 等服務(wù)集成,開發(fā)者可以在不同的平臺(tái)和基礎(chǔ)設(shè)施上進(jìn)行開發(fā),并可以一鍵遷移。在現(xiàn)場演示視頻中開發(fā)者在搭載 RTX 4090 的筆記本電腦上使用 AI Workbench 對 Stable Diffusion-XL 模型進(jìn)行了微調(diào)。AI Workbench 可以自動(dòng)創(chuàng)建項(xiàng)目環(huán)境、構(gòu)建容器,方便地訪問服務(wù)器以及部署到應(yīng)用中。

wKgZomTl0w2AUx-wAALImERYvws866.png

NVIDIA AI Workbench 工作流程

NVIDIA 推出AI Enterprise 4.0 版本為企業(yè)級生成式AI開發(fā)帶來更強(qiáng)的安全性和穩(wěn)定性。AI Enterprise 4.0 新增支持多款軟件和工具,簡化生成式AI的部署。其中一個(gè)重要亮點(diǎn)是引入NVIDIA NeMo框架,它是一套云原生框架,可以用來構(gòu)建、定制和部署大語言模型,為創(chuàng)建和定制大語言模型應(yīng)用提供了端到端的支持。AI Enterprise支持用戶跨云、數(shù)據(jù)中心和邊緣構(gòu)建及運(yùn)行基于NVIDIA AI的解決方案,經(jīng)過認(rèn)證可以在主流的NVIDIA認(rèn)證系統(tǒng)、NVIDIA DGX系統(tǒng)、所有主要的云平臺(tái)以及新發(fā)布的NVIDIA RTX工作站上運(yùn)行。此外,AI Enterprise 4.0還將集成到其他合作伙伴如Google Cloud、Microsoft Azure和Oracle等。

wKgaomTl0w6AQqyUAAJjvVCn0as301.png

英偉達(dá)升級 AI Enterprise 4.0

NVIDIA 為 OpenUSD 進(jìn)行了升級,為開發(fā)者和企業(yè)提供了更多的框架和資源服務(wù)。OpenUSD 由皮克斯發(fā)明并在2016年開源的通用場景描述格式,用于創(chuàng)建和描述3D世界,使不同的3D設(shè)計(jì)軟件可以無障礙地協(xié)作。目前已有50多種設(shè)計(jì)工具原生支持了USD標(biāo)準(zhǔn)。NVIDIA從5年前就開始與皮克斯合作,全力支持OpenUSD的發(fā)展。

NVIDIA提供了Omniverse Cloud和多種API,帶給開發(fā)者和企業(yè)更多的框架和資源。最引人關(guān)注的兩個(gè)API是:基于大語言模型的ChatUSD,可以像Copilot一樣在Omniverse中回答問題和生成代碼;以及基于大語言模型的語義3D搜索服務(wù)DeepSearch,可以通過文本或圖像快速搜索大量未標(biāo)注的數(shù)據(jù)集。在AI的推動(dòng)下協(xié)作式3D和數(shù)字化的時(shí)代正在到來。

wKgZomTl0w-AfD2CAATGcoEIAuE702.png

英偉達(dá) Omniverse 采用 OpenUSD 標(biāo)準(zhǔn),提供多種 API 服務(wù)

二、各大廠商如何布局?

1、Stability AI 推出 StableCode,一款用于寫代碼的大型語言模型

8 月 9 日,Stability AI 發(fā)布其新的開放大型語言模型(LLM)StableCode ,該模型旨在幫助用戶生成編程語言代碼,基于 transformer 神經(jīng)網(wǎng)絡(luò)打造。Stability AI 以其 Stable Diffusion 文本生成圖像模型而聞名,現(xiàn)在開始涉足代碼生成領(lǐng)域。 StableCode 模型訓(xùn)練數(shù)據(jù)則來自 BigCode 項(xiàng)目的初始編程語言數(shù)據(jù)集,并用 Stability AI 進(jìn)行篩選和微調(diào), 將首先支持 Python、Go、Java、JavaScript、C、markdown 和 C++ 等編程語言的開發(fā)。

同時(shí),提供三個(gè)層級的模型,分別為用于通用領(lǐng)域的基礎(chǔ)模型、指令模型和一個(gè)支持多達(dá) 16,000 個(gè) tokens 的長上下文窗口模型。Stability AI 稱長上下文窗口模型版本比其他大模型都要大,支持更專業(yè)和更復(fù)雜的代碼生成提示,用戶可以使用 StableCode 查看一個(gè)包含多個(gè)文件的中等大小的代碼庫,以幫助理解和生成新代碼。

2、OpenAI 在中國申請注冊“GPT-5”商標(biāo),此前已在美國申請

8月10日,據(jù)國家知識產(chǎn)權(quán)局顯示,OpenAI的運(yùn)營公司最近申請注冊兩枚“GPT-5”商標(biāo),分別用于科學(xué)儀器和設(shè)計(jì)研究領(lǐng)域。此前OpenAI已在上月向美國專利商標(biāo)局申請注冊“GPT-5”商標(biāo)。從商標(biāo)信息看,GPT-5將提供文本生成、自然語言理解、語音轉(zhuǎn)錄、翻譯、分析等功能。OpenAI此前在6月表示還未開始訓(xùn)練GPT-5。另外,OpenAI的GPT-4今年上半年也在中國申請了相關(guān)商標(biāo)以及一個(gè)“WHISPER”的網(wǎng)站服務(wù)商標(biāo)。這表明OpenAI正在積極布局GPT-5等新模型,中國也是其重要的商業(yè)化市場。

3、小米 AI 大模型 MiLM-6B 首次曝光:64 億參數(shù),C-Eval 總榜排名第 10

最近小米的大語言模型MiLM-6B首次出現(xiàn)在C-Eval和CMMLU兩大AI模型評測榜單上。GitHub項(xiàng)目顯示MiLM-6B是一個(gè)參數(shù)規(guī)模達(dá)64億的大規(guī)模預(yù)訓(xùn)練語言模型,由小米自主開發(fā)。截至8月11日在C-Eval總榜MiLM-6B排名第10,同參數(shù)量級模型排名第一;在CMMLU中文向大模型排名第一。C-Eval數(shù)據(jù)顯示,在STEM科目中MiLM-6B在計(jì)量、物理、化學(xué)、生物等準(zhǔn)確率較高。在社科科目中除教育和地理外,均獲得較理想的準(zhǔn)確率。在人文科目中,MiLM-6B的歷史和法律準(zhǔn)確率較佳??傮w來說,MiLM-6B在多數(shù)文科科目已具備相對良好的準(zhǔn)確度,但在涉及“抽象思維”的法學(xué)、數(shù)學(xué)、編程等科目仍有進(jìn)步空間。這表明小米自主研發(fā)的大模型MiLM-6B具有較強(qiáng)的通用語言能力。

4、微軟亞洲研究院推出工業(yè)場景用大模型,利用 GPT-4 控制空調(diào)系統(tǒng)

日前微軟亞洲研究院在論文中提出用GPT-4模型來控制工業(yè)場景中的空調(diào)系統(tǒng),稱此方法僅需少量樣本就能在成本和效率上優(yōu)于傳統(tǒng)工控系統(tǒng)。微軟表示對工業(yè)場景傳統(tǒng)工控軟件處理異構(gòu)任務(wù)、樣本利用率低,適應(yīng)新場景需要大量時(shí)間和預(yù)算而用預(yù)訓(xùn)練大模型控制相關(guān)設(shè)備,在高準(zhǔn)確率下可降低部署成本。微軟使用GPT-4在虛擬空調(diào)環(huán)境進(jìn)行了實(shí)驗(yàn),開發(fā)出一種基礎(chǔ)模型應(yīng)用于工控但無需大量訓(xùn)練的方法,獲得了積極結(jié)果。該研究旨在探索直接用預(yù)訓(xùn)練大模型進(jìn)行工業(yè)控制任務(wù)的潛力逐步取代容錯(cuò)率較高的工業(yè)環(huán)境。這表明預(yù)訓(xùn)練語言模型在工業(yè)控制等領(lǐng)域也展現(xiàn)出廣闊的應(yīng)用前景。

5、明略科技開源 TensorBoard.cpp,助力大模型預(yù)訓(xùn)練

近日明略科技集團(tuán)實(shí)現(xiàn)了機(jī)器學(xué)習(xí)可視化工具TensorBoard的C++接口,進(jìn)一步豐富了基于C++的大模型項(xiàng)目工具集,使大模型預(yù)訓(xùn)練過程監(jiān)控更便捷高效,加速了營銷領(lǐng)域大模型的預(yù)訓(xùn)練。TensorBoard是谷歌開發(fā)的機(jī)器學(xué)習(xí)可視化工具,常用于監(jiān)測機(jī)器學(xué)習(xí)過程的各項(xiàng)指標(biāo)。據(jù)介紹TensorBoard通過可視化模型中的參數(shù)和結(jié)果,如記錄訓(xùn)練過程中的Loss變化、驗(yàn)證集的PPL變化、學(xué)習(xí)率變化等,幫助分析訓(xùn)練狀態(tài)發(fā)現(xiàn)問題并及時(shí)采取措施。此前TensorBoard僅支持Python。明略科技通過C++實(shí)現(xiàn)TensorBoard將進(jìn)一步豐富基于C++的大模型項(xiàng)目工具集,大幅提升監(jiān)測效率加速模型訓(xùn)練。改寫接口后的工具將以多種數(shù)據(jù)模式展示訓(xùn)練指標(biāo),包括標(biāo)量、直方圖、圖像等。該工具包在GitHub上開源,助力更多研究者和開發(fā)者參與大模型研發(fā),推動(dòng)人工智能多領(lǐng)域應(yīng)用。

藍(lán)海大腦大模型訓(xùn)練平臺(tái)

藍(lán)海大腦大模型訓(xùn)練平臺(tái)提供強(qiáng)大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓?fù)?滿足大模型訓(xùn)練中張量并行的通信需求。支持高性能I/O擴(kuò)展,同時(shí)可以擴(kuò)展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強(qiáng)大的液冷系統(tǒng)熱插拔及智能電源管理技術(shù),當(dāng)BMC收到PSU故障或錯(cuò)誤警告(如斷電、電涌,過熱),自動(dòng)強(qiáng)制系統(tǒng)的CPU進(jìn)入U(xiǎn)LFM(超低頻模式,以實(shí)現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計(jì)算解決方案。主要應(yīng)用于深度學(xué)習(xí)、學(xué)術(shù)教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領(lǐng)域。

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強(qiáng)

大模型能夠進(jìn)行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)

3、靈活定制場景

通過舉例子的方式,定制大模型海量的應(yīng)用場景

4、標(biāo)注數(shù)據(jù)更少

通過學(xué)習(xí)少量行業(yè)數(shù)據(jù),大模型就能夠應(yīng)對特定業(yè)務(wù)場景的需求

二、平臺(tái)特點(diǎn)

1、異構(gòu)計(jì)算資源調(diào)度

一種基于通用服務(wù)器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構(gòu)計(jì)算資源,包括CPU、GPU等。通過強(qiáng)大的虛擬化管理功能,能夠輕松部署底層計(jì)算資源,并高效運(yùn)行各種模型。同時(shí)充分發(fā)揮不同異構(gòu)資源的硬件加速能力,以加快模型的運(yùn)行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)

支持多存儲(chǔ)類型協(xié)議,包括塊、文件和對象存儲(chǔ)服務(wù)。將存儲(chǔ)資源池化實(shí)現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時(shí)采用多副本、多級故障域和故障自恢復(fù)等數(shù)據(jù)保護(hù)機(jī)制,確保模型和數(shù)據(jù)的安全穩(wěn)定運(yùn)行。

3、高性能分布式網(wǎng)絡(luò)

提供算力資源的網(wǎng)絡(luò)和存儲(chǔ),并通過分布式網(wǎng)絡(luò)機(jī)制進(jìn)行轉(zhuǎn)發(fā),透傳物理網(wǎng)絡(luò)性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴(yán)格的權(quán)限管理機(jī)制,確保模型倉庫的安全性。在數(shù)據(jù)存儲(chǔ)方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時(shí),在模型分發(fā)和運(yùn)行過程中,提供全面的賬號認(rèn)證和日志審計(jì)功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

目前大模型訓(xùn)練多常用H100、H800、A800、A100等GPU顯卡,以下是一些常用的配置。

1、H100服務(wù)器常用配置

英偉達(dá)H100 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產(chǎn)品相比,可為多專家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過結(jié)合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點(diǎn)加速每個(gè) GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴(kuò)展性。

搭載 H100 的加速服務(wù)器可以提供相應(yīng)的計(jì)算能力,并利用 NVLink 和 NVSwitch 每個(gè) GPU 3 TB/s 的顯存帶寬和可擴(kuò)展性,憑借高性能應(yīng)對數(shù)據(jù)分析以及通過擴(kuò)展支持龐大的數(shù)據(jù)集。通過結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺(tái)能夠以出色的性能和效率加速這些大型工作負(fù)載。

CPU:英特爾至強(qiáng)Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

內(nèi)存:動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器64GB DDR5 4800兆赫 *24

存儲(chǔ):固態(tài)硬盤3.2TB U.2 PCIe第4代 *4

GPU :Nvidia Vulcan PCIe H100 80GB *8

平臺(tái) :HD210 *1

散熱 :CPU+GPU液冷一體散熱系統(tǒng) *1

網(wǎng)絡(luò) :英偉達(dá)IB 400Gb/s單端口適配器 *8

電源:2000W(2+2)冗余高效電源 *1

2、A800服務(wù)器常用配置

NVIDIA A800 的深度學(xué)習(xí)運(yùn)算能力可達(dá) 312 teraFLOPS(TFLOPS)。其深度學(xué)習(xí)訓(xùn)練的Tensor 每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPS)和推理的 Tensor 每秒萬億次運(yùn)算次數(shù)(TOPS)皆為NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供兩倍于上一代的吞吐量。與 NVIDIA NVSwitch 結(jié)合使用時(shí),此技術(shù)可將多達(dá) 16 個(gè) A800 GPU 互聯(lián),并將速度提升至 600GB/s,從而在單個(gè)服務(wù)器上實(shí)現(xiàn)出色的應(yīng)用性能。NVLink 技術(shù)可應(yīng)用在 A800 中:SXM GPU 通過 HGX A100 服務(wù)器主板連接,PCIe GPU 通過 NVLink 橋接器可橋接多達(dá) 2 個(gè) GPU。

CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

內(nèi)存:DDR4 3200 64G *32

數(shù)據(jù)盤:960G 2.5 SATA 6Gb R SSD *2

硬盤:3.84T 2.5-E4x4R SSD *2

網(wǎng)絡(luò):雙口10G光纖網(wǎng)卡(含模塊)*1

雙口25G SFP28無模塊光纖網(wǎng)卡(MCX512A-ADAT )*1

GPU:HV HGX A800 8-GPU 8OGB *1

電源:3500W電源模塊*4

其他:25G SFP28多模光模塊 *2

單端口200G HDR HCA卡(型號:MCX653105A-HDAT) *4

2GB SAS 12Gb 8口 RAID卡 *1

16A電源線纜國標(biāo)1.8m *4

托軌 *1

主板預(yù)留PCIE4.0x16接口 *4

支持2個(gè)M.2 *1

原廠質(zhì)保3年 *1

3、A100服務(wù)器常用配置

NVIDIA A100 Tensor Core GPU 可針對 AI、數(shù)據(jù)分析和 HPC 應(yīng)用場景,在不同規(guī)模下實(shí)現(xiàn)出色的加速,有效助力更高性能的彈性數(shù)據(jù)中心。A100 采用 NVIDIA Ampere 架構(gòu),是 NVIDIA 數(shù)據(jù)中心平臺(tái)的引擎。A100 的性能比上一代產(chǎn)品提升高達(dá) 20 倍,并可劃分為七個(gè) GPU 實(shí)例,以根據(jù)變化的需求進(jìn)行動(dòng)態(tài)調(diào)整。A100 提供 40GB 和 80GB 顯存兩種版本,A100 80GB 將 GPU 顯存增加了一倍,并提供超快速的顯存帶寬(每秒超過 2 萬億字節(jié) [TB/s]),可處理超大型模型和數(shù)據(jù)集。

CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM:64GB DDR4 RDIMM服務(wù)器內(nèi)存 *16

SSD1:480GB 2.5英寸SATA固態(tài)硬盤 *1

SSD2:3.84TB 2.5英寸NVMe固態(tài)硬盤 *2

GPU:NVIDIA TESLA A100 80G SXM *8

網(wǎng)卡1:100G 雙口網(wǎng)卡IB 邁絡(luò)思 *2

網(wǎng)卡2:25G CX5雙口網(wǎng)卡 *1

4、H800服務(wù)器常用配置

H800是英偉達(dá)新代次處理器,基于Hopper架構(gòu),對跑深度推薦系統(tǒng)、大型AI語言模型、基因組學(xué)、復(fù)雜數(shù)字孿生等任務(wù)的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達(dá)到3 TB/s。

雖然論性能,H800并不是最強(qiáng)的,但由于美國的限制,性能更強(qiáng)的H100無法供應(yīng)給中國市場。有業(yè)內(nèi)人士表示,H800相較H100,主要是在傳輸速率上有所差異,與上一代的A100相比,H800在傳輸速率上仍略低一些,但是在算力方面,H800是A100的三倍。

CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

內(nèi)存 :64GB 3200MHz RECC DDR4 DIMM *32

系統(tǒng)硬盤: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU: NVIDIA Tesla H800 -80GB HBM2 *8

GPU網(wǎng)絡(luò): NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存儲(chǔ)網(wǎng)絡(luò) :雙端口 200GbE IB *1

網(wǎng)卡 :25G網(wǎng)絡(luò)接口卡 雙端口 *1

5、A6000服務(wù)器常用配置

CPU:AMD EPYC 7763 64C 2.45GHz 256MB 280W*2

內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8

固態(tài)盤:2.5" 960GB SATA 讀取密集 SSD*1

數(shù)據(jù)盤:3.5" 10TB 7200RPM SATA HDD*1

GPU:NVIDIA RTX A6000 48GB*8

平臺(tái):機(jī)架式4U GPU服務(wù)器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個(gè)3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個(gè)NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨(dú)立IPMI管理接口,11xPCIe 4.0插槽。

2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導(dǎo)軌。

6、AMD MI210服務(wù)器常用配置

CPU:AMD EPYC 7742 64C 2.25GHz 256MB 225W *2

內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8

固態(tài)盤:2.5" 960GB SATA 讀取密集 SSD*1

數(shù)據(jù)盤:3.5" 10TB 7200RPM SATA HDD*1

GPU:AMD MI210 64GB 300W*8

平臺(tái):機(jī)架式4U GPU服務(wù)器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個(gè)3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個(gè)NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨(dú)立IPMI管理接口,11xPCIe 4.0插槽。

2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導(dǎo)軌。

7、AMD MI250服務(wù)器常用配置

CPU: AMD EPYC? 7773X 64C 2.2GHz 768MB 280W *2

內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8

固態(tài)盤:2.5" 960GB SATA 讀取密集 SSD*1

數(shù)據(jù)盤:3.5" 10TB 7200RPM SATA HDD*1

GPU:AMD MI250 128GB 560W*6

平臺(tái):機(jī)架式4U GPU服務(wù)器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個(gè)3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個(gè)NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨(dú)立IPMI管理接口,11xPCIe 4.0插槽。

2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導(dǎo)軌。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4722

    瀏覽量

    100307
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29359

    瀏覽量

    267640
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3680

    瀏覽量

    90478
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    136

    瀏覽量

    5961
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2206

    瀏覽量

    2227
收藏 人收藏

    評論

    相關(guān)推薦

    英偉達(dá)中國區(qū)總經(jīng)理談高性能計(jì)算與智能汽車

    ADAS結(jié)合英偉達(dá)的強(qiáng)項(xiàng)我們能做的貢獻(xiàn),就是能把一臺(tái)高性能計(jì)算機(jī)安裝在我們的汽車?yán)锶ィ绻惠v汽車它就是一臺(tái)高性能計(jì)算機(jī)。##ADAS結(jié)合英偉
    發(fā)表于 03-24 12:45 ?1271次閱讀

    小米自行車推上風(fēng)口浪尖,高成本背后是啥黑科技

    米家騎記電助力折疊自行車自面世以來,吸引了眾多的關(guān)注,最近兩天在各處出現(xiàn)的關(guān)于對米家騎記電助力折疊自行車所使用的傳感器技術(shù)的文章再次把這款產(chǎn)品推上了風(fēng)口浪尖。
    發(fā)表于 06-30 09:49 ?1153次閱讀

    無人便利店興起,RFID技術(shù)也推上了“風(fēng)口浪尖

    伴隨著人工智能在各個(gè)領(lǐng)域的滲透,無人售貨商店的概念進(jìn)入大眾視野。去年12月,全球電商巨頭亞馬遜推出AmazonGo無人商店,盡管在內(nèi)測中,但還是引發(fā)了業(yè)內(nèi)的高度關(guān)注。而近期在國內(nèi),無人商店也被資本和輿論推上了“風(fēng)口浪尖”。
    發(fā)表于 08-16 08:46 ?1441次閱讀

    進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

    和推理的速度。 英偉達(dá) Blackwell 架構(gòu)在高性能計(jì)算方面的應(yīng)用為人工智能和其他計(jì)算密集型任務(wù)提供了更強(qiáng)大的處理能力和效率。這些應(yīng)用將
    發(fā)表于 05-13 17:16

    英偉達(dá)DPU的過“芯”之處

    的領(lǐng)域就有超算、自動(dòng)駕駛和邊緣計(jì)算模式。其中,基于英偉達(dá)GPU的AI運(yùn)算平臺(tái)與ARM的生態(tài)系統(tǒng)結(jié)合,將不僅能夠強(qiáng)化英偉達(dá)
    發(fā)表于 03-29 14:42

    消費(fèi)級航拍熱度已過 工業(yè)無人機(jī)站上風(fēng)口浪尖

    工業(yè)無人機(jī)站上風(fēng)口浪尖 當(dāng)前,無人機(jī)市場的商機(jī)吸引著眾多創(chuàng)業(yè)公司的目光,隨著無人機(jī)應(yīng)用蔓延進(jìn)各種新領(lǐng)域,無人機(jī)的潛在市場也在快速擴(kuò)大。
    發(fā)表于 11-26 09:34 ?662次閱讀

    CES:處在風(fēng)口浪尖的樂視,還能有什么招?

    廠商不得不提,那就是處在風(fēng)口浪尖的——樂視。今天極客君就帶大家來看看,為了在 2017 年重振信心,樂視還能玩出什么花樣?
    發(fā)表于 01-09 11:14 ?791次閱讀

    特斯拉:Autopilot事故頻繁,被推上了輿論的風(fēng)口浪尖

    最新一起車禍發(fā)生在5月底,美國加州一輛開啟了Autopilot自動(dòng)駕駛系統(tǒng)的轎車撞上了停著的警車,雖然沒有重大傷亡,但因?yàn)锳utopilot事故太過頻繁,也就成為了輿論的風(fēng)口浪尖。
    發(fā)表于 06-21 12:10 ?1234次閱讀

    中國智造 穩(wěn)致遠(yuǎn)

    近日,德勤中國最新發(fā)布《中國智造,穩(wěn)致遠(yuǎn) —— 2018中國智能制造報(bào)告》,總結(jié)發(fā)現(xiàn)中國制造業(yè)目前已在智能制造方面取得顯著成效,進(jìn)入高速成長期。
    的頭像 發(fā)表于 12-06 14:32 ?2527次閱讀

    萬豪酒店用戶數(shù)據(jù)泄露 推上輿論的風(fēng)口浪尖!

    因?yàn)橛脩魯?shù)據(jù)泄露,萬豪酒店這次被推上輿論的風(fēng)口浪尖! 萬豪酒店宣布,旗下喜達(dá)屋酒店(Starwood Hotel)的一個(gè)顧客預(yù)訂數(shù)據(jù)庫被黑客入侵,可能有多達(dá)5億人次預(yù)訂喜達(dá)屋酒店客人的詳細(xì)個(gè)人信息
    的頭像 發(fā)表于 05-13 14:44 ?2845次閱讀

    特斯拉、蔚來相繼自燃著火 新能源汽車再次被推到風(fēng)口浪尖之上

    最近可謂是汽車圈的多事之秋,奔馳“漏油門”剛剛達(dá)成和解,特斯拉、蔚來相繼自燃著火,新能源汽車再次被推上風(fēng)口浪尖之上。這不,一波未平一波又起,今日比亞迪緊隨其后,也著了。
    發(fā)表于 04-25 15:40 ?1700次閱讀

    5G將視頻通信領(lǐng)域推到了風(fēng)口浪尖

    通信網(wǎng)絡(luò)、設(shè)備、技術(shù)日新月異,視頻會(huì)議工具早已遍布各行各業(yè),為人們工作生活提供便捷。隨宅5G浪潮攜帶著超寬帶呼嘯而來,視頻通信業(yè)務(wù)再次被推到風(fēng)口浪尖。
    發(fā)表于 08-21 10:49 ?1209次閱讀

    處于風(fēng)口浪尖上的5G,英偉達(dá)也要來湊熱鬧

    風(fēng)口浪尖的5G,已經(jīng)上升到國家戰(zhàn)略層面,所以相關(guān)企業(yè)都鉚足了勁發(fā)展相關(guān)配套技術(shù)是可以預(yù)見的。但是想不到的是,很多非通信相關(guān)的公司也在想辦法插上一腳。
    的頭像 發(fā)表于 11-07 15:32 ?3967次閱讀

    李開復(fù)“口誤”引科技界恐慌?用戶隱私泄露再被推上風(fēng)口浪尖

    這兩天,李開復(fù)用一句話將自己和螞蟻集團(tuán)、曠視科技、美圖三家明星企業(yè)一起送上了熱搜,“用戶隱私泄露”的話題再被推上風(fēng)口浪尖。
    的頭像 發(fā)表于 09-14 12:38 ?3575次閱讀

    英偉達(dá)加入量子計(jì)算云服務(wù)競賽

    英偉達(dá)進(jìn)軍量子計(jì)算云服務(wù)領(lǐng)域,標(biāo)志著這家圖形處理器和人工智能技術(shù)的領(lǐng)軍企業(yè)正積極擁抱科技前沿,順應(yīng)量子計(jì)
    的頭像 發(fā)表于 03-20 11:31 ?741次閱讀