Gemini 是一款新型的多模態(tài)大語言模型,此前多模態(tài)大模型在處理視頻、文字、圖像等多維度輸入信息時(shí)是采用分別訓(xùn)練分別輸出再進(jìn)行拼接的方式,這種方式的缺點(diǎn)在于面對(duì)復(fù)雜邏輯問題時(shí),大模型的回復(fù)略顯遲鈍。
Gemini 采用了全新的訓(xùn)練方式,直接在多模態(tài)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并利用額外的多模態(tài)數(shù)據(jù)進(jìn)行微調(diào),因而可在處理復(fù)雜邏輯問題上更加智能。
下載鏈接:
Gemini 模型一共包括三個(gè)版本,可以在不同設(shè)備上進(jìn)行使用。
1)Gemini Nano—端側(cè)設(shè)備上最高效的模型。這款模型專為智能手機(jī)設(shè)計(jì),可以在沒有連接外部服務(wù)器的情況下完成 AI 處理任務(wù)。
2)Gemini Pro—運(yùn)行在谷歌數(shù)據(jù)中心。Pro 版本將在最新版本的 AI 聊天機(jī)器人 Bard 提供支持,是 Bard推出以來的最大升級(jí)。目前為 170 多個(gè)國家和地區(qū)提供英語服務(wù),計(jì)劃未來幾個(gè)月內(nèi)支持新的語言和地區(qū),并應(yīng)用于搜索、廣告、Chrome 和 Duet AI 等更多谷歌產(chǎn)品。
3)Gemini Ultra —規(guī)模最大且功能最強(qiáng)大的模型,專用于高度復(fù)雜的任務(wù),會(huì)在完成當(dāng)前測(cè)試階段后的明年初向開發(fā)者和企業(yè)客戶提供。屆時(shí)還會(huì)推出基于 Gemini Ultra 的 Bard Advanced 更新版本。
Gemini 模型訓(xùn)練基于谷歌自研 TPU 芯片,發(fā)布 TPU v5P,性能全部升級(jí)。谷歌較早就開始布局 AI 市場(chǎng),2015 年便發(fā)布了專門用于 AI 領(lǐng)域的專用芯片 TPU v1,2015 年至今,谷歌已經(jīng)完成了五個(gè)版本的迭代。目前現(xiàn)階段谷歌展示的 Gemini 1.0 模型就是基于 TPU v4 和 TPU v5e 兩類芯片來完成訓(xùn)練過程。
在發(fā)布 Gemini 模型的同時(shí),谷歌發(fā)布了最新的 TPU v5p 系列。v5p 進(jìn)一步增強(qiáng)了方案可拓展性,并為了應(yīng)對(duì)復(fù)雜模型的推理訓(xùn)練與調(diào)整需求,設(shè)計(jì)了新的硬件架構(gòu)。在 v5p 構(gòu)建的集群,每個(gè) Pod 計(jì)算單元由 8960顆芯片互聯(lián),數(shù)量較之前的版本翻倍。計(jì)算性能上,新的 pod 浮點(diǎn)運(yùn)算能力相比 v4 提升了兩倍,訓(xùn)練速度相比 v4 提升 2.8 倍以上。
谷歌 TPU:創(chuàng)新網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),采用光交換技術(shù)(OCS)。傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)結(jié)構(gòu)為 leaf-spine 葉脊架構(gòu),英偉達(dá) AI 集群采用的是無收斂胖拓?fù)浣Y(jié)構(gòu),谷歌的 AI 網(wǎng)絡(luò)集群在 spine 層進(jìn)行創(chuàng)新,用 OCS 交換機(jī)(光路開關(guān),optical circuit switch)代替?zhèn)鹘y(tǒng)的電交換機(jī)(以太網(wǎng)交換機(jī))。傳統(tǒng)數(shù)據(jù)中心在 spine 層需要進(jìn)行大量的電光轉(zhuǎn)換,會(huì)產(chǎn)生較多的功耗,并且隨著數(shù)據(jù)量增加 spine 層每 2-3 年都需要進(jìn)行更換。谷歌的 OCS 的目的是替代當(dāng)下的電網(wǎng)絡(luò)交換機(jī),從而實(shí)現(xiàn)近一步成本和功耗的降低。
谷歌的 OCS 稱為為 Palomar,內(nèi)部結(jié)構(gòu)為:輸入輸出為光纖準(zhǔn)直器陣列,光纖準(zhǔn)直器包括光纖陣列和微透鏡陣列,輸入和數(shù)據(jù)均為 136 個(gè)通道(128 個(gè)端口+8 個(gè)備用端口)。當(dāng)光通過光纖進(jìn)入 OCS 系統(tǒng)后,會(huì)通過兩個(gè) 2D 的 MEMS 陣列,每個(gè) MEMS 陣列含有 136 個(gè)平面鏡,用于調(diào)整光的傳播方向。波長為 850nm。
谷歌 AI 網(wǎng)絡(luò)結(jié)構(gòu)拆解:TPU v4 為例。在 TPU v4 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)時(shí)候,每個(gè)基礎(chǔ)單元是 4*4*4=64 顆 TPU 組成,每個(gè)面有 16 個(gè)鏈路,因此每個(gè)單元一共有 16*6=96 個(gè)鏈路連接到 OCS 的光鏈路.此外因?yàn)樘峁?3D 環(huán)面的環(huán)繞鏈接,相對(duì)側(cè)的鏈接必須連接到同一個(gè) OCS。因此,每個(gè)基礎(chǔ)單元需要 6×16/2=48 個(gè) OCS。
谷歌 TPU v4 支持 4096 顆 TPU 互聯(lián),具體方案為一共使用 64 個(gè)機(jī)柜,每個(gè)機(jī)柜內(nèi)部構(gòu)建 4*4*4=64 顆 TPU的 3D 網(wǎng)絡(luò)結(jié)構(gòu),其中 3D 結(jié)構(gòu)的外表部分連接到 OCS,中間部分采用無源電纜互聯(lián)。在 4096 顆 TPU 互聯(lián)的系統(tǒng)中一共使用 48 了個(gè) OCS,每個(gè) OCS128 個(gè)端口。此外因?yàn)?OCS 本身直接進(jìn)行光信號(hào)的傳輸,所以每個(gè)端口只需要 1 個(gè)光模塊。因?yàn)樵摷盒枰?48*128=6144 個(gè)光模塊。TPU:光模塊用量=4096:6144=1:1.5
AMD MI300X 對(duì)標(biāo)英偉達(dá) H100。MI300X 由臺(tái)積電代工,基于自研的第三代 CDNA 架構(gòu),集成了 1530 億個(gè)晶體管。
對(duì)比英偉達(dá) H100,集成了 800 億個(gè)晶體管。在性能指標(biāo)上:1)AI 芯片算力:8 位精度浮點(diǎn)數(shù)(FP8)計(jì)算水平來看,MI300X 為 42petaFLOPs(每秒千萬億次浮點(diǎn)運(yùn)算),H100 則為 32petaFLOPs;2)內(nèi)存:MI300X為 192GB,英偉達(dá) H109 為 120GB。目前,集合 8 張 MI300X 的 Instinct 工作臺(tái)已經(jīng)可以支持運(yùn)行 Llama2(700 億參數(shù))、BLOOM(1760 億參數(shù))大模型的訓(xùn)練與推理。
MI300A:首款高性能 APU。具體參數(shù)上,MI300A 具有 228 個(gè) CDNA3 架構(gòu)的計(jì)算核心,24 個(gè) Zen4 架構(gòu)的 X86核心,4 個(gè) I/O DIe,8 個(gè) HBM3,128GB 顯存,5.3TB 峰值帶寬,256MB 的 Infinity 緩存,采用 3.5D 的封裝形式。
審核編輯:湯梓紅
-
谷歌
+關(guān)注
關(guān)注
27文章
6099瀏覽量
104771 -
Gemini
+關(guān)注
關(guān)注
0文章
49瀏覽量
7558 -
AI
+關(guān)注
關(guān)注
87文章
29349瀏覽量
267631 -
語言模型
+關(guān)注
關(guān)注
0文章
490瀏覽量
10225 -
TPU
+關(guān)注
關(guān)注
0文章
138瀏覽量
20668
原文標(biāo)題:谷歌Gemini模型AI網(wǎng)絡(luò)及TPU拆解
文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論