亚洲精品成人片在线播放www,一区二区三区四区av在线

隨著科技的飛速發(fā)展，人工智能公司Groq挑戰(zhàn)了英偉達的王者地位，其AI 芯片不僅展現(xiàn)出卓越的實力，還擁有巨大的潛力。Groq設計了一種獨特的推理代幣經(jīng)濟學模式，該模式背后牽動著眾多因素，卻也引發(fā)了深度思考：新的技術突破來自何處？中國該如何應對并抓住變革中的機遇？Groq成本如何評估？這些都是值得研究和思考的問題。

Groq芯片的實力與潛力

近期AI芯片領域嶄Groq可謂是火爆全球，其在處理大型模型token生成上所展示出的表現(xiàn)令人驚嘆。這意味著我們可以在與GPT等復雜聊天機器人互動時，實時獲得回應，無需等待機器人逐個生成答案。

那么，Groq驅(qū)動的大模型生成速度究竟有多快呢？令人難以置信的是，當Groq的LPU驅(qū)動含有700億參數(shù)的Llama 2大模型時，其生成速度被推至新高度，平均每秒生成185個token。該速度遠超其他使用GPU驅(qū)動的AI云服務提供商。

而在面對Mix Strore8x7B模型時，Groq的性能更是達到新峰值，其生成速度飆至每秒488.6個token，相比依賴英偉達GPU的系統(tǒng)每秒僅能產(chǎn)生15個token的速度，可以說是取得了壓倒性的勝利。從這些事實中，不難看出Groq的LPU在大型模型生成速度上占據(jù)絕對優(yōu)勢。LPU曾被稱為TSP（Tensor Streaming Processor），即一個裝配有大量Tensor單元的流式處理器。

那么對于Groq公司，大家一定對它的來歷感到好奇吧？

Groq是由前谷歌TPU團隊核心成員喬納斯羅斯2016年創(chuàng)立的公司，其推出產(chǎn)品被稱為LPU（Language Processing Unit），專為處理大模型設計的加速芯片。

一、GPU的局限性

盡管GPU在訓練機器學習模型方面的強大作用無可替代，其強大的計算能力、快速參數(shù)更新速度和豐富的生態(tài)系統(tǒng)使之成為業(yè)內(nèi)的主流選擇，但它并非模型推理的理想選擇。一方面是因為GPU架構復雜，其中只有部分核心專門針對AI場景。其次，GPU承載存儲和計算兩個部分，導致數(shù)據(jù)需要頻繁讀寫，從而降低運行速度，提高功耗。

二、GPU、TPU和Groq的LPU的優(yōu)勢與挑戰(zhàn)

下面我們一起來分析專門為AI應用設計的芯片，以谷歌的TPU和Groq的LPU為例。TPU和LPU都有自身的獨特優(yōu)勢，但也有著各自的挑戰(zhàn)需要我們?nèi)ダ斫夂吞接憽?/p>

1、谷歌TPU

TPU專為AI應用設計的芯片，專門處理矩陣運算（AI應用中超過90%的計算任務）。在執(zhí)行AI訓練和推理過程中，TPU能夠便捷地處理不同的計算任務，如激活函數(shù)、優(yōu)化算法以及損失函數(shù)等。這些都是通過高效的向量計算模塊來完成的。而其特色之處在于，TPU采用一種獨特的陣列設計方法，數(shù)據(jù)一旦導入，便會在內(nèi)部形成一個流水線，持續(xù)運動直到完成計算。這種持續(xù)流動式處理方式極大地降低了數(shù)據(jù)的讀寫次數(shù)，從而提升了在AI應用中的計算效率。

2、Groq的LPU

Groq的LPU采用與TPU相同的處理模式，不同的是它在計算單元旁邊直接集成了大約230MB的SRAM，帶寬可達80TB/s。比起GPU，當運行同等參數(shù)的模型時，LPU需要的內(nèi)存更多，這也是LPU在運行速度上擁有優(yōu)勢的原因。

不過，盡管LPU的速度令人矚目，但其昂貴的價格也是一個不容忽視的問題。LPU每塊價格近20000美元，如果要運行擁有上千億參數(shù)的大模型，可能需要購買數(shù)百塊LPU。也就是說，盡管LPU的單獨計算率高，但在數(shù)量需求上，部分GPU在成本效益上更具優(yōu)勢。

3、SRAM的容量問題

有人可能會提出為什么不直接擴大到1TB？實際上，這樣做的技術難度很高，同時也會增加制造成本。因此，230MB的SRAM可能就是在權衡設計難度和制造成本后，現(xiàn)階段可以實現(xiàn)的一個平衡點。

Groq的成本分析

Groq人工智能硬件公司因其在推理API領域的卓越性能以及為技術如思維鏈的實際應用所鋪就道路的貢獻而廣受關注。它在單串性能方面的優(yōu)勢更是受到稱贊，對于特定的市場和應用環(huán)境，Groq的速度優(yōu)勢已經(jīng)改變了原有的格局。然而，足夠的運行速度只是解決方案的一部分。Groq的另一優(yōu)勢是供應鏈的多元化，即所有制造和封裝流程都在美國完成。相比之下，洛基達、谷歌、AMD等依賴韓國內(nèi)存和臺灣先進芯片封裝技術的AI芯片供應商形成鮮明對比。

雖然Groq的優(yōu)勢明顯，但一個硬件是否具有變革性的決定因素是其性能與總成本的比值。不同于傳統(tǒng)軟件，AI軟件的運行需要更強大的硬件基礎設施，這無疑對資本和運營成本產(chǎn)生更大的影響，從而對凈利潤形成影響。因此，優(yōu)化AI基礎設施以實現(xiàn)AI軟件的高效部署尤為重要，擁有優(yōu)越基礎設施的公司無疑將在使用AI部署和拓展應用程序的競賽中立于不敗之地。

根據(jù)"Inference Race to the Bottom"的研究，大量公司可能會在Mixtral API推理服務中虧本，以致于需要設定極低的訪問率減少損失。然而，Groq卻敢于在定價上與這些公司一較高下，其每個代幣價格低至0.27美元。接下來，我們將更深入地研究Groq的芯片、系統(tǒng)以及成本分析，看看他們是如何實現(xiàn)這樣卓越的性能。

Groq芯片采用固定的VLIW架構，并在Global Foundries的14nm工藝上實現(xiàn)約725mm2的規(guī)模。由于芯片并未裝配緩存器，所以所有權重、KVCache和激活數(shù)據(jù)在處理過程中都儲存于芯片中，不需外置存儲。然而，由于每枚芯片僅擁有230MB的SRAM，所以無法將實際的模型完整地裝入單一芯片中。因此，需要使用多個芯片來共同執(zhí)行模型的運算，并連接在一起。

要運行Mixtral模型，Groq需將576個芯片串聯(lián)起來，這些芯片被均勻地分布在72個服務器上，而這些服務器則被部署在8個不同機架中。相比之下，Nvidia的H100只需一個芯片就能運行同樣的模型，而兩個芯片則能處理大規(guī)模數(shù)據(jù)。

在芯片成本方面，產(chǎn)出Groq芯片的每片晶圓價格不會超過6000美元。而對照到Nvidia的H100芯片（尺寸為814mm2，采用臺灣半導體制造公司的5nm自定義工藝），同樣一片晶圓的制作成本就近在16000美元。此外，Groq在設計上并未考慮到良率收縮，與Nvidia有著鮮明的對比，后者會關閉大約15%的H100 SKU，以反映出產(chǎn)品的主流族群。

當考慮到內(nèi)存成本，Nvidia從SK Hynix采購的每片80GB HBM芯片的預計價格為1150美元。另外，還需要額外付費給臺積電的CoWoS服務，導致總成本進一步增加。然而，由于Groq并無額外的外部內(nèi)存需求，因此其芯片構成要素清單大大縮減。

下表將展示Groq部署策略的特點，特別是在流水線并行性和批處理尺寸均為3時的情況。同時，也會將經(jīng)過延遲和吞吐量優(yōu)化后的Nvidia的H100推理部署情況做出對比。

本次分析簡化了部分經(jīng)濟因素，未充分考慮進一些系統(tǒng)成本及Nvidia巨大的利潤空間。但卻明確突出Groq芯片架構的優(yōu)勢，尤其是與延遲優(yōu)化過的Nvidia系統(tǒng)進行比較時。

對于Mixtral模型，八顆A100s芯片可以提供約220個代幣的吞吐量/秒，而這還不包括預測解碼。同樣地，八顆H100s芯片可以達到約280個代幣的吞吐量/秒，如果加上預測解碼，吞吐量更可以達到約420。當前，由于經(jīng)濟收益不高，市場上尚未出現(xiàn)面向延遲優(yōu)化的API服務。然而，隨著代理及其他低延遲任務的日益普及，以GPU為基礎的API供應商可能會提供相應的優(yōu)化API。

Groq的優(yōu)勢表現(xiàn)在不需要預測解碼的高性能，且這一優(yōu)勢在實現(xiàn)批處理系統(tǒng)后仍然顯著。Groq仍在使用相對較舊的14nm工藝，并向Marvell支付較高的芯片利潤。然而，隨著Groq的投資額增加，以及其下一代4nm芯片產(chǎn)量的提高，情況可能發(fā)生改變。

對性能優(yōu)化過的系統(tǒng)來說，其成本效益將會顯著改變。通過基于BOM計算，在每單位美元的投入中，Nvidia的性能增長率顯著提升，但其用戶吞吐量卻相對較低。

簡化的分析方式無法考慮到系統(tǒng)成本、利潤率和功耗等因素，我們將在未來進一步研究性能與總成本的關系。

一旦將上述因素考慮進去，對Tokenomics的理解將發(fā)生改變。Nvidia的商業(yè)模式依賴于他們的GPU板的高額利潤，以及所收取的服務器費用。

如今，最大的模型參數(shù)范圍已達到1到2萬億，而預期谷歌和OpenAI將研發(fā)超過10萬億參數(shù)的模型。同時，大模型如Llama3和Mistral也即將發(fā)布。此類模型需要搭配幾百個GPU和數(shù)十TB的內(nèi)存的強大推理系統(tǒng)支持。已經(jīng)有公司如Groq顯示出處理不超過1000億參數(shù)模型的能力，并計劃在未來兩年部署上百萬芯片。

谷歌的Gemini 1.5 Pro能夠處理高達1000萬token的上下文，這意味著它可以處理長達10小時的影片、110小時的音質(zhì)、30萬行的編碼或700萬字的內(nèi)容。這樣的長上下文處理能力未來有望得到很多公司和服務商的迅速支持以更好地管理大量的編碼庫和文檔庫，取而代之低效的RAG模型。在處理這樣的長上下文信息時，Groq需要構建由數(shù)萬片芯片組成的系統(tǒng)，而目前諸如谷歌、英偉達和AMD等公司使用的是幾十到幾百片芯片。盡管預計四年后，由于其優(yōu)秀的靈活性，GPU將能處理新模型，但對于Groq這樣沒有DRAM的公司來說，隨著模型規(guī)模的擴大，系統(tǒng)壽命可能會縮短，從而增加成本。

利用樹狀/分支推測的方式，推測性解碼的速度已經(jīng)提高約3倍。如果這種技術能在生產(chǎn)級系統(tǒng)上得到有效部署，那么8塊H100的處理速度將會提升到每秒600個Token，從而消解了Groq在速度上的優(yōu)勢。英偉達也未坐視不理，他們計劃在下個月發(fā)布性能以及TCO超過H100兩倍的B100芯片，并計劃在下半年開始發(fā)貨，同時旗下B200和X/R100的研發(fā)工作也正在積極推進。然而，倘若Groq能有效地擴大到數(shù)千個芯片的系統(tǒng)，那么便能大幅增加流水線數(shù)量，為更多的鍵值緩存提供空間，從而實現(xiàn)大規(guī)模的批處理，可能會大幅降低成本。即使有分析師認為這是可能的方向，但實現(xiàn)的可能性并不大。關鍵問題在于是否值得放棄靈活的GPU，轉(zhuǎn)而建立專門的基礎設施以滿足小型模型推理市場對于快速響應的需求。

華為芯片應對挑戰(zhàn)

Groq的出現(xiàn)為計算力市場提供新的選擇，這既暗示強勁的市場需求和供應短缺，也說明科技公司正在構建自己的體系，以對抗英偉達、AMD等的壟斷地位。對于國內(nèi)市場，這無疑為國產(chǎn)芯片提供了更大的發(fā)展空間。

華為已經(jīng)推出昇騰910和昇騰310兩款采用達芬奇架構的AI芯片。該架構具有強大的計算能力，可以在一個周期內(nèi)完成4096次MAC運算，并集成多種運算單元，支持混合精度計算和數(shù)據(jù)精度運算。

以昇騰系列AI處理器為基礎，華為構建Atlas人工智能計算方案，包括多種產(chǎn)品形態(tài)，以應對各種場景的AI基礎設施需求，覆蓋了深度學習的推理和訓練全流程。

基于昇騰系列處理器構建的全棧AI解決方案，已逐漸完善。該方案包括昇騰系列芯片、Atlas硬件系列、芯片使能、異構計算架構CANN以及AI計算框架等。其中，昇騰910芯片的單卡算力已能媲美英偉達A100。

英偉達與華為參數(shù)比對

華為的昇騰計算平臺CANN已從無到有取得顯著突破。從2018年的CANN 1.0版本到目前的7.0版本，這個專為AI場景設計的異構計算架構平臺，已成功成為上層深度學習框架和底層AI硬件間的橋梁。

CANN已形成了繁榮的生態(tài)體系，適用于50多個主流的大模型，如訊飛星火、GPT-3、Stable Diffusion等，而且兼容主流加速庫和開發(fā)工具包，加速創(chuàng)新應用的落地。同時，CANN支持主流的深度學習框架，如Pytorch和Tensorflow，且能在周級時間內(nèi)適配新版本。PyTorch已升級到2.1版本，支持昇騰NPU，助力開發(fā)者在華為昇騰平臺上開發(fā)模型。此外，第三方開源社區(qū)，如清華大學的Jittor和飛漿的PaddlePaddle FastDeploy也已經(jīng)支持接入CANN。

隨著華為昇騰910B的算力接近英偉達A100的標準，以科大訊飛為代表的國產(chǎn)AI模型廠商已開始投入使用?？拼笥嶏w宣布，即將以昇騰生態(tài)為基礎，發(fā)布基于“飛星一號”平臺的訊飛星火大模型，開啟與GPT-4相對標的更大規(guī)模訓練。科大訊飛星火大模型3.5版已發(fā)布，其語言理解和數(shù)學能力已超過GPT-4 Turbo，而代碼能力及多模態(tài)理解分別達到其96%和91%。

華為 CANN 時間線

Groq的成本評估方式

原阿里副總裁賈揚清教授對Groq的成本評估非常精準，他強調(diào)Groq相較于H100的性價比較低，這其中包含一部分運營成本。這種觀點很有可能不僅僅是針對Groq，而是整個DSA設計領域。然而，如果忽略存儲成本，僅按照每個單元（token）的理論成本重新計算，得出的結(jié)果可能與此前相差甚遠。

在現(xiàn)實LLM需求環(huán)境中，推理工作負載對內(nèi)存容量的需求是剛性的，包括模型權重、上下文KV值、各芯片/節(jié)點產(chǎn)生的中間結(jié)果、優(yōu)化器狀態(tài)（僅訓練）等，都需要進行密集讀取和移動。此種情況下，Groq在處理大批量任務時的性能可能就變得有限，流水線并行中可能會產(chǎn)生低效或負效益?？偛⑿卸仁芟抻谀艽娣臟V值的內(nèi)存容量，而并行度不足會對每token的成本產(chǎn)生影響。

相較之下，采用類似結(jié)構的Graphcore 7nm IPU面臨的情況也差不多，盡管其配備900MB的片上SRAM，遠超Groq的230MB，但依然遭遇商業(yè)化的困境。這進一步驗證了，如果基于SRAM的解決方案真的可行，類似的產(chǎn)品早就應該彌漫市場了。再者，這種特殊構型對應的軟件編程框架和引導編譯器也是極大挑戰(zhàn)；倘若一定要景氣地運行Llama2 70B的推理任務，其復雜的軟件和運維開銷是不容忽視的。

接著，Groq的單卡計算單元規(guī)格似乎更適合處理小規(guī)模的推理任務，但其頗高的內(nèi)存帶寬在處理這類任務時的利用率未必能夠達到最優(yōu)。而倘若要處理中大型任務，則需要面臨內(nèi)存容量、通信瓶頸和復雜度的問題。雖然官方的測試主要聚焦在最大70B-最小7B的任務規(guī)模，但這顯然是Groq比較擅長的工作負載規(guī)模，并特別強調(diào)INT8的算力（up to 750TOPs），說明Groq產(chǎn)品的主打應該是“INT8量化下的、面向70B-7B規(guī)?！钡耐评韴鼍?。

最后，無論從硬件還是軟件層面來看，相較于片外HBM+更大的L4+CXL方案，Groq的方案似乎有較高的迭代局限性，可能并不滿足當前LLM工作負載的剛性需求，邊際效益也可能不如前者。然而，如果堅持設計基于SRAM的DSA加速器，為何不研究一下Tesla Dojo的構型呢？他們通過小顆粒SRAM+PE配對分散排列形成的2D矩陣的近存結(jié)構，而非片上集中主存，應該能降低一部分成本，而這種結(jié)構可能處理相當復雜的操作，在非LLM計算場景中可能表現(xiàn)優(yōu)異。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
29383

瀏覽量
267664
英偉達

英偉達

+關注

關注
22

文章
3683

瀏覽量
90487
A10

A10

+關注

關注
1

文章
25

瀏覽量
12663
H100

H100

+關注

關注
0

文章
31

瀏覽量
273
Groq

Groq

+關注

關注
0

文章
9

瀏覽量
70

刷屏的Groq芯片，速度遠超英偉達GPU！成本卻遭質(zhì)疑

電子發(fā)燒友網(wǎng)報道（文/李彎彎）英偉達遇到勁敵了？近日，Groq芯片計算速度超過

發(fā)表于 02-22 09:06 ?3410次閱讀

英偉達市值飆升，逼近蘋果

近日，隨著人工智能技術的持續(xù)繁榮，英偉達公司作為AI芯片生產(chǎn)的領軍者，其市值實現(xiàn)了驚人的飛躍。截至美國當?shù)貢r間21日，

發(fā)表于 10-23 09:31 ?116次閱讀

英偉達Blackwell架構揭秘：下一個AI計算里程碑？# 英偉達# 英偉達Blackwell

英偉達行業(yè)資訊

jf_02331860

發(fā)布于 :2024年08月26日 10:58:09

AI芯片巨頭英偉達漲超4% 英偉達市值暴增7500億

誰是美股最靚的仔？在人工智能浪潮之下AI芯片巨頭英偉達肯定有一席之地，特別是現(xiàn)在全球資本市場動蕩之際，業(yè)界分析師多認為英偉

發(fā)表于 08-13 15:33 ?998次閱讀

英偉達TITAN AI顯卡曝光，性能狂超RTX 4090達63%！# 英偉達# 顯卡

顯卡英偉達

jf_02331860

發(fā)布于 :2024年07月24日 17:18:28

英偉達帶領芯片股飆升英偉達大漲4.76%

1.08%，道指漲0.32%。 AI浪潮之下，業(yè)界預期正不斷加強，在AI算力需求的邊際拉動下、疊加消費電子復蘇，新一輪終端AI上新，相關行業(yè)正迎來具備較強持續(xù)性的上行周期；英偉

發(fā)表于 07-23 16:26 ?269次閱讀

英偉達AI芯片需求激增，封測廠訂單量或翻倍

在全球半導體行業(yè)持續(xù)演進的背景下，英偉達（NVIDIA）的AI芯片需求正迎來前所未有的增長。據(jù)悉，英偉達

發(fā)表于 06-24 18:05 ?1515次閱讀

英偉達推出AI模型推理服務NVIDIA NIM

英偉達近日宣布推出一項革命性的AI模型推理服務——NVIDIA NIM。這項服務將極大地簡化AI模型部署過程，為全球的2800萬

發(fā)表于 06-04 09:15 ?577次閱讀

英偉達首席執(zhí)行官黃仁勛：AI模型推動英偉達AI芯片需求

近來，以ChatGPT為代表的AI聊天機器人已經(jīng)導致英偉達AI芯片供應緊張。然而，隨著能夠創(chuàng)造視頻并進行近似人類交流的新型

發(fā)表于 05-24 10:04 ?417次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

2024年3月19日，[英偉達]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構BLACKWELL，并推出基于該架構的超級

發(fā)表于 05-13 17:16

英偉達被控延遲出貨，阻礙競爭

據(jù)報道，若發(fā)現(xiàn)客戶尋找新的商業(yè)發(fā)展機遇，英偉達可能因此推遲數(shù)據(jù)中心GPU的出貨。Groq這家人工智能芯片初創(chuàng)企業(yè)的首席執(zhí)行官羅斯（Jonathan Ross）則表示，由于擔心遭到

發(fā)表于 02-29 09:53 ?450次閱讀

“網(wǎng)紅”芯片Groq讓英偉達蒸發(fā)5600億

鑒于ChatGPT的廣泛應用，引發(fā)了AI算力需求的迅猛增長，使得英偉達的AI芯片供不應求，出現(xiàn)大規(guī)模短缺。如今，

發(fā)表于 02-27 15:10 ?1006次閱讀

英偉達為什么要下場定制ASIC芯片？英偉達能稱霸嗎？

最近，有消息傳出英偉達正在建立一個新的業(yè)務部門，這個部門專注為云計算公司和其他公司設計定制芯片（ASIC）。

發(fā)表于 02-25 16:33 ?1410次閱讀

英偉達涉足定制芯片，聚焦云計算與AI市場

　作為全球高端AI芯片市場80%份額的霸主，英偉達自2023以來股價上漲超過兩倍，2024年市值高達1.73萬億美元。知名公司如微軟、OpenAI、Meta紛紛采購

發(fā)表于 02-18 11:08 ?581次閱讀

英偉達特供版芯片性能降80%！

報道中提到，英偉達的這三款AI芯片并非“改良版”，而是“縮水版”，其分別是HGX H20、L20 PCle和L2 PCle。用于AI模型訓練

發(fā)表于 11-14 17:09 ?856次閱讀

搜索歷史

英偉達要小心了！爆火的Groq芯片能翻盤嗎？AI推理速度「吊打」英偉達？

評論

刷屏的Groq芯片，速度遠超英偉達GPU！成本卻遭質(zhì)疑

英偉達市值飆升，逼近蘋果

英偉達Blackwell架構揭秘：下一個AI計算里程碑？# 英偉達# 英偉達Blackwell

AI芯片巨頭英偉達漲超4% 英偉達市值暴增7500億

英偉達TITAN AI顯卡曝光，性能狂超RTX 4090達63%！# 英偉達# 顯卡

英偉達帶領芯片股飆升英偉達大漲4.76%

英偉達AI芯片需求激增，封測廠訂單量或翻倍

英偉達推出AI模型推理服務NVIDIA NIM

英偉達首席執(zhí)行官黃仁勛：AI模型推動英偉達AI芯片需求

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

英偉達被控延遲出貨，阻礙競爭

“網(wǎng)紅”芯片Groq讓英偉達蒸發(fā)5600億

英偉達為什么要下場定制ASIC芯片？英偉達能稱霸嗎？

英偉達涉足定制芯片，聚焦云計算與AI市場

英偉達特供版芯片性能降80%！

搜索歷史

英偉達要小心了！爆火的Groq芯片能翻盤嗎？AI推理速度「吊打」英偉達？

評論

英偉達要小心了！爆火的Groq芯片能翻盤嗎？AI推理速度「吊打」英偉達？