老熟女一区二区高清视频,√天堂中文www官网,欧美午夜在线

（文章來源：機(jī)器之心Pro）

2016 年底，谷歌 TPU 團(tuán)隊(duì)的十位核心開發(fā)者中的八位悄悄離職，創(chuàng)辦了一家名為 Groq 的機(jī)器學(xué)習(xí)系統(tǒng)公司。在此后的三年里，這家公司一直很低調(diào)。但最近，他們帶著一款名為 TSP 的芯片架構(gòu)出現(xiàn)在公眾視野里。

TSP 的全稱是 Tensor Streaming Processor，專為機(jī)器學(xué)習(xí)等 AI 相關(guān)需求打造。該架構(gòu)在單塊芯片上可以實(shí)現(xiàn)每秒 1000 萬億（10 的 15 次方）次運(yùn)算，是全球首個實(shí)現(xiàn)該級別性能的架構(gòu)，其浮點(diǎn)運(yùn)算性能可達(dá)每秒 250 萬億次（TFLOPS）。在摩爾定律走向消亡的背景下，這一架構(gòu)的問世標(biāo)志著芯片之爭從晶體管轉(zhuǎn)向架構(gòu)。

250 TFLOPS 浮點(diǎn)運(yùn)算性能是什么概念？目前的世界第一超級計(jì)算機(jī) Summit，其峰值算力為 200,794.9 TFLOPS，它的背后是 28,000 塊英偉達(dá) Volta GPU。如果 TSP 達(dá)到了類似的效率，僅需 803 塊就可以實(shí)現(xiàn)同樣的性能。Groq 在一份白皮書中介紹了這項(xiàng)全新的架構(gòu)設(shè)計(jì)。此外，他們還將在于美國丹佛舉辦的第 23 屆國際超算高峰論壇上展示這一成果。

我們?yōu)檫@一行業(yè)和我們的客戶感到興奮，Groq 的聯(lián)合創(chuàng)始人和 CEO Jonathan Ross 表示。頂級 GPU 公司都在宣稱他們有望在未來幾年向用戶交付一款每秒百萬億次運(yùn)算性能的產(chǎn)品，但 Groq 現(xiàn)在就做到了，而且建立了一個新的性能標(biāo)準(zhǔn)。就低延遲和推理速度而言，Groq 的架構(gòu)比其他任何用于推理的架構(gòu)都要快許多倍。我們與用戶的互動證明了這一點(diǎn)。

Groq 的 TSP 架構(gòu)是專為計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和其他 AI 相關(guān)工作負(fù)載的性能要求設(shè)計(jì)的。對于一大批需要深度學(xué)習(xí)推理運(yùn)算的應(yīng)用來說，Groq 的解決方案是非常理想的選擇，Groq 的首席架構(gòu)師 Dennis Abts 表示，但除此之外，Groq 的架構(gòu)還能用于廣泛的工作負(fù)載。它的性能和簡潔性使其成為所有高性能即數(shù)據(jù)和計(jì)算密集型工作復(fù)雜的理想平臺。

Groq 的這款架構(gòu)受到軟件優(yōu)先（software first）理念的啟發(fā)。它在 Groq 開發(fā)的 TSP 中實(shí)現(xiàn)，為實(shí)現(xiàn)計(jì)算靈活性和大規(guī)模并行計(jì)算提供了一種新的范式，但沒有傳統(tǒng) GPU 和 CPU 架構(gòu)的限制和溝通開銷。在 Groq 的架構(gòu)中，Groq 編譯器負(fù)責(zé)編碼所有內(nèi)容：數(shù)據(jù)流入芯片，并在正確的時間和正確的地點(diǎn)插入，以確保計(jì)算實(shí)時進(jìn)行，沒有停頓。執(zhí)行規(guī)劃由軟件負(fù)責(zé)，這樣就可以釋放出原本要用于動態(tài)指令執(zhí)行的寶貴硬件資源。

在傳統(tǒng)的體系架構(gòu)中，將數(shù)據(jù)從 DRAM 移動到處理器需要大量的算力和時間，而且相同工作負(fù)載上的處理性能也是可變的。在典型的工作流中，開發(fā)人員通過反復(fù)運(yùn)行工作負(fù)載或程序來對其進(jìn)行配置和測試，以驗(yàn)證和度量其平均處理性能。由于處理器接收和發(fā)送數(shù)據(jù)的方式不同，這種處理可能會得到略有差別的結(jié)果，而開發(fā)人員的工作就是手動調(diào)整程序以達(dá)到預(yù)定的可靠性級別。

但有了 Groq 的硬件和軟件，編譯器就可以準(zhǔn)確地知道芯片的工作方式以及執(zhí)行每個計(jì)算所需的時間。編譯器在正確的時間將數(shù)據(jù)和指令移動到正確的位置，這樣就不會有延遲。到達(dá)硬件的指令流是完全編排好的，使得處理速度更快，而且可預(yù)測。

為了滿足深度學(xué)習(xí)等計(jì)算密集型任務(wù)的需求，芯片的設(shè)計(jì)似乎正在變得越來越復(fù)雜。但 Groq 認(rèn)為，這種趨勢從根本上就是錯誤的。他們在白皮書中指出，當(dāng)前處理器架構(gòu)的復(fù)雜性已經(jīng)成為阻礙開發(fā)者生產(chǎn)和 AI 應(yīng)用部署的主要障礙。當(dāng)前處理器的復(fù)雜性降低了開發(fā)者工作效率，再加上摩爾定律逐漸變慢，實(shí)現(xiàn)更高的計(jì)算性能變得越來越困難。

Groq 的芯片設(shè)計(jì)降低了傳統(tǒng)硬件開發(fā)的復(fù)雜度，因此開發(fā)者可以更加專注于算法（或解決其他問題），而不是為了硬件調(diào)整自己的解決方案。有了這種更加簡單的硬件設(shè)計(jì)，開發(fā)者無需進(jìn)行剖析研究（profiling），因此可以節(jié)省資源，更容易大規(guī)模部署 AI 應(yīng)用。與基于 CPU、GPU 和 FPGA 的傳統(tǒng)復(fù)雜架構(gòu)相比，Groq 的芯片還簡化了認(rèn)證和部署，使客戶能夠簡單而快速地實(shí)現(xiàn)可擴(kuò)展、單瓦高性能的系統(tǒng)。

Groq 的張量流架構(gòu)可以在任何需要的地方提供算力。與當(dāng)前領(lǐng)先的 GPU、CPU 相比，Groq 處理器的每個晶體管可以實(shí)現(xiàn) 3-6 倍的性能提升。這一改進(jìn)意味著交付性能的提升、延遲的下降以及成本的降低。結(jié)果是，Groq 的架構(gòu)使用起來更加簡單，而且性能高于傳統(tǒng)計(jì)算平臺。

（責(zé)任編輯：fqj）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
452

文章
49985

瀏覽量
419665
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6104

瀏覽量
104783

基于迅為RK3588開發(fā)板的AI圖像識別方案

源源不斷的動力。 ■ 無與倫比的視覺盛宴最高支持8K編碼+8K解碼，能夠同時處理多路視頻流，確保每一幀畫面都流暢如絲，細(xì)膩入微。 ■ 智馭未來的AI力量RK3588內(nèi)置了6Tops（即每秒處理6萬億

發(fā)表于 08-13 11:26

蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

蘋果公司最近在一篇技術(shù)論文中披露，其先進(jìn)的人工智能系統(tǒng)Apple Intelligence背后的兩個關(guān)鍵AI模型，是在谷歌設(shè)計(jì)的云端芯片上完成預(yù)訓(xùn)練的。這一消息標(biāo)志著在尖端AI訓(xùn)練領(lǐng)域

發(fā)表于 07-30 17:03 ?631次閱讀

解析OrangePi AIpro：什么是 TOPS，為什么它對?AI?PC很重要？

）的處理器（CPU），以提升人工智能特定性能。TOPS是“TeraOperationsPerSecond”（每秒萬億次運(yùn)算）的縮寫，它表示系統(tǒng)每秒

發(fā)表于 07-29 14:50 ?317次閱讀

英偉達(dá)加速AI芯片迭代，推出Rubin架構(gòu)計(jì)劃

在近日舉辦的COMPUTEX 2024展會上，英偉達(dá)CEO黃仁勛再次展現(xiàn)了公司在人工智能（AI）芯片領(lǐng)域的雄心壯志。他公布了下一代AI芯片架構(gòu)

發(fā)表于 06-03 11:36 ?736次閱讀

兩小時“吼出”121次AI，谷歌背后埋伏著Open AI的幽靈

谷歌做AI依舊不痛不癢谷歌和OpenAI的又一次對陣，剛剛落幕了。北京時間5月14日凌晨，OpenAI發(fā)布端到端多模態(tài)AI大模型GPT-4o

發(fā)表于 05-19 08:05 ?391次閱讀

單路運(yùn)算放大器芯片的作用是什么？

在電子工程領(lǐng)域，單路運(yùn)算放大器芯片是一款備受矚目的重要元件。被稱為“模擬電路的心臟”，其作用不可小覷。本文將帶您深入了解單路運(yùn)算放大器

發(fā)表于 05-16 14:18 ?652次閱讀

谷歌推新AI音樂工具，發(fā)布第六代TPU芯片

谷歌近日宣布與YouTube合作，推出全新音樂工具M(jìn)usic AI Sandbox。這款AI音樂創(chuàng)作工具將與傳統(tǒng)AI音樂應(yīng)用如Suno等展開

發(fā)表于 05-16 09:44 ?331次閱讀

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

千萬億次浮點(diǎn)運(yùn)算。英偉達(dá)還構(gòu)建了由72張GB200構(gòu)成的DGX GB200 NVL72[超級計(jì)算機(jī)]。該超級計(jì)算機(jī)在內(nèi)部節(jié)點(diǎn)間使用銅纜連接，以降低功耗。 Blackwell 圖形處理器采用雙

發(fā)表于 05-13 17:16

Cerebras發(fā)布WSE-3 AI芯片，性能翻倍達(dá)4萬億晶體，能耗不變

該款 WSE-3 AI芯片幾乎完全由一塊12英寸晶圓構(gòu)成，形如邊長21.5厘米之正方體。這款芯片設(shè)有90萬個 AI 內(nèi)核，理論上可輸出每秒1

發(fā)表于 03-18 16:37 ?793次閱讀

AI芯片的技術(shù)原理與架構(gòu)

人工神經(jīng)網(wǎng)絡(luò)模型 AI芯片的核心原理基于人工神經(jīng)網(wǎng)絡(luò)，其中芯片內(nèi)部的處理單元模擬了生物神經(jīng)元的工作機(jī)制。每一個處理單元能夠獨(dú)立進(jìn)行復(fù)雜的數(shù)學(xué)運(yùn)算，例如權(quán)重乘以輸入信號并累加，形成神經(jīng)元

發(fā)表于 03-12 11:27 ?3257次閱讀

谷歌發(fā)布全新AI模型Genie

谷歌近日發(fā)布了其全新的AI模型Genie，這一模型徹底改變了我們與數(shù)字世界的互動方式。Genie不僅可以接收文本提示、草圖或想法，還能將這些創(chuàng)意迅速轉(zhuǎn)化為一個可互動和玩耍的虛擬世界。

發(fā)表于 02-28 18:25 ?1577次閱讀

驍龍X Elite處理器在AI生成圖片性能超群，英特爾亦被超越

高通公司稱，該款處理器內(nèi)置AI協(xié)處理器（NPU），性能達(dá)到驚人的45 TOPS（每秒萬億次運(yùn)算）。視頻通過實(shí)例對比英特爾酷睿 Ultra 7

發(fā)表于 02-28 14:09 ?640次閱讀

谷歌推出AI擴(kuò)散模型Lumiere

近日，谷歌研究院重磅推出全新AI擴(kuò)散模型Lumiere，這款模型基于谷歌自主研發(fā)的“Space-Time U-Net”基礎(chǔ)架構(gòu)，旨在實(shí)現(xiàn)視頻

發(fā)表于 02-04 13:49 ?919次閱讀

谷歌發(fā)布全新AI SDK，簡化安卓應(yīng)用集成

谷歌破繭而出，全新發(fā)布 Google AI SDK，引領(lǐng) Android 應(yīng)用邁向高性能 AI 集成新時代。這次發(fā)布的 SDK，專門為 Android 應(yīng)用打造，將 Gemini Pr

發(fā)表于 01-03 14:18 ?731次閱讀

如何打破AI芯片壟斷霸權(quán)

其一，管制標(biāo)準(zhǔn)方面，用性能密度替代寬帶參數(shù)。禁止向中國出售運(yùn)行速度為300TFLOPS（一萬億運(yùn)算/秒）及以上的芯片，速度為150-300TFLOPS的芯片的性能密度為每平方毫米370

發(fā)表于 11-25 09:50 ?990次閱讀

搜索歷史

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運(yùn)算

評論

基于迅為RK3588開發(fā)板的AI圖像識別方案

蘋果承認(rèn)使用谷歌芯片來訓(xùn)練AI

解析OrangePi AIpro：什么是 TOPS，為什么它對?AI?PC很重要？

英偉達(dá)加速AI芯片迭代，推出Rubin架構(gòu)計(jì)劃

兩小時“吼出”121次AI，谷歌背后埋伏著Open AI的幽靈

單路運(yùn)算放大器芯片的作用是什么？

谷歌推新AI音樂工具，發(fā)布第六代TPU芯片

進(jìn)一步解讀英偉達(dá) Blackwell 架構(gòu)、NVlink及GB200 超級芯片

Cerebras發(fā)布WSE-3 AI芯片，性能翻倍達(dá)4萬億晶體，能耗不變

AI芯片的技術(shù)原理與架構(gòu)

谷歌發(fā)布全新AI模型Genie

驍龍X Elite處理器在AI生成圖片性能超群，英特爾亦被超越

谷歌推出AI擴(kuò)散模型Lumiere

谷歌發(fā)布全新AI SDK，簡化安卓應(yīng)用集成

如何打破AI芯片壟斷霸權(quán)

搜索歷史

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運(yùn)算

評論

谷歌全新AI架構(gòu)，單芯片每秒1000萬億次運(yùn)算