中日av無碼在線觀看,在线观看无码av免费不卡网站,国产成人久视频免费

電子發(fā)燒友網(wǎng)報道（文/周凱揚）深度學(xué)習硬件在AI時代已經(jīng)引領(lǐng)了不少設(shè)計創(chuàng)新，無論是簡單的邊緣推理，還是大規(guī)模自然語言模型的訓(xùn)練，都有了性能上的突破。作為業(yè)內(nèi)在深度學(xué)習上投入最多的公司之一，英偉達無疑是這類硬件的領(lǐng)軍者。

近日，在伯克利大學(xué)的電子工程與電腦科學(xué)學(xué)院研討會上，英偉達的首席科學(xué)家、研究部門高級副總裁同時兼任該校副教授的BillDally，分享了從他這個從業(yè)人士看來，發(fā)生在深度學(xué)習硬件上的一些趨勢。

硬件成為限制

AI的浪潮其實早在20世紀就被多次掀起過，但真正成為人們不可忽視的巨浪，還是這十幾年的事，因為這時候AI有了天時地利人和：算法與模型，大到足夠訓(xùn)練這些模型的數(shù)據(jù)集，以及能在合理的時間內(nèi)訓(xùn)練出這些模型的硬件。

但從帶起第一波深度學(xué)習的AlexNet，到如今的GPT-3和TuringNLG等，人們不斷在打造更大的數(shù)據(jù)集和更大的模型，加上大語言模型的興起，對訓(xùn)練的要求也就越來越高?？稍谀柖梢呀?jīng)放緩的當下，訓(xùn)練時間也在被拉長。

基于Hopper架構(gòu)的H100GPU/英偉達

以英偉達為例，到了帕斯卡這一代，他們才真正開始考慮單芯片的深度學(xué)習性能，并結(jié)合到GPU的設(shè)計中去，所以才有了Hopper這樣超高規(guī)格的AI硬件出現(xiàn)。但我們在訓(xùn)練這些模型的時候，并沒有在硬件規(guī)模上有所減少，仍然需要用到集成了數(shù)塊HopperGPU的DGX系統(tǒng)，甚至打造一個超算。很明顯，單從硬件這一個方向出發(fā)已經(jīng)有些不夠了，至少不是一個“高性價比”的方案。

軟硬件全棧投入

硬件推出后，仍要針對特定的模型進行進一步的軟件優(yōu)化，因此即便是同樣的硬件，其AI性能也會在未來呈現(xiàn)數(shù)倍的飛躍。從上個月的MLPerf的測試結(jié)果就可以看出，在A100GPU推出的2.5年內(nèi)，英偉達就靠軟件優(yōu)化實現(xiàn)了最高2.5倍的訓(xùn)練性能提升，當然了最大的性能提升還是得靠H100這樣的新硬件來實現(xiàn)。

BillDally表示這就是英偉達的優(yōu)勢所在，雖然這幾年投入進深度學(xué)習硬件的資本不少，但隨著經(jīng)濟下行，不少投資者已經(jīng)喪失了信心，所以不少AI硬件初創(chuàng)公司都沒能撐下去，他自己也在這段時間看到了不少向英偉達投遞過來的簡歷。

他認為不少這些公司都已經(jīng)打造出了自己的矩陣乘法器，但他們并沒有在軟件上有足夠的投入，所以即便他們一開始給出的指標很好看，也經(jīng)常拿英偉達的產(chǎn)品作為對比，未來的性能甚至比不過英偉達的上一代硬件，更別說Hopper這類新產(chǎn)品了。

加速器

相較傳統(tǒng)的通用計算硬件，加速器在深度學(xué)習上明顯要高效多了，因為加速器往往都是作為一種專用單元存在的，比如針對特定的數(shù)據(jù)類型和運算。加速器可以在一個運算周期內(nèi)就完成通常需要花上10秒或100秒才能完成的工作量，效率最高可提升1000倍。

A100和H100的MLPerf跑分/英偉達

當然了要追求純粹的性能提升，而不是效率提升的話，這些加速器也可以采用大規(guī)模并行設(shè)計，比如典型的32x32矩陣乘法單元，同時運行的運算有了千百倍的提升。加速器在內(nèi)存設(shè)計上也更具有優(yōu)勢，比如針對特定的數(shù)據(jù)結(jié)構(gòu)和運算，選擇優(yōu)化過的高帶寬低能耗內(nèi)存，同時盡可能使用本地內(nèi)存，減少數(shù)據(jù)搬運來控制開銷。

對于英偉達來說，他們在加速器上的研究更像是為GPU準備的試驗田，一旦有優(yōu)秀的成果出現(xiàn)，這些加速器就會成為GPU上的新核心。

小結(jié)

從BillDally的分享中，我們可以看出英偉達這樣的巨頭在深度學(xué)習上選擇的技術(shù)路線，以及他們?yōu)楹文茉诒姸喑鮿?chuàng)公司涌現(xiàn)、大廠入局的當下巋然不動的底氣。這并不是說深度學(xué)習硬件的道路只有這一條，類腦芯片等技術(shù)的出現(xiàn)也提供了新的破局機會，但有了前人經(jīng)驗的借鑒后，在兼顧性能、數(shù)值精度、模型的同時，還是得在軟件上下大功夫才行。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

計算

計算

+關(guān)注

關(guān)注
2

文章
440

瀏覽量
38678
AI

AI

+關(guān)注

關(guān)注
87

文章
29438

瀏覽量
267765
深度學(xué)習

深度學(xué)習

+關(guān)注

關(guān)注
73

文章
5442

瀏覽量
120803

FPGA加速深度學(xué)習模型的案例

FPGA（現(xiàn)場可編程門陣列）加速深度學(xué)習模型是當前硬件加速領(lǐng)域的一個熱門研究方向。以下是一些FPGA加速深度學(xué)習模型的案例：一、基于FPG

發(fā)表于 10-25 09:22 ?49次閱讀

AI大模型與深度學(xué)習的關(guān)系

AI大模型與深度學(xué)習之間存在著密不可分的關(guān)系，它們互為促進，相輔相成。以下是對兩者關(guān)系的介紹：一、深度學(xué)習是AI大模型的基礎(chǔ) 技術(shù)支撐：深度

發(fā)表于 10-23 15:25 ?150次閱讀

FPGA做深度學(xué)習能走多遠？

并行計算的能力，可以在硬件層面并行處理大量數(shù)據(jù)。這種并行處理能力使得 FPGA 在執(zhí)行深度學(xué)習算法時速度遠超傳統(tǒng)處理器，能夠提供更低的延遲和更高的吞吐量，從而加速模型訓(xùn)練和推理過程，滿足實時性要求較高

發(fā)表于 09-27 20:53

如何幫助孩子高效學(xué)習Python:開源硬件實踐是最優(yōu)選擇

家長們常常擔心孩子在學(xué)習Python時所面臨的挑戰(zhàn)，如復(fù)雜性、興趣保持、學(xué)習進度和可用資源。對于希望有效教授孩子Python的家長而言，了解硬件的作用至關(guān)重要，因為結(jié)合硬件項目的Pyt

發(fā)表于 09-06 09:49 ?200次閱讀

啟明智顯：深度融合AI技術(shù)，引領(lǐng)硬件產(chǎn)品全面智能化升級

啟明智顯，作為AI領(lǐng)域的先行者，正以前所未有的決心和行動力，深度融合先進的人工智能技術(shù)，引領(lǐng)硬件產(chǎn)品全面智能化升級

發(fā)表于 07-18 16:11 ?315次閱讀

深度學(xué)習中的時間序列分類方法

時間序列分類（Time Series Classification, TSC）是機器學(xué)習和深度學(xué)習領(lǐng)域的重要任務(wù)之一，廣泛應(yīng)用于人體活動識別、系統(tǒng)監(jiān)測、金融預(yù)測、醫(yī)療診斷等多個領(lǐng)域。隨著深度

發(fā)表于 07-09 15:54 ?556次閱讀

深度學(xué)習與nlp的區(qū)別在哪

深度學(xué)習和自然語言處理（NLP）是計算機科學(xué)領(lǐng)域中兩個非常重要的研究方向。它們之間既有聯(lián)系，也有區(qū)別。本文將介紹深度學(xué)習與NLP的區(qū)別。深度

發(fā)表于 07-05 09:47 ?666次閱讀

EVASH Ultra EEPROM：被美國權(quán)威雜志評為優(yōu)秀硬件存儲廠商

EVASH Ultra EEPROM：被美國權(quán)威雜志評為優(yōu)秀硬件存儲廠商

發(fā)表于 07-01 12:53 ?214次閱讀

EVASH Ultra EEPROM：被Google認定為五大硬件廠商之一

EVASH Ultra EEPROM：被Google認定為五大硬件廠商之一

發(fā)表于 07-01 12:47 ?242次閱讀

深度學(xué)習編譯工具鏈中的核心——圖優(yōu)化

深度神經(jīng)網(wǎng)絡(luò)模型可以看做由多個算子連接而成的有向無環(huán)圖，圖中每個算子代表一類操作（如乘法、卷積），連接各個算子的邊表示數(shù)據(jù)流動。在部署深度神經(jīng)網(wǎng)絡(luò)的過程中，為了適應(yīng)硬件平臺的優(yōu)化、硬件

發(fā)表于 05-16 14:24 ?669次閱讀

深度解析深度學(xué)習下的語義SLAM

隨著深度學(xué)習技術(shù)的興起，計算機視覺的許多傳統(tǒng)領(lǐng)域都取得了突破性進展，例如目標的檢測、識別和分類等領(lǐng)域。近年來，研究人員開始在視覺SLAM算法中引入深度學(xué)習技術(shù)，使得

發(fā)表于 04-23 17:18 ?1172次閱讀

FPGA在深度學(xué)習應(yīng)用中或?qū)⑷〈鶪PU

，這使得它比一般處理器更高效。但是，很難對 FPGA 進行編程，Larzul 希望通過自己公司開發(fā)的新平臺解決這個問題。專業(yè)的人工智能硬件已經(jīng)成為了一個獨立的產(chǎn)業(yè)，但對于什么是深度學(xué)習算法的最佳

發(fā)表于 03-21 15:19

目前主流的深度學(xué)習算法模型和應(yīng)用案例

深度學(xué)習在科學(xué)計算中獲得了廣泛的普及，其算法被廣泛用于解決復(fù)雜問題的行業(yè)。所有深度學(xué)習算法都使用不同類型的神經(jīng)網(wǎng)絡(luò)來執(zhí)行特定任務(wù)。

發(fā)表于 01-03 10:28 ?1514次閱讀

硬件測試

硬件測試

Spancer Huang
發(fā)布于 :2023年11月23日 19:00:50

硬件怎么學(xué)習?--硬件基礎(chǔ)入門需要哪些知識

計算機硬件

油潑辣子
發(fā)布于 :2023年11月23日 16:41:33