0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

下一代深度學(xué)習(xí)加速器:英特爾Xe

佐思汽車研究 ? 來源:YXQ ? 2019-05-24 10:20 ? 次閱讀

在超算領(lǐng)域,中美之間無聲的競(jìng)爭(zhēng)還在進(jìn)行中,2018年美國憑借橡樹嶺國家實(shí)驗(yàn)室的Summit超算奪回了失落5年的TOP500冠軍寶座。在HPC超算市場(chǎng)上,關(guān)鍵的還是下一代百億億次超算,也就是Exascale超算,目前中國有三套E級(jí)超算,而英特爾、Cray公司在2019年3月17日獲得了美國能源部5億美元的合同。

美國能源部長里克佩里說:“實(shí)現(xiàn)百億億次超算是必不可少的,它不僅可以提升科學(xué)計(jì)算,還要改善美國人的日常生活?!薄癆urora及下一代百億億次超算將HPC、AI等技術(shù)應(yīng)用于癌癥研究、氣候模擬、退伍軍人健康治療等領(lǐng)域,基于百億億次超算的創(chuàng)新將會(huì)對(duì)我們的社會(huì)產(chǎn)生極為重要的影響?!泵绹着_(tái)百億億次超算將大量應(yīng)用英特爾的最新技術(shù),主處理器是下一代Xeon至強(qiáng),還有新一代Xe加速卡、OptaneDC內(nèi)存、秘密武器CXL以及英特爾的OneAI軟件,而整個(gè)系統(tǒng)則是基于Cray公司的Shasta系統(tǒng),包括至少200個(gè)機(jī)柜、Slingshot高性能可擴(kuò)展互聯(lián)架構(gòu)及Shasta軟件堆棧。

該項(xiàng)目計(jì)劃在2021年的時(shí)間內(nèi)完成,并且每秒能夠進(jìn)行Quintillion的運(yùn)算,即400 petaflops。從這個(gè)角度來看,這比Million浮點(diǎn)運(yùn)算高出一百萬倍 - 而平均每個(gè)處理器的約為200 GFLOP。這筆交易價(jià)值5億美元,其中Cray將獲得1.46億美元的資金,而Intel將獲得剩余的3.54億美元。

圖一:Aurora技術(shù)革新(圖片來源:英特爾

從上圖可以看出Xe 是加速器,但目前還不清楚Quintillionops mark的功率分布。

圖二:英特爾GPU可擴(kuò)展性(來源:英特爾

英特爾野心勃勃,Xe將從10nm節(jié)點(diǎn)開始,為未來幾代圖形奠定基礎(chǔ),并將遵循Intel的單一堆棧軟件哲學(xué),即希望軟件開發(fā)人員能夠利用CPU、GPU、FPGA和AI,所有這些都使用同一套API,英特爾稱之為One API,One API作為Direct3D層和GPU之間的中介(據(jù)稱他們也有Linux解決方案),并允許用戶無縫擴(kuò)展多個(gè)GPU。這表明Intel也準(zhǔn)備打造一個(gè)類似CUDA的生態(tài)系統(tǒng)。

圖三:英特爾Xe路線圖(圖片來源:英特爾

不過這些都不是重點(diǎn),英特爾將第一次在GPU領(lǐng)域使用MCM封裝形式,這正是英偉達(dá)夢(mèng)寐以求的技術(shù),而英特爾即將量產(chǎn),第一批X2 GPU的暫定時(shí)間表也已經(jīng)公布:2020年6月31日。隨后是2021年的X4。看起來Intel計(jì)劃每年增加兩個(gè)核心,所以到2024年應(yīng)該會(huì)到X8。

Xe將是英特爾異構(gòu)計(jì)算的關(guān)鍵構(gòu)成,之前英特爾對(duì)GPU加速一直持懷疑態(tài)度,但自從有了Xe后,英特爾改變了態(tài)度,英特爾Xe將加強(qiáng)英特爾以數(shù)據(jù)為中心的廣泛產(chǎn)品組合,為最廣泛的計(jì)算工作負(fù)載提供領(lǐng)先的產(chǎn)品,滿足其對(duì)標(biāo)量、矢量、矩陣和空間計(jì)算架構(gòu)的綜合需求。但英特爾并未透露太多細(xì)節(jié),不過從Aurora采購Xe即可看出,GPU加速已經(jīng)被英特爾認(rèn)同。

目前制造高性能 GPU 有一個(gè)很嚴(yán)重的限制 — 「芯片尺寸的限制」,因?yàn)槟壳艾F(xiàn)有技術(shù)的***受限于光刻模板、光刻光源,幾乎不可能制造出更大的 GPU 核心,極限是800平方毫米。即使英偉達(dá)的技術(shù)如何進(jìn)步,核心尺寸不能無止境變大已經(jīng)成為英偉達(dá) 繼續(xù)提升 GPU 性能的瓶頸。MCM 的封裝方式與 NANDFlash 的做法有點(diǎn)類似,容量不夠就將 Layer堆棧起來,除了制造方式簡單且具成本優(yōu)勢(shì)之外,還可以提高產(chǎn)品的性能。

此外隨著CPU核心數(shù)逐漸從個(gè)位數(shù)提升到十位數(shù)范圍,monolithic多核心的局限越來越大,除了制造難度大、良率低的問題,也因?yàn)樗粔蜢`活,因?yàn)樘幚砥鞒撕诵臄?shù)量之外,還要考慮到內(nèi)存信道、PCIe信道等IO核心的搭配,英特爾的Skylake-SP架構(gòu)所示,為了配合不同核心的處理器,英特爾在它上面使用了XCC、LCC、HCC三種不同的內(nèi)部架構(gòu),這樣做無疑是增加了芯片的復(fù)雜性。

圖四:英偉達(dá)RC-18 GPU陣列(圖片來源:英偉達(dá)

英偉達(dá)為了應(yīng)付 GPU 核心面積的瓶頸,已計(jì)劃開發(fā)一個(gè)名為「RC 18」的多矩陣概念,以最優(yōu)化的方式整合多個(gè) GPU 模塊,達(dá)至最高流處理器數(shù)、減少通訊層級(jí)和鏈路長度,并可以縮小芯片面積。根據(jù)英偉達(dá)研究部主管 William J. Dally的說法,「RC-18」是為深度學(xué)習(xí)執(zhí)行和實(shí)現(xiàn)可擴(kuò)展性的實(shí)驗(yàn),每個(gè)芯片內(nèi)部具有基于TSMC 16nm 工藝及承載 8700 萬個(gè)晶體管的 16 個(gè) PE(處理組件),因此可以從非常小的尺寸中擴(kuò)展。16 個(gè) PE 用于控制 CPU Core,片上全局緩沖儲(chǔ)存器,并安裝了八個(gè) GRS 鏈路。在實(shí)際芯片中,GRS 鏈路組占據(jù)相當(dāng)大的面積,每芯片 GRS 的 I/O 帶寬達(dá)到 100 GB/s。

圖五:英偉達(dá)RC18內(nèi)部框架圖(圖片來源:英偉達(dá)

英偉達(dá)的RC18概念設(shè)計(jì)。英偉達(dá)目前RC18概念產(chǎn)品只做到了8700萬個(gè)晶體管,與GPU動(dòng)輒百億級(jí)晶體管相比,差距至少有5年,目前英偉達(dá)將精力全部轉(zhuǎn)移到光線追蹤上,靠RT核來做賣點(diǎn),只字不提曾經(jīng)信誓旦旦的MCM。而英特爾的MCM成功了,畢竟英特爾在芯片封裝領(lǐng)域技術(shù)積累遠(yuǎn)比英偉達(dá)要深厚的多。

AMD在CPU上大量運(yùn)用MCM技術(shù),但是在GPU上始終無法突破量產(chǎn)工藝瓶頸,理論上似乎很簡單,但就是良率太低,無法量產(chǎn)。這是因?yàn)锳MD沒有自己的晶圓廠,從未從事過芯片封裝,芯片封裝都是交給第三方,而英特爾擁有全球最大的晶圓廠,也擁有最優(yōu)秀的芯片封裝工藝,當(dāng)然這背后是日本廠家新光電氣和Ibiden的鼎力支持,日本在封裝材料和工藝方面擁有絕對(duì)優(yōu)勢(shì)。同時(shí)英特爾還有自己的Flash存儲(chǔ)器晶圓廠??梢越梃bFlash存儲(chǔ)器的MCM封裝經(jīng)驗(yàn)。

MCM不僅性能一流,同時(shí)也成本大幅度降低,AMD透露,如果將32核封裝到一塊芯片中成本是1,那它們的MCM方式只有0.59,換言之,節(jié)省了41%的成本。MCM還允許一個(gè)芯片中使用不同工藝的die(裸晶),比如I/O部分不需要那么先進(jìn)的工藝,28納米足夠,CPU部分就用7納米,不僅降低成本,還復(fù)用了以前的I/O設(shè)計(jì),降低先進(jìn)制程工藝的風(fēng)險(xiǎn),研發(fā)成果復(fù)用率高,縮短研發(fā)周期等。

圖六:單一架構(gòu)和MCM對(duì)比(圖片來源:AMD

上圖為AMD MCM與單芯片對(duì)比。

英特爾Xe 2 GPU性能見上表。性價(jià)比極高。

為配合MCM,英特爾在軟件方面也有所動(dòng)作,英特爾2019年4月9日舉行了Interconnect Day 2019 ,當(dāng)中詳細(xì)介紹了處理器與處理器之間的Compute Express Link(CXL)超高速互聯(lián)新標(biāo)準(zhǔn)。雖然現(xiàn)階段構(gòu)思僅供數(shù)據(jù)中心的服務(wù)器使用,顯然這也是為GPU準(zhǔn)備的。英特爾 CXL 標(biāo)準(zhǔn)的原意——作為 CPU 與 Accelerator 加速器(如 FPGA / GPU 顯示適配器)之間的互聯(lián)通信

一直以來, CPU 都是透過主板上的 PCIe插槽及 PCIe 協(xié)議與顯示適配器溝通,但當(dāng)英特爾 聯(lián)合阿里巴巴、 Cisco、 Dell EMC 、 Facebook 、 Google 、 HPE 、華為及微軟組成強(qiáng)大陣容的聯(lián)盟后,就發(fā)表了 CXL 的開放標(biāo)準(zhǔn),以解決目前 PCIe 協(xié)議于 CPU 與顯示適配器之間的高延遲及帶寬不足的問題。透過 CXL 協(xié)議, CPU 與 GPU 之間就形同連成單一個(gè)龐大的堆棧內(nèi)存池( Stacked Memory ), CPU Cache 和 GPU HBM2 內(nèi)存猶如放在一起,有效降低兩者之間的延遲,故此能大幅提升數(shù)據(jù)運(yùn)算效率,令A(yù)I人工智能、機(jī)器學(xué)習(xí)、媒體服務(wù)、高效能運(yùn)算( HPC )及云端服務(wù)變得非常快速。

MCM沒有理論上的突破,突破的只是制造工藝,MCM在奔騰時(shí)代已經(jīng)出現(xiàn)過了,而今monolithic多核已經(jīng)走到了極限,唯有MCM能救場(chǎng)。而在服務(wù)器用CPU領(lǐng)域,MCM將可能是唯一方向,典型的如Cascade Lake-AP 48核處理器,它實(shí)際上是兩個(gè)24核的Cascade Lake處理器通過MCM方式組合出來的,也不是原生48核。如今的MCM多芯片設(shè)計(jì)在技術(shù)水平上也跟當(dāng)年簡單粗暴的膠水多核不一樣了,主要擔(dān)心的延遲問題上,英特爾之前提到他們的EMIB技術(shù)相比單片電路的延遲只增加了10%,而別的技術(shù)方案中延遲甚至?xí)黾?0%之多。

monolithic多核的困境實(shí)際上是整個(gè)人類面臨的瓶頸,近百年來,人類在物理學(xué)體系理論上未有任何突破,只是在細(xì)枝末節(jié)上做修修補(bǔ)補(bǔ),所謂人工智能不過是概率論,幾十年甚至近百年前的理論還是根基,所謂提升,不過是算力成指數(shù)倍的堆砌。

另外,供應(yīng)鏈的重要性一再凸顯,那種追求短平快,強(qiáng)調(diào)分工,只做自己擅長的戰(zhàn)略長遠(yuǎn)上必然會(huì)遇到無法超越的瓶頸,英偉達(dá)和AMD無法戰(zhàn)勝英特爾,不再技術(shù)層面,而是供應(yīng)鏈層面。這么多年以來,AMD都是努力追趕英特爾,但AMD將工廠賣掉之后是個(gè)純粹的Fabless,需要看Foundry晶圓代工廠的臉色,晶圓代工廠自然要優(yōu)先照顧大客戶,臺(tái)積電自然要優(yōu)先照顧蘋果、華為和高通,遇上產(chǎn)能吃緊,AMD的訂單就會(huì)往后排。這就意味著AMD的供貨不夠穩(wěn)定,或者說AMD無法掌控產(chǎn)量,對(duì)下游整機(jī)廠來說,有可能導(dǎo)致旺季缺貨,這是個(gè)致命的缺點(diǎn),特別是淡旺季分明的筆記本電腦CPU領(lǐng)域,英特爾一直擁有絕對(duì)優(yōu)勢(shì)。英特爾單靠全球最大的12英寸晶圓產(chǎn)能也足以擁有在半導(dǎo)體領(lǐng)域的霸主位置。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    60

    文章

    9816

    瀏覽量

    171114
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5431

    瀏覽量

    120790

原文標(biāo)題:下一代深度學(xué)習(xí)加速器:英特爾Xe

文章出處:【微信號(hào):zuosiqiche,微信公眾號(hào):佐思汽車研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    英特爾發(fā)布Gaudi3 AI加速器,押注低成本優(yōu)勢(shì)挑戰(zhàn)市場(chǎng)

    英特爾近期震撼發(fā)布了專為AI工作負(fù)載設(shè)計(jì)的Gaudi3加速器,這款新芯片雖在速度上不及英偉達(dá)熱門型號(hào)H100與H200 GPU,但英特爾巧妙地將競(jìng)爭(zhēng)優(yōu)勢(shì)聚焦于其更為親民的價(jià)格與總擁有成本(TCO)上。
    的頭像 發(fā)表于 09-26 16:16 ?656次閱讀

    英特爾下代 CPU 還值得信任嗎?

    市場(chǎng)競(jìng)爭(zhēng)加劇和技術(shù)迭代加速,英特爾面臨著前所未有的挑戰(zhàn)。在這樣的背景下,我們不禁要問:英特爾下一代CPU是否還值得我們的信任?
    的頭像 發(fā)表于 09-04 13:57 ?222次閱讀
    <b class='flag-5'>英特爾</b>下代 CPU 還值得信任嗎?

    下一代高功能新一代AI加速器(DRP-AI3):10x在高級(jí)AI系統(tǒng)高級(jí)AI中更快的嵌入處理

    電子發(fā)燒友網(wǎng)站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高級(jí)AI系統(tǒng)高級(jí)AI中更快的嵌入處理.pdf》資料免費(fèi)下載
    發(fā)表于 08-15 11:06 ?0次下載
    <b class='flag-5'>下一代</b>高功能新<b class='flag-5'>一代</b>AI<b class='flag-5'>加速器</b>(DRP-AI3):10x在高級(jí)AI系統(tǒng)高級(jí)AI中更快的嵌入處理

    龍芯中科胡偉武:3B6600 八核桌面 CPU 性能將達(dá)到英特爾中高端酷睿 12~13 水平

    據(jù)稱龍芯中科目前正在研發(fā)下一代桌面端處理 3B6600 與 3B7000 系列,在本月《中國電子報(bào)》透露的采訪中,龍芯中科董事長胡偉武透露了關(guān)于新處理的更多信息。 胡偉武稱,龍芯于2023 年
    發(fā)表于 08-13 11:16

    英特爾發(fā)布AI創(chuàng)作應(yīng)用AI Playground,將于今夏正式上線!

    在2024年臺(tái)北國際電腦展上,英特爾詳細(xì)介紹了即將推出的Lunar Lake系列產(chǎn)品,并展示了下一代英特爾銳炫GPU(代號(hào)為Battlemage)的基礎(chǔ)架構(gòu)Xe2。此外,
    的頭像 發(fā)表于 06-14 09:44 ?360次閱讀
    <b class='flag-5'>英特爾</b>發(fā)布AI創(chuàng)作應(yīng)用AI Playground,將于今夏正式上線!

    英特爾加大玻璃基板技術(shù)布局力度

    近日,全球領(lǐng)先的半導(dǎo)體制造商英特爾宣布,將大幅增加對(duì)多家設(shè)備和材料供應(yīng)商的訂單,旨在生產(chǎn)基于玻璃基板技術(shù)的下一代先進(jìn)封裝產(chǎn)品。這戰(zhàn)略舉措預(yù)示著英特爾對(duì)于未來封裝技術(shù)的
    的頭像 發(fā)表于 05-20 11:10 ?453次閱讀

    使用英特爾Agilex3和Agilex5器件構(gòu)建下一代數(shù)據(jù)中心平臺(tái)管理方案

    憑借小巧的外形和高 I/O 規(guī)模等優(yōu)勢(shì),低功耗、高度靈活且經(jīng)過成本優(yōu)化的英特爾 Agilex 3 和英特爾 Agilex 5 FPGA 以及 SoC FPGA 提供了下一代平臺(tái)管理解決方案所需的功能和特性。
    的頭像 發(fā)表于 04-26 14:31 ?862次閱讀
    使用<b class='flag-5'>英特爾</b>Agilex3和Agilex5器件構(gòu)建<b class='flag-5'>下一代</b>數(shù)據(jù)中心平臺(tái)管理方案

    英特爾展示下一代至強(qiáng)處理,助力vRAN性能顯著提升

    里程碑事件不僅凸顯了移動(dòng)行業(yè)推動(dòng)vRAN和Open RAN發(fā)展的長期投入,也表明了英特爾正在持續(xù)踐行其以領(lǐng)先的產(chǎn)品路線圖助力行業(yè)發(fā)展的堅(jiān)定承諾。代號(hào)為Granite Rapids–D的下一代至強(qiáng)處理將于2025年發(fā)布,這款處理
    的頭像 發(fā)表于 03-01 15:43 ?343次閱讀
    <b class='flag-5'>英特爾</b>展示<b class='flag-5'>下一代</b>至強(qiáng)處理<b class='flag-5'>器</b>,助力vRAN性能顯著提升

    Sarcina Technology加入英特爾聯(lián)盟

    加速器設(shè)計(jì)服務(wù)聯(lián)盟。 Sarcina Technology已加入英特爾代工服務(wù),并將其先進(jìn)的封裝專業(yè)知識(shí)引入英特爾代工服務(wù)加速器設(shè)計(jì)服務(wù)聯(lián)盟。其針對(duì)人工智能應(yīng)用的2.5D硅中介層封裝
    的頭像 發(fā)表于 02-05 12:05 ?341次閱讀

    英特爾子公司Mobileye與馬興達(dá)合作打造下一代智能駕駛技術(shù)

    美國芯片巨頭英特爾的子公司Mobileye,近日宣布與印度汽車制造商馬興達(dá)拉(Mahindra & Mahindra)達(dá)成項(xiàng)重要合作。根據(jù)協(xié)議,Mobileye將為馬興達(dá)拉的下一代汽車提供先進(jìn)的駕駛輔助系統(tǒng)(ADAS)技術(shù)。
    的頭像 發(fā)表于 01-12 17:05 ?982次閱讀

    Valens與英特爾宣布建立戰(zhàn)略合作關(guān)系,共同開發(fā)下一代A-PHY產(chǎn)品

    MIPI A-PHY標(biāo)準(zhǔn)的芯片組,以滿足市場(chǎng)對(duì)這創(chuàng)新連接解決方案的強(qiáng)勁需求。雙方合作的起點(diǎn)是通過英特爾的領(lǐng)先技術(shù)在汽車行業(yè)開發(fā)下一代A-PHY產(chǎn)品,本次合作進(jìn)步加強(qiáng)了Valens和
    的頭像 發(fā)表于 01-09 11:38 ?664次閱讀

    英特爾專家為您揭秘第五英特爾? 至強(qiáng)? 可擴(kuò)展處理如何為AI加速

    % 1 ,AI 推理性能提升42% 2 。 這系列性能提升的背后,存在著怎樣的創(chuàng)新與突破?第五英特爾 至強(qiáng) 可擴(kuò)展處理為什么要強(qiáng)調(diào)為AI加速
    的頭像 發(fā)表于 12-23 12:20 ?670次閱讀

    英特爾推出新一代強(qiáng)大產(chǎn)品, 加速實(shí)現(xiàn) “AI 無處不在 ”

    英特爾? 酷睿? Ultra 和第五英特爾? 至強(qiáng)? 可擴(kuò)展處理豐富了英特爾出色的AI產(chǎn)品組合,加速
    發(fā)表于 12-16 16:27 ?400次閱讀
    <b class='flag-5'>英特爾</b>推出新<b class='flag-5'>一代</b>強(qiáng)大產(chǎn)品, <b class='flag-5'>加速</b>實(shí)現(xiàn) “AI 無處不在 ”

    英特爾Gaudi 3系列AI加速器明年上市

    英特爾總裁帕特·基辛格(Pat Gelsinger)認(rèn)為,鑒于英特爾Gaudi3具備的持續(xù)加強(qiáng)的性能優(yōu)勢(shì)和極具競(jìng)爭(zhēng)性的TCO及定價(jià)機(jī)制,預(yù)測(cè)該產(chǎn)品有望在2024年憑借領(lǐng)先的AI加速器套件占據(jù)更大的市場(chǎng)份額。
    的頭像 發(fā)表于 12-15 11:07 ?719次閱讀

    #高通 #英特爾 #Elite 高通X Elite芯片或終結(jié)蘋果、英特爾的芯片王朝

    高通英特爾蘋果
    深圳市浮思特科技有限公司
    發(fā)布于 :2023年10月27日 16:46:07