國產(chǎn)芯片的發(fā)展面臨兩個機(jī)遇。
首先是缺芯困局下,國產(chǎn)化替代的呼聲越來越高,這無疑給國內(nèi)芯片創(chuàng)業(yè)者提供了一個發(fā)展的緩沖期。對于 2020 年創(chuàng)業(yè)做大算力芯片的后摩智能創(chuàng)始人&CEO 吳強(qiáng)來說,「在芯片成長早期,這個條件是國內(nèi)獨(dú)有的,我在美國是不敢做芯片創(chuàng)業(yè)的?!?/strong>
而在人工智能快速發(fā)展的當(dāng)下,對于大算力的需求,給予了芯片創(chuàng)業(yè)新的機(jī)會。尤其是自動駕駛領(lǐng)域。
傳統(tǒng)汽車以控制為主,算力要求很小,而 L4 級別的自動駕駛就要求 1000T 以上的算力,不僅如此,汽車端的供電和散熱能力也對芯片的低功耗提出了新需求。雖然英偉達(dá)剛推出算力高達(dá) 2000T 的計算芯片 DRIVE Thor,但顯然不是所有的車型都能裝備這樣的芯片。
對于被「卡脖子」的國產(chǎn)芯片廠商來說,想要參與這場「算力大戰(zhàn)」,顯然也無法指望依靠制程工藝去實現(xiàn)芯片算力的提升。
在吳強(qiáng)看來,存算一體芯片可能是國產(chǎn)芯片算力彎道超車的機(jī)會。相比較傳統(tǒng)的馮·諾依曼架構(gòu)芯片,「存算一體」架構(gòu)能夠整合計算單元和存儲單元,優(yōu)化數(shù)據(jù)傳輸路徑,提高芯片算力天花板。在縮短系統(tǒng)響應(yīng)時間的同時,也在能效比上帶來了數(shù)量級的提升,更適合自動駕駛、泛機(jī)器人等邊緣端算力的需求場景。
存算一體芯片的成本優(yōu)勢從而何來?如今又在哪些行業(yè)得到落地?國內(nèi)芯片創(chuàng)業(yè)的機(jī)遇和差異化優(yōu)勢在哪里?在 9 月 28 日極客公園的 Rebuild 2022,極客公園創(chuàng)始人&總裁張鵬和吳強(qiáng)聊了聊存算一體大算力 AI 芯片的發(fā)展與未來前景。
01大算力下低成本的
解決方案
張鵬:存算一體到底是什么?會帶來哪些改變?
吳強(qiáng):簡單來說,存算一體是一種創(chuàng)新的計算芯片架構(gòu),相對于傳統(tǒng)計算和存儲分離的馮·諾依曼架構(gòu),存算一體更好地把存儲和計算融合在一起,把存儲和計算盡可能靠近,甚至完全融合,比如在存儲中進(jìn)行計算,這是存算一體的基本概念。
存算一體比較適合數(shù)據(jù)量很大的計算,例如當(dāng)下非?;鸬?AI 計算,它做 AI 計算是最高效的,對 AI 計算來說是非常通用的。很多人有所誤解,認(rèn)為存算一體是非常專用的 AI 芯片,其實不是,因為存算一體本質(zhì)上是乘加運(yùn)算的加速,做矩陣運(yùn)算會非常高效,矩陣運(yùn)算本身就占據(jù)了 AI 計算中百分之八九十的計算成分。基于此,可以做出很多系列化的指令,一些非常細(xì)微的指令甚至可以允許客戶自定義算子,那么就可以做出非常通用的 AI 芯片,類似于英偉達(dá)的芯片。
張鵬:存算一體的發(fā)展有哪些技術(shù)關(guān)鍵點(diǎn)?
吳強(qiáng):存算一體在學(xué)術(shù)界有十多年的歷史,一直在發(fā)展。最近幾年,學(xué)術(shù)界的一些技術(shù)突破到一定程度,可以應(yīng)用到更大算力的場景,比如智能駕駛或者主流的 AI 應(yīng)用場景,才有了后續(xù)商業(yè)化的一些嘗試。
首先從產(chǎn)業(yè)鏈的角度來說,是依賴于存儲介質(zhì)工藝,后摩智能目前的產(chǎn)品是基于 SRAM,我們還有下一代產(chǎn)品,基于其它一些存儲機(jī)制:MRAM、RRAM 等。存儲工藝依賴于上游廠商如臺積電等,他們在做一些工藝或者硬件層面的創(chuàng)新。目前 RRAM 在臺積電的成熟度屬于風(fēng)險等級,距離完全量產(chǎn)大約有兩年時間。這是產(chǎn)業(yè)鏈的依賴,但是 SRAM 是一個完全成熟的存儲介質(zhì),目前可以用作商業(yè)量產(chǎn)。
另外,存算一體是一種新的設(shè)計方式,是架構(gòu)創(chuàng)新,雖然之前學(xué)術(shù)界做了很多,但基本是以學(xué)術(shù)研究的方式在做,從學(xué)術(shù)到商業(yè)量產(chǎn)還有一定距離。后摩和其他一些創(chuàng)業(yè)企業(yè)更多是按照商業(yè)量產(chǎn)的標(biāo)準(zhǔn)去做,過去兩年,我們不斷探索,比如怎么做量產(chǎn),怎么做 DFT,怎么做冗余,怎么做自修復(fù),這些都是我們要解決的問題。包括跟 AI 芯片、架構(gòu)設(shè)計、編譯器以及算法之間的融合等。
存算一體架構(gòu)與傳統(tǒng)馮·諾依曼架構(gòu) | 來源:電子工程專輯網(wǎng)站
張鵬:存算一體的架構(gòu)能在成本上帶來優(yōu)勢嗎?
吳強(qiáng):算力越大越需要高成本,存算一體的一個優(yōu)勢是如果不依賴于先進(jìn)存儲工藝,或者不依賴于先進(jìn)的封裝技術(shù),像 HBM 的 2.5D 內(nèi)存封裝技術(shù),也能把算力做上去,也能滿足智能化訴求,這樣成本能控制下來,比如降到一半的成本,也許十多萬的車就能用得起幾百 T 算力的芯片。所以我們首先想的不是通過堆工藝或者其他東西把算力做上去,而是通過底層架構(gòu)的創(chuàng)新,把算力做上去,成本又不增加,讓更多的平價車能夠用到更智能的自動駕駛技術(shù)。
第二,如果功耗低,散熱就會簡單,不像之前需要很多資金或者增加系統(tǒng)的復(fù)雜性。從這幾方面,我們希望能夠給智能駕駛的用戶提供一個不一樣的芯片。
張鵬:存算一體的大芯片對芯片工藝的要求更高嗎?
吳強(qiáng):存算一體是架構(gòu)的創(chuàng)新,工藝是兩個維度的事情。首先好的工藝肯定是好事,我們現(xiàn)在也會用先進(jìn)工藝,因為本身是疊加的工藝,如果沒有先進(jìn)工藝,比如某一天國內(nèi)所有玩家必須退回到 28 納米,對存算一體來說,對先進(jìn)工藝依賴度其實是更低的。相對于常規(guī)的設(shè)計方式,這是我們的一個優(yōu)勢。
張鵬:感存算一體最近討論也比較熱,你們?nèi)绾慰创?/strong>
吳強(qiáng):感存算一體就是把傳感器、內(nèi)存更好地結(jié)合,以便更好地計算。這是一個比較新的概念,最近幾年學(xué)術(shù)界研究比較多。目前感存算不管是算力還是存儲量相對都比較小,數(shù)據(jù)處理方式和功能相對來說比較有限,比較適合 AR、IoT 等場景,還不太適合大算力場景,暫時我們不會往這個方向走,但會密切關(guān)注。
02、國產(chǎn)化替代的需求
催生了芯片創(chuàng)業(yè)
張鵬:決定在 2020 年創(chuàng)業(yè)的考慮是什么?是有什么新的技術(shù)突破嗎?
吳強(qiáng):第一點(diǎn)是技術(shù)上的突破,傳統(tǒng)的存算一體是基于一些傳統(tǒng)的存儲介質(zhì),比如 Nor Flash,Nor Flash 本身只適合做小算力的場景如語音等。2017-2018 年開始,存算一體技術(shù)開始突破做大算力,基于 SRAM 去做,SRAM 和其他一些存儲介質(zhì)更適合大算力。首先以臺積電張孟凡老師為代表的學(xué)術(shù)界,把整個電路設(shè)計做了一些突破,讓做大算力的存算一體變得有可能。
第二點(diǎn)是需求方面剛好發(fā)展到一個階段,不管是智能駕駛,還是云端,對算力要求越來越大,行業(yè)內(nèi)也遇到了一些瓶頸和痛點(diǎn)。我之前的工作做過 CPU、GPU,后來也做 AI 芯片,發(fā)現(xiàn)很多時候算力上不去,不是計算部分不行,而是帶寬變成了一個瓶頸,很多時候處于計算等待數(shù)據(jù)傳輸?shù)臓顟B(tài)。想提高算力就要優(yōu)化帶寬,這是一個痛點(diǎn),我們也一直在思考怎么解決數(shù)據(jù)帶寬這個瓶頸問題。
在創(chuàng)業(yè)初期,創(chuàng)始團(tuán)隊大概有兩撥人,一撥人是存算一體的大牛,一直在做存算一體,尤其是大數(shù)量存算一體技術(shù)。另一撥人像我一樣是一直做大芯片的,CPU、GPU、AI 芯片等。我們在一起頭腦風(fēng)暴之后,覺得存算一體已經(jīng)到了一個節(jié)點(diǎn),可以商業(yè)落地,發(fā)展到足夠成熟的地步,可以解決一些現(xiàn)實的痛點(diǎn)。另一方面,需求方對傳統(tǒng)芯片設(shè)計有越來越高的要求,很多痛點(diǎn)沒法解決,用存算一體也許可以解決這些問題。后摩智能在 2020 年創(chuàng)立的時候,是國內(nèi)第一個用存算一體做大算力的企業(yè),也是唯一的一家?,F(xiàn)在存算一體越來越火,我們也很高興看到更多公司一起加入這個賽道。
張鵬:創(chuàng)業(yè)做一家芯片公司,當(dāng)時是怎么評估可行性的?
吳強(qiáng):之前在硅谷生活了很多年,見證了國際芯片巨頭的發(fā)展。首先做芯片是很難的一件事,國內(nèi)的芯片創(chuàng)業(yè)公司特別多,為什么國外沒有那么多芯片創(chuàng)業(yè)公司?首先芯片的創(chuàng)業(yè)需要很多高級人才,人才密集以及資本密集,落地時間相對來說比較長。在國外純商業(yè)的環(huán)境下,很難做商業(yè)創(chuàng)業(yè)。這也是為什么美國從 2010 年以后,真正的芯片創(chuàng)業(yè)公司沒有幾個,當(dāng)然有一些大牛,像吉姆·凱勒 (Jim Keller,Apple A4、A5 處理器和 AMD Zen 系列處理器的主設(shè)計師),但是大家都還沒有跑出來。
中國有個天生的優(yōu)勢,我們有國產(chǎn)替代的訴求,國家重視,給了芯片創(chuàng)業(yè)的企業(yè)足夠的成長空間,這是非常重要的。在芯片成長早期,這個條件是國內(nèi)獨(dú)有的,我在美國是不敢做芯片創(chuàng)業(yè)的。但是在國內(nèi)特別是 2020 年左右有這樣的契機(jī),雖然并不能保證一定成功,畢竟只是給你一個機(jī)會,最終還是要做出回歸商業(yè)本質(zhì)的產(chǎn)品。
所以還是要產(chǎn)品的差異化方面做得更好,怎樣做出一個東西,即使拿去跟英偉達(dá)相比,仍然具備一定的差異化,在局部有一定的優(yōu)勢,而不單單是國產(chǎn)替代。
張鵬:芯片公司對人才的要求很高,你們公司現(xiàn)在的技術(shù)人員構(gòu)成是什么樣的?
吳強(qiáng):我們和其他芯片公司又不太一樣,畢竟我們用的是創(chuàng)新的構(gòu)架,首先需要的是一些有學(xué)術(shù)背景的人才,做過存算一體研究的,要對存算一體的電路構(gòu)架包括工藝層面都比較熟悉。這可能是其他芯片公司不需要的。
其次,我們做的是大芯片處理器,而且還是應(yīng)用于 AI 的處理器,存算只是其中一個環(huán)節(jié),首先還要考慮的是如何設(shè)計一款復(fù)雜的芯片,要對 AI 的算法有充分的理解,這樣的人才能做出符合 AI 應(yīng)用場景的 AI 芯片。
最后還需要芯片之外的軟件設(shè)計人員,之前有文章分析說國內(nèi)的芯片公司其實硬件差距并不大,關(guān)鍵還是軟件系統(tǒng)如編譯器等的差距比較大。硅谷尤其是英特爾有很多編譯器相關(guān)人才,但是國內(nèi)很缺。好的芯片需要配合上好的編譯器,好的系統(tǒng)軟件和工具鏈,才能讓客戶覺得芯片性能好。很多創(chuàng)業(yè)公司最后無法落地,就是因為編譯器人才比較缺乏。
張鵬:在理想狀態(tài)下,存算一體架構(gòu)在成本、功耗方面會帶來什么級別的優(yōu)勢?
吳強(qiáng):英偉達(dá)能做 2000T 是因為有很強(qiáng)的工程積累,工程能力很強(qiáng),用最新的工藝,用最好的 HBM,我相信他是能做出來的。但如果是一個創(chuàng)業(yè)公司,工程能力包括資源不如巨頭,想做這樣的東西,通過架構(gòu)的創(chuàng)新,比如存算一體,是可以用更低的成本去做的。成本上我們希望能做到英偉達(dá)一半的成本,但功耗上我覺得存算一體理論上可以做一個數(shù)量級的提升,能效比希望至少是 2-5 倍的提升。
張鵬:以前存算一體基本是往可穿戴上做小算力低功耗,后摩智能直接做大算力,難度是不是很大?
吳強(qiáng):難度是更大的,首先有兩層難度,第一,存算一體首先要解決很多問題,比如數(shù)據(jù)精度問題,大算力的話,精度要支持 INT8。另外需要解決電路層面的容量問題,因為模型要大,怎么樣把精度做好做高,這是電路設(shè)計的問題。
另一個大的難度是大芯片本身除了存算之外也很復(fù)雜,一個 AI 處理器如果能處理幾百 T 的算力,那么相應(yīng)的其他東西也不要大,比如 CPU 怎么設(shè)計,除了存算之外,對 vector 的支持和其他的支持,編程的內(nèi)存怎么做,這些都是大芯片的要求,包括怎么配合編譯器、配合算法、量化怎么做。這些跟存算沒關(guān)系,是大芯片本身的復(fù)雜度。對人才的要求也高,畢竟中國做大芯片是近幾年開始,這部分的人才也是國內(nèi)比較缺的。
張鵬:為什么不做云端的算力提升,而是直接做邊緣計算?
吳強(qiáng):云端相對來說應(yīng)用場景比較廣,如果做訓(xùn)練芯片,英偉達(dá)的軟件生態(tài)壁壘特別厚,這是個挑戰(zhàn),很多國內(nèi)創(chuàng)業(yè)同行都要面臨這個挑戰(zhàn)。另外云端數(shù)據(jù)中心有很多應(yīng)用場景,相對來說對軟件的挑戰(zhàn)會更大。云端對功耗不是那么敏感,畢竟在數(shù)據(jù)中心你也可以用空調(diào)等降溫設(shè)備,低功耗當(dāng)然是個優(yōu)勢,但不像邊緣端是絕對的優(yōu)勢。
03、芯片公司的競爭壁壘
是軟件生態(tài)
張鵬:如何理解你們宣傳的軟硬解耦?
吳強(qiáng):這是我們設(shè)計芯片的一個理念,我們希望定位為芯片公司,把芯片做得有差異化、有優(yōu)勢。做自己的工具鏈、編譯器,把這些做好,能夠支持更多客戶,客戶可以有自己不同的算法,各種算法我們都盡可能支持,這就是軟硬解耦,應(yīng)用層和芯片層盡可能解耦,重點(diǎn)把芯片和編輯器打造得更好。
所以對芯片的通用性要求比較高,這是一個挑戰(zhàn)。怎么支持各種各樣不同的算法、不同的用戶?我們從創(chuàng)業(yè)第一天就希望不單是提供算力,還能提供更底層的接口,讓客戶可以自己定義算子,這樣可以在算法上具有更大的空間和自由度。各種各樣的客戶都可以在上面使用我們的芯片,我們的芯片將來的應(yīng)用場景會更廣闊。這是我們一直堅持的技術(shù)方向。
張鵬:軟硬解耦在商業(yè)模式上會是一個很大的挑戰(zhàn)嗎?
吳強(qiáng):我們在中國做芯片除了國產(chǎn)化之外,還提供貼身服務(wù),但貼身服務(wù)需要有個度。前面的客戶我們可以用新的東西,幫助客戶一起把整套方案做出來,但是后面的客戶我們希望變成一個標(biāo)準(zhǔn)化的東西,可以用我們很好用的工具鏈,讓客戶自己去做,這樣的芯片公司才能做大,不用每個客戶都投入一堆人人力,這是我們的目標(biāo),這樣做的話必須是軟硬解耦,我們一直在朝這個方向努力。
希望慢慢地將整個供應(yīng)鏈變得很標(biāo)準(zhǔn)化,用最小的支持,能支持更多客戶,客戶才會越來越多,我們也可以不停打磨我們的工具鏈,這是我們一直以來的奮斗目標(biāo)。
張鵬:還有哪些其它場景是存算一體未來有機(jī)會發(fā)揮優(yōu)勢的?
吳強(qiáng):存算一體的特點(diǎn)是可以把算力用更低的成本方式做大,另外能效比很高,功耗更低。很多場景如果對智能化要求比較高,對算力要求也比較大,同時對功耗比較敏感,比如電池驅(qū)動,邊緣端很多都是電池驅(qū)動的,這些都是可能的應(yīng)用場景,說白了是市場需求和產(chǎn)品特性相匹配。
比如無人機(jī)需要做一些避障、智能飛行、自動返航等,和其他更高級別的智能化,我們又希望無人機(jī)小巧,大疆的很多無人機(jī)在 500g 以內(nèi),最小的有 250g,電池不大,又要保證續(xù)航,算力要求又很大,對功耗也敏感,這就是個天生的矛盾。我們有沒有可能做出一個能效比極致高的大算力芯片,讓即使很小的無人機(jī)也可以很智能?哪怕是大無人機(jī),像美團(tuán)的貨運(yùn)無人機(jī),功耗低可以讓電池部分承擔(dān)更多貨物,而不是用來做計算,這些是可能的應(yīng)用場景。
包括現(xiàn)在酒店和家庭使用的機(jī)器人,大家對于這類服務(wù)機(jī)器人的智能化需求會越來越多,它們本身也是電池驅(qū)動,想提高算力也需要考慮存算一體。甚至還有 VR 設(shè)備,作為邊緣設(shè)備,由電池驅(qū)動,需要做環(huán)境感知,也需要算力的支持,這也是一個可能的應(yīng)用場景。
張鵬:你們的差異化的競爭優(yōu)勢是什么?
吳強(qiáng):大芯片領(lǐng)域競爭很激烈,首先是英偉達(dá)、高通這樣的國際巨頭,還有一些國內(nèi)的創(chuàng)業(yè)公司走在我們前面。我們要想生存下來,經(jīng)營策略還是不太一樣。對于巨頭來說,多少有點(diǎn)農(nóng)村包圍城市的一些想法。
第一,首先是要選擇一個合適的環(huán)節(jié),不要碰巨頭最強(qiáng)的部分,這里就包括了產(chǎn)品定位,比如賽道,選云端、選邊緣端、選乘用車、無人車、無人機(jī)、機(jī)器人、安防等,每個人都會選擇自己比較舒適的賽道。同時又有很多細(xì)化的領(lǐng)域,怎么去選擇?巨頭相對薄弱的環(huán)節(jié)去打,這點(diǎn)很重要,最好選擇相對來說巨頭不太重視的領(lǐng)域,比如說無人車,我們先切入進(jìn)去,逐漸形成農(nóng)村包圍城市的概況。
其次是差異化,英偉達(dá)在推 2000T 算力的芯片,我們并沒有必要去比拼算力,而是去尋找一些英偉達(dá)還沒有解決的或者暫時解決不了的客戶的痛點(diǎn)。比如很多車企希望在中端車上也上大算力芯片,同時對功耗和散熱又比較敏感,這種需求就是英偉達(dá)暫時沒有滿足,而我們可以提供的服務(wù)。找到差異化,局部做到極致,這也是當(dāng)年很多互聯(lián)網(wǎng)巨頭能夠崛起的原因。
張鵬:如果英偉達(dá)這樣的巨頭未來也要做存算一體,你們會怎么應(yīng)對?
吳強(qiáng):創(chuàng)業(yè)之初很多人問過我這個問題,首先存算一體目前還是比較新的,尤其是大算力相關(guān),基于 SRAM,對我們來說有技術(shù)積累,給了我們一個先發(fā)優(yōu)勢。對于英偉達(dá)來說,進(jìn)入一個新的領(lǐng)域,會有自身的一些壁壘。因為它之前所有的積累都是在傳統(tǒng)方式上去做,很多架構(gòu)上的積累是基于 GPU 的,架構(gòu)上的積累和軟件上的積累都是在另一個方向。如果轉(zhuǎn)到存算一體,需要拋棄很多舊的東西,才能進(jìn)入一個新的領(lǐng)域。后摩沒有這樣的包袱,因為我們是從零開始,本來就一無所有。
英偉達(dá)進(jìn)入這個賽道還會有一段時間,除非他發(fā)現(xiàn)存算一體已經(jīng)可以大規(guī)模商業(yè)化或者認(rèn)為對它造成了威脅,這給創(chuàng)業(yè)公司帶來一段時間上的先發(fā)優(yōu)勢。
如果有一天英偉達(dá)真的要進(jìn)來,怎么辦?基于 SRAM 的儲存是不是壁壘?基于 RRAM 的儲存是不是壁壘?我的觀點(diǎn)一直是任何技術(shù)本身都不是壁壘,只能給你一定的先發(fā)優(yōu)勢。我們在這方面有最長的技術(shù)積累,是國內(nèi)第一個做這些的,我們希望盡快把技術(shù)優(yōu)勢轉(zhuǎn)化成產(chǎn)品優(yōu)勢,能拿出一個好的產(chǎn)品,不能是改良款,而是性能上一定要比別人好很多倍,最好是 2-5 倍,別人才愿意嘗試這個芯片。
我們希望能有更好的芯片,解決一個確實的痛點(diǎn),讓別人愿意嘗試,逐漸用自己的軟件生態(tài)作為護(hù)城河。真正的護(hù)城河不是技術(shù)本身,而是軟件生態(tài)。我的軟件生態(tài)、工具鏈、合作伙伴,這才是真正的護(hù)城河,真正的壁壘。有一天像英偉達(dá)這樣的巨頭進(jìn)來,可以有一定的壁壘去阻擋巨頭。
編輯:黃飛
?
評論
查看更多