0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

為什么Chimera GPNPU如此充滿想象力和令人眼花繚亂呢

SSDFans ? 來源:SSDFans ? 2023-01-08 15:09 ? 次閱讀

希臘神話中,Chimera是一種巨大的噴火混血動物,由不同的動物部位組成;現(xiàn)在它被用來描述任何想象力豐富、難以置信或令人眼花繚亂的東西。

筆者最近從Quadric那里接觸到Chimera GPNPU(通用神經(jīng)處理器),真是“產(chǎn)品”如其名。

Quadric公司成立于2017年,最初計劃基于其新創(chuàng)Chimera GPNPU架構(gòu)提供推理邊緣芯片 (針對物聯(lián)網(wǎng)“邊緣”推理應(yīng)用的芯片)。

他們的第一塊芯片被快速驗證,一些早期用戶已經(jīng)在進行試驗。但最近,Quadric公司決定將Chimera GPNPU授權(quán)為IP,向更廣泛的客戶群體展示他們的技術(shù)。

下圖是利用Chimera GPNPU實現(xiàn)面部識別和認證的簡化示意圖,我們就以此作為切入點看下為什么Chimera GPNPU如此“充滿想象力”和“令人眼花繚亂”。

954d2626-8def-11ed-bfe3-dac502259ad0.png

假設(shè)所有這些功能都在智能相機SoC中實現(xiàn),一個攝像機/傳感器為左邊的第一個功能塊提供視頻流。這個應(yīng)用很可能會用于未來幾代的門鈴攝像頭中。

觀察兩個粉紅色的“Face Detect”和“Face Authentication”功能塊,它們是通過人工智能/機器學(xué)習(xí)(AI/ML)推理實現(xiàn)的。

在過去幾年中,這種類型的推理發(fā)展極為迅速,從學(xué)術(shù)研究到早期部署,現(xiàn)在幾乎成為軟件開發(fā)中的一個必不可少的元素。

將推理(基于視覺、聲音等形式)作為創(chuàng)建應(yīng)用程序的構(gòu)建塊之一,這種想法我們可以認為是“軟件2.0”。

但這實現(xiàn)起來并不容易,SoC傳統(tǒng)應(yīng)對軟件2.0挑戰(zhàn)的方式如下(a)所示。

95576e88-8def-11ed-bfe3-dac502259ad0.png

從(a)圖中可以看到,神經(jīng)處理器單元(NPU)、矢量數(shù)字信號處理器(DSP)和實時中央處理器(CPU)為三個獨立的核心。

要實現(xiàn)前面的面部識別和認證流程,使用常規(guī)方法,前兩個功能塊(Resize和Channel unpack)相關(guān)的處理將在DSP核心上執(zhí)行。

然后,DSP生成的數(shù)據(jù)將被送到NPU核心上運行神經(jīng)網(wǎng)絡(luò)“Face Detect”模型;NPU的輸出再送給CPU核心,CPU將運行一個“NMS”算法來決定使用哪個算法效果最好。

然后,DSP將使用CPU識別的邊界框在圖像上執(zhí)行更多的任務(wù),如“Crop + Gray Scale”和“Resize”。最后,這些數(shù)據(jù)將送到NPU核心上運行“Face Authenticate”模型。

用上述方法實現(xiàn)后,我們可能會發(fā)現(xiàn)沒有達到想要的吞吐率。如何找出性能瓶頸在哪里?另外,三個核心之間交換數(shù)據(jù)產(chǎn)生了多少功耗?

真正的潛在問題是,擁有三個獨立的處理器核心會使整個設(shè)計過程變得繁瑣。

例如,硬件設(shè)計人員必須決定要為每個核心分配多少內(nèi)存,以及在功能塊之間需要多大的緩沖區(qū)。同時,軟件開發(fā)人員需要決定如何在內(nèi)核之間劃分算法。這很痛苦,因為程序員不愿意花大量時間考慮所運行目標平臺的硬件細節(jié)。

另一個問題是ML模型正在迅速發(fā)展,誰都不知道未來幾年會有怎樣的ML模型。

所有這些問題都會導(dǎo)致ML部署無法盡可能快地加速,因為針對這種類型的常規(guī)目標平臺進行開發(fā),對于編程、調(diào)試和性能調(diào)優(yōu)等方面來說,都是一件非常痛苦的事情。

再回到Chimera GPNPU,它由前面圖(b)部分的粉色區(qū)域表示。

GPNPU將DSP、CPU和NPU的屬性結(jié)合在單個核心中,作為一個傳統(tǒng)的CPU/DSP的組合,它可以運行C/ C++代碼,具有完整的32位標量+向量指令集架構(gòu)(ISA),同時可以用作一個NN圖處理器,運行8位推理優(yōu)化的ML代碼。這種方法通過在同一個引擎上運行兩種類型的代碼,獨特地解決了信號傳輸?shù)奶魬?zhàn)。

我們可以認為Chimera GPNPU是經(jīng)典的馮·諾依曼RISC機和收縮陣列/2D矩陣架構(gòu)的混合體。

Chimera GPNPU的一個關(guān)鍵優(yōu)勢是它能夠適應(yīng)不斷發(fā)展和日益復(fù)雜的ML網(wǎng)絡(luò)。現(xiàn)在東西變得越來越復(fù)雜,需要在NN的體系結(jié)構(gòu)中做更多的條件控制流,可以是CNN, RNN, DNN等等。

傳統(tǒng)的NPU通常是硬連接的加速器,不能條件執(zhí)行。例如有一個專用加速器,用戶不能在第14層的某個地方停下來檢查條件或中間結(jié)果,然后分支判斷并做各種面向控制流的事情。

在這些情況下,必須在NPU和CPU之間來回移動數(shù)據(jù),這將對性能和功耗產(chǎn)生沖擊。而使用一個Chimera GPNPU,我們可以在NN和控制代碼之間在時鐘基礎(chǔ)上來回切換。

這里還有很多需要討論,比如Chimera GPNPU在執(zhí)行卷積層(這是CNN的核心)方面的出色表現(xiàn),以及它們的TOPS(每秒萬億次操作)評分,都令筆者非常興奮。這里不再詳細闡述,有需要的讀者可以咨詢Quadric公司。

最后,筆者想快速概述一下Quadric軟件開發(fā)工具包(SDK),如下所示。

95615308-8def-11ed-bfe3-dac502259ad0.png

歸根結(jié)底,一切都是由軟件驅(qū)動的。使用TensorFlow、PyTorch、Caffe等框架生成的經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)圖/模型被送入Apache TVM(一個用于CPU、GPU和ML加速器的開源機器學(xué)習(xí)編譯器框架),生成一個Relay輸出(Relay是TVM框架的高級中間表示)。

中繼表示的轉(zhuǎn)換和優(yōu)化由Chimera CGC執(zhí)行,它將轉(zhuǎn)換和優(yōu)化后的神經(jīng)網(wǎng)絡(luò)輸出為C++代碼。Chimera LLVM C++ Compiler將這些代碼與開發(fā)人員的C++應(yīng)用程序代碼合并,所有這些輸出為一個可執(zhí)行文件,運行在目標硅/SoC中的Chimera GPNPU上。

注意,Quadric SDK是作為預(yù)打包的Docker映像交付的,用戶可以下載并在自己的系統(tǒng)上運行。Quadric很快將把這個SDK托管在Amazon Web Services (AWS)上,從而允許用戶通過他們的Web瀏覽器訪問它。

讓筆者特別感興趣的是,Quadric的工作人員正在開發(fā)一個圖形用戶界面(GUI),它可以讓開發(fā)人員拖放包含CPU/DSP代碼和NPU模型的管道構(gòu)建塊,將它們拼接在一起,并將所有內(nèi)容編譯成一個ChimeraGPNPU image。這種無代碼開發(fā)方法將使大量開發(fā)人員能夠創(chuàng)建含有Chimera GPNPU的芯片。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • SoC系統(tǒng)
    +關(guān)注

    關(guān)注

    0

    文章

    52

    瀏覽量

    10640
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8323

    瀏覽量

    132166
  • 數(shù)字信號處理器

    關(guān)注

    5

    文章

    448

    瀏覽量

    27305
  • NPU
    NPU
    +關(guān)注

    關(guān)注

    2

    文章

    252

    瀏覽量

    18482

原文標題:結(jié)合CPU、DSP、NPU功能為一體的新型混合處理器——Chimera GPNPU

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    工商業(yè)儲能選型指南及參數(shù)詳解

    行業(yè)普遍認為2023年是工商儲元年。如今,工商儲賽道仍然持續(xù)升溫中,無數(shù)新玩家涌入。但令人眼花繚亂的選型配置成為不少玩家的第一道門檻,今天小固就手把手帶你進行工商儲選型,為你進行核心參數(shù)詳解。
    的頭像 發(fā)表于 08-05 14:52 ?1870次閱讀
    工商業(yè)儲能選型指南及參數(shù)詳解

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發(fā)布會,重點詮釋羅馬仕全場景用電體驗戰(zhàn)略方向。全場景用電體驗戰(zhàn)略是羅馬仕多年來專注
    的頭像 發(fā)表于 07-21 10:15 ?497次閱讀
    專注充電<b class='flag-5'>充滿</b><b class='flag-5'>想象</b>,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    專注充電充滿想象,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    2024年7月19日,深圳羅馬仕科技有限公司(以下簡稱羅馬仕)召開了“專注充電,充滿想象”為主題的全球品牌升級暨新品發(fā)布會,重點詮釋羅馬仕全場景用電體驗戰(zhàn)略方向。全場景用電體驗戰(zhàn)略是羅馬仕多年來專注
    發(fā)表于 07-19 20:46 ?298次閱讀
    專注充電<b class='flag-5'>充滿</b><b class='flag-5'>想象</b>,羅馬仕全球品牌升級打造全場景用電體驗生態(tài)

    眼花繚亂?數(shù)據(jù)采集卡接線端子原來是這樣接線的?#數(shù)據(jù)采集卡 #傳感器技術(shù) #通信 #plc #pcb設(shè)計

    傳感器PCB設(shè)計
    西安阿爾泰電子科技發(fā)展有限公司
    發(fā)布于 :2024年06月20日 15:51:48

    揭秘芯片算:為何它如此關(guān)鍵?

    在數(shù)字化時代,芯片作為電子設(shè)備的核心組件,其性能直接關(guān)系到設(shè)備的運行速度和處理能力。而芯片的算,即其計算能力,更是衡量芯片性能的重要指標。那么,芯片的算到底有什么用?算又是如何評估的
    的頭像 發(fā)表于 05-09 08:27 ?780次閱讀
    揭秘芯片算<b class='flag-5'>力</b>:為何它<b class='flag-5'>如此</b>關(guān)鍵?

    未來的智慧園區(qū),充滿令人驚艷的場景

    未來的智慧園區(qū),充滿令人驚艷的場景。它將實現(xiàn)從能源管理到環(huán)境監(jiān)測的多重使命,用科技的力量為人類打造宜居、綠色的工作生活空間。 首先,智慧園區(qū)的能源管理將進入全新階段。通過智能化的能源管理系統(tǒng),實時
    的頭像 發(fā)表于 05-08 15:33 ?224次閱讀

    嵌入式圖形應(yīng)用的架構(gòu)選擇

     從 3D 渲染到圖像扭曲,當今圖形顯示控制器的功能已成為各種創(chuàng)新應(yīng)用不可或缺的一部分。高端 GDC 通過令消費者眼花繚亂的動態(tài)圖形來幫助定義產(chǎn)品的風格和價值。另一方面,適度的 GDC 可以清晰、簡單地顯示信息,高效且經(jīng)濟高效地為用戶提供他們想要的信息。
    發(fā)表于 05-03 09:10 ?99次閱讀
    嵌入式圖形應(yīng)用的架構(gòu)選擇

    微軟攜手OpenAI打造超級計算機數(shù)據(jù)中心 預(yù)計耗資超過1150億美元

    在OpenAI內(nèi)部,這個超級計算機項目被賦予了一個充滿想象力的名字——“Stargate”,寓意著它將開啟一扇通往未來人工智能世界的大門。
    的頭像 發(fā)表于 04-01 15:22 ?467次閱讀

    AI Agent:大模型的下一個高地

    關(guān)于AI的想象力
    的頭像 發(fā)表于 01-15 12:36 ?352次閱讀
    AI Agent:大模型的下一個高地

    2024年CES科技展:AI無處不在?

    2024年在拉斯維加斯舉行的CES科技展如往常一樣,充滿令人眼花繚亂的電子設(shè)備:巨大的電視,機器人,電動車和可折疊手機。但在今年的展會上,吸引人們關(guān)注的焦點卻是AI。這項技術(shù)自從2022年末
    的頭像 發(fā)表于 01-11 15:57 ?724次閱讀
    2024年CES科技展:AI無處不在?

    在RC電路里電容需要多久能充滿?

    首先介紹一下時間常數(shù),τ=R*C,那么電容需要多久能充滿?
    的頭像 發(fā)表于 01-04 09:09 ?2.2w次閱讀
    在RC電路里電容需要多久能<b class='flag-5'>充滿</b>電<b class='flag-5'>呢</b>?

    電源管理芯片U6113的工作原理

    LED照明驅(qū)動電源管理芯片市場,乍一看十分璀璨,但產(chǎn)品參差不齊,就像LED燈那些閃閃發(fā)光的各色字體,容易令人眼花繚亂,失去判斷。到底有哪些被市場認可、品質(zhì)好又實用的LED照明驅(qū)動電源管理芯片
    的頭像 發(fā)表于 12-05 15:56 ?644次閱讀

    PCB抄板為何會陷入窘境

    從pcb抄板浪潮興起至今,智能手環(huán)、智能眼鏡、智能手表等五花八門的pcb抄板紛紛“殺入”市場,產(chǎn)品種類眾多,令人眼花繚亂。然而在實際銷售中,大部分pcb抄板產(chǎn)品的市場反響都很一般,企業(yè)方面花費大量人力物力去推廣,但收到的成效卻并不能達到預(yù)期。
    的頭像 發(fā)表于 11-27 17:36 ?466次閱讀
    PCB抄板為何會陷入窘境

    APEX微技術(shù)是怎樣的一家公司?其產(chǎn)品究竟有什么優(yōu)勢?

    在如今眼花繚亂的電路設(shè)計中,放大器的運用技巧無疑是模擬電路設(shè)計中的重點環(huán)節(jié)。
    的頭像 發(fā)表于 11-27 09:10 ?1653次閱讀

    如何利用PLC來實現(xiàn)簡單的搬運動作

    一大堆梯形圖看著真是眼花繚亂,不用擔心我們一段一段分析分析這個機械手是如何工作的! 其實這個圖沒有那么多的并行分支,所以轉(zhuǎn)移起來邏輯非常簡單!
    發(fā)表于 10-31 18:26 ?402次閱讀
    如何利用PLC來實現(xiàn)簡單的搬運動作