地平線發(fā)明的卷積處理引擎及控制方法,采用多個(gè)緩沖存儲(chǔ)器串聯(lián)的方式進(jìn)行數(shù)據(jù)的傳輸,能有效降低AI芯片的硬件設(shè)計(jì)復(fù)雜度和成本以及提高芯片的處理效率。
早在2017年,在“AI芯·時(shí)代”發(fā)布會(huì)上,地平線就發(fā)布了中國(guó)首款全球領(lǐng)先的嵌入式人工智能芯片——面向智能駕駛的征程(Journey)1.0處理器和面向智能攝像頭的旭日(Sunrise)1.0處理器,同步發(fā)布的還有針對(duì)智能駕駛、智能城市和智能商業(yè)三大應(yīng)用場(chǎng)景的人工智能解決方案。
地平線發(fā)布的“旭日 1.0”和“征程 1.0”是完全由地平線自主研發(fā)的人工智能芯片,具有全球領(lǐng)先的性能。我們知道,人工智能芯片及其使用的卷積神經(jīng)網(wǎng)絡(luò)算法已經(jīng)成功地應(yīng)用于圖像處理、自動(dòng)駕駛等諸多領(lǐng)域。
隨著應(yīng)用需求的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)中涉及的乘加運(yùn)算的運(yùn)算量越來(lái)越多,對(duì)于用于卷積神經(jīng)網(wǎng)絡(luò)運(yùn)算的卷積神經(jīng)網(wǎng)絡(luò)加速器的處理性能也提出越來(lái)越高的要求。但是,隨著數(shù)據(jù)量和運(yùn)算量的增加,卷積神經(jīng)網(wǎng)絡(luò)加速器消耗在存取數(shù)據(jù)上的時(shí)間急劇增加,并且在很多情況下成為制約卷積神經(jīng)網(wǎng)絡(luò)加速器的處理性能的主要因素之一。
因此, 為實(shí)現(xiàn)AI芯片的高性能,地平線在18年11月6日申請(qǐng)了一項(xiàng)名為“卷積處理引擎及控制方法和相應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)加速器”的發(fā)明專利(申請(qǐng)?zhí)枺?01811323140.7),申請(qǐng)人為地平線(上海)人工智能技術(shù)有限公司。
根據(jù)該專利目前公開的資料,讓我們一起來(lái)看看地平線的這項(xiàng)AI芯片技術(shù)吧。
如上圖,為該專利中發(fā)明的卷積處理引擎示意圖,為了提高卷積處理引擎的處理效率,該方案在卷積處理引擎中設(shè)置了多個(gè)高速緩沖存儲(chǔ)器(C1-Cn):用于緩存輸入數(shù)據(jù)的輸入高速緩沖存儲(chǔ)器和用于緩存輸出數(shù)據(jù)的輸出高速緩沖存儲(chǔ)器。
并且這些緩沖存儲(chǔ)器兩兩之間相互耦合,如下圖所示,例如C1的輸出端藕接到高速緩沖存儲(chǔ)器C2的輸入端,串聯(lián)在最開始位置處的存儲(chǔ)器C1將接收和緩存來(lái)自于卷積處理引擎外部的數(shù)據(jù),并且最末尾的存儲(chǔ)器將緩存的數(shù)據(jù)傳送到引擎的外部,也就是運(yùn)算后的結(jié)果數(shù)據(jù)。
這樣盡管有多個(gè)緩沖器,但是與外部數(shù)據(jù)進(jìn)行交換的始終只有兩個(gè),從而保證了數(shù)據(jù)的安全性以及簡(jiǎn)化了芯片內(nèi)部結(jié)構(gòu)的設(shè)計(jì)。而與存儲(chǔ)器配合的是運(yùn)算電路OC,運(yùn)算電路中的乘法累加器陣列可以耦合到每個(gè)高速緩沖存儲(chǔ)器的輸入端,連接方式有直接互連和間接互連兩種。
如上圖,為該卷積處理引擎中的運(yùn)算電路OC的結(jié)構(gòu)示意圖,可以看到高速緩沖存儲(chǔ)器布置在其最頂部,通過(guò)共同的交叉開關(guān)或者單獨(dú)的交叉開關(guān)耦接到高速緩沖存儲(chǔ)器的輸出段。
值得一提的是,該專利發(fā)明的卷積處理引擎CE,不需要針對(duì)運(yùn)算電路OC分別設(shè)置輸入和輸出高速緩沖存儲(chǔ)器,只有一個(gè)存儲(chǔ)器接收外部數(shù)據(jù),也僅有一個(gè)存儲(chǔ)器向外輸出數(shù)據(jù)。因此,這種設(shè)計(jì)方案能夠簡(jiǎn)化每個(gè)存儲(chǔ)器與處理引擎中其他部件之間的連線,同時(shí)簡(jiǎn)化了數(shù)據(jù)傳輸?shù)目刂七壿?,從而能夠極大地降低硬件設(shè)置的復(fù)雜度和軟件控制復(fù)雜度,并且有利于降低功耗。
下面我們?cè)賮?lái)看看上面這種處理引擎在整個(gè)AI芯片中的整體布置示意圖。
可以看到,卷積神經(jīng)網(wǎng)絡(luò)加速器包括兩個(gè)片外存儲(chǔ)器DDR1和DDR2以及四個(gè)卷積處理引擎CE1-CE4。每個(gè)卷積處理引擎包括運(yùn)算電路、單獨(dú)的用于緩存運(yùn)算參數(shù)的高速緩沖存儲(chǔ)器以及三個(gè)串聯(lián)在一起的高速緩沖存儲(chǔ)器,其中高速緩沖存儲(chǔ)器的輸入端還耦合到高速緩沖存儲(chǔ)器的輸出端。
另外,交叉開關(guān)CB跨越四個(gè)卷積處理引擎,因此能夠被每個(gè)卷積處理引擎中的串聯(lián)的三個(gè)緩沖存儲(chǔ)器所共用,這樣的配置可以允許一個(gè)卷積處理器引擎使用另一個(gè)卷積處理器引擎的高速緩沖存儲(chǔ)器。
最后,我們?cè)賮?lái)看看可以用于控制上述這種硬件結(jié)構(gòu)中卷積處理引擎的方法,首先可以確定待處理的卷積神經(jīng)網(wǎng)絡(luò)中連續(xù)的兩層中串聯(lián)在一起的高速緩沖存儲(chǔ)器的對(duì)應(yīng)關(guān)系,也就是確定每層的輸入特征數(shù)與高速緩沖存儲(chǔ)器之間的對(duì)應(yīng)關(guān)系。
其次,可以從卷積處理引擎外部接收輸入特征數(shù)據(jù)并存儲(chǔ)到高速緩沖存儲(chǔ)器的對(duì)應(yīng)部分中,最后在執(zhí)行操作中,控制卷積處理引擎中的運(yùn)算電路執(zhí)行第一操作。
以上就是地平線發(fā)明的卷積處理引擎及控制方法,這種卷積處理引擎采用多個(gè)緩沖存儲(chǔ)器串聯(lián)的方式進(jìn)行數(shù)據(jù)的傳輸,每層中獲得的特征數(shù)據(jù)可以存儲(chǔ)在對(duì)應(yīng)高速緩沖存儲(chǔ)器的對(duì)應(yīng)部分。因此,這樣的設(shè)計(jì)方案可以以很低的硬件設(shè)計(jì)復(fù)雜度、控制復(fù)雜度、成本以及功耗來(lái)高效率地實(shí)現(xiàn)卷積運(yùn)算。
關(guān)于嘉德
深圳市嘉德知識(shí)產(chǎn)權(quán)服務(wù)有限公司由曾在華為等世界500強(qiáng)企業(yè)工作多年的知識(shí)產(chǎn)權(quán)專家、律師、專利代理人組成,熟悉中歐美知識(shí)產(chǎn)權(quán)法律理論和實(shí)務(wù),在全球知識(shí)產(chǎn)權(quán)申請(qǐng)、布局、訴訟、許可談判、交易、運(yùn)營(yíng)、標(biāo)準(zhǔn)專利協(xié)同創(chuàng)造、專利池建設(shè)、展會(huì)知識(shí)產(chǎn)權(quán)、跨境電商知識(shí)產(chǎn)權(quán)、知識(shí)產(chǎn)權(quán)海關(guān)保護(hù)等方面擁有豐富的經(jīng)驗(yàn)。
責(zé)任編輯:tzh
-
芯片
+關(guān)注
關(guān)注
452文章
49985瀏覽量
419670 -
AI
+關(guān)注
關(guān)注
87文章
29383瀏覽量
267683 -
人工智能
+關(guān)注
關(guān)注
1789文章
46350瀏覽量
236524
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論