0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種越來越多被應(yīng)用于加速機(jī)器學(xué)習(xí)應(yīng)用的浮點(diǎn)格式bfloat16

倩倩 ? 來源:lq ? 作者:TechEdge科技邊界 ? 2019-09-20 10:32 ? 次閱讀

Arm早前曾宣布其ArmV8-A架構(gòu)的下一版本將包括對(duì)bfloat16的支持,現(xiàn)在透露了更多細(xì)節(jié)。

bfloat16是一種越來越多被應(yīng)用于加速機(jī)器學(xué)習(xí)應(yīng)用的浮點(diǎn)格式。谷歌、英特爾和不少新創(chuàng)公司都將bfloat16作為其AI加速架構(gòu)的核心功能之一。

Bfloat16是由Google發(fā)明,最初在其第三代Tensor處理單元(TPU)中導(dǎo)入,作為加速機(jī)器學(xué)習(xí)之用。英特爾也認(rèn)為該格式在未來AI計(jì)算中也有龐大的應(yīng)用潛力,因此整合到其即將推出的“Cooper Lake”Xeon SP處理器,以及“Spring Crest”神經(jīng)網(wǎng)絡(luò)處理器中,未來的Xe GPU也會(huì)支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新創(chuàng)公司也采用了支持該計(jì)算格式的定制AI處理器。

bfloat16的主要想法是提供動(dòng)態(tài)范圍與標(biāo)準(zhǔn)IEEE-FP32相同的16位浮點(diǎn)格式,精度較低。相當(dāng)于將8位的FP32指數(shù)字段的大小匹配,并將FP32分?jǐn)?shù)字段的大小縮小到7位。

根據(jù)Arm首席架構(gòu)師和研究員Nigel Stephens的說法,在大多數(shù)情況下,bfloat16格式與FP32一樣準(zhǔn)確,用于神經(jīng)網(wǎng)絡(luò)計(jì)算,但是以一半的位址就可以完成任務(wù)。因此,與32位相比,吞吐量可以翻倍,內(nèi)存需求可以減半。在多數(shù)情況下,blfloat16可以成為這些機(jī)器學(xué)習(xí)算法中FP32的“插入式”替代品。由于神經(jīng)網(wǎng)絡(luò)的計(jì)算性質(zhì),只要數(shù)據(jù)類型具有足夠的范圍和精度,就可以很好地適應(yīng)少量噪聲,精準(zhǔn)的完成模型訓(xùn)練工作。

Arm將bfloat16的支持被放到ArmV8-A下的所有浮點(diǎn)處理的相關(guān)指令集,包含SVE(可擴(kuò)展矢量擴(kuò)展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通過相關(guān)擴(kuò)展的支持,加速基于Arm的客戶端和服務(wù)器的機(jī)器學(xué)習(xí)推理和培訓(xùn)練過程。雖然Arm服務(wù)器市占率仍然很小,但其在智能手機(jī)等客戶端方面擁有幾乎絕對(duì)的統(tǒng)治地位,這意味著未來的手持式和物聯(lián)網(wǎng)設(shè)備將很快能夠利用更緊湊的數(shù)字格式來處理機(jī)器學(xué)習(xí)。

當(dāng)然,Arm如果越強(qiáng),那么采用自有AI架構(gòu)的芯片設(shè)計(jì)業(yè)者壓力其實(shí)也會(huì)越大,就好比華為先后使用寒武紀(jì)與達(dá)芬奇架構(gòu),都是封閉的專有架構(gòu),高通也是采用DSP結(jié)合NPU計(jì)算,如果Arm官方架構(gòu)性能有飛躍性的改進(jìn),那么這些采用定制AI架構(gòu)的芯片設(shè)計(jì)者可能最終會(huì)被迫放棄自己的封閉架構(gòu),轉(zhuǎn)而擁抱Arm的開放架構(gòu)。而這也有助于發(fā)展整體AI生態(tài),畢竟使用相同開發(fā)環(huán)境的硬件基數(shù)越大,就能吸引更多應(yīng)用開發(fā)者共同耕耘相關(guān)生態(tài)。

值得注意的是,Arm決定在SVE中加入bfloat16的支持這點(diǎn)。由于SVE是專門針對(duì)高性能計(jì)算的矢量指令集,截至目前為止,僅有富士通一家采用,并應(yīng)用于其A64FX芯片上。Arm方面表示,由于HPC用戶對(duì)機(jī)器學(xué)習(xí)的興趣持續(xù)增加,過去只能依靠GPU方案來進(jìn)行加速,若能在單一架構(gòu)處理完機(jī)器學(xué)習(xí)的工作,那么就不用再額外花費(fèi)成本添購專用的加速硬件。

使用bfloat16還有另一個(gè)好處,那就是它具有與FP32相同的動(dòng)態(tài)范圍,這使得轉(zhuǎn)換現(xiàn)有使用FP32的現(xiàn)有計(jì)算代碼非常簡單,可以大規(guī)模無痛轉(zhuǎn)換既有的FP32應(yīng)用到blfloat16數(shù)據(jù)格式下。

然而,SVE原本就可以針對(duì)從128位到2048位等不同的矢量長度來實(shí)現(xiàn)計(jì)算工作,理論上,bfloat16應(yīng)該放在128位的Neon計(jì)算單元內(nèi)比較合理。但實(shí)際上,數(shù)據(jù)的吞吐量其實(shí)還是要取決于硬件的實(shí)現(xiàn)選擇,比如說SVE執(zhí)行單元的數(shù)量,以及Neon計(jì)算單元的數(shù)量。

而隨著Arm增加了bfloat16這個(gè)數(shù)據(jù)格式的支持,借以加速AI計(jì)算,這也讓GPU成為目前主流機(jī)器學(xué)習(xí)加速硬件中唯一不支持這種數(shù)據(jù)格式的架構(gòu),而英特爾即將推出的Xe GPU也會(huì)加入該格式的支持,包含AMD或NVIDIA,應(yīng)該都會(huì)在下一代產(chǎn)品中增加此數(shù)據(jù)格式的支持。

根據(jù)ARM做的模擬,不同類型的運(yùn)算中bfloat16帶來的性能提升不等,少的有1.6倍性能,多的可達(dá)4倍性能,性能成長相當(dāng)驚人。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9009

    瀏覽量

    366106
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4726

    瀏覽量

    100321
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8324

    瀏覽量

    132192
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    為何越來越多的應(yīng)用場景都會(huì)用到溫濕度控制器?

    、定義 溫濕度控制器是一種用于監(jiān)測(cè)和控制環(huán)境溫度和濕度的設(shè)備。? 二、工作原理 溫濕度控制器通常由傳感器、控制器和執(zhí)行機(jī)構(gòu)組成。傳感器用于檢測(cè)環(huán)境中的溫度和濕度,并將檢測(cè)到的信號(hào)傳輸
    的頭像 發(fā)表于 10-14 14:28 ?140次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP)任務(wù)。LLM模型的格式多種多樣,以下是
    的頭像 發(fā)表于 07-09 09:59 ?450次閱讀

    采用可調(diào)電熱微梁的近零剛度MEMS加速度計(jì)

    MEMS加速度計(jì)正越來越多應(yīng)用于各種移動(dòng)和測(cè)試設(shè)備,以測(cè)量運(yùn)動(dòng)、沖擊和振動(dòng)。
    的頭像 發(fā)表于 05-09 09:11 ?466次閱讀
    采用可調(diào)電熱微梁的近零剛度MEMS<b class='flag-5'>加速</b>度計(jì)

    越來越多的領(lǐng)域都用到了USB頻譜儀

    科技是不斷進(jìn)步的,越來越多的領(lǐng)域都用到了USB頻譜儀。款值得信賴的產(chǎn)品。
    的頭像 發(fā)表于 05-07 15:28 ?473次閱讀
    <b class='flag-5'>越來越多</b>的領(lǐng)域都用到了USB頻譜儀

    隨著非車規(guī)器件在汽車上泛濫FPGA會(huì)不會(huì)越來越多的出現(xiàn)在汽車上?

    隨著非車規(guī)器件在汽車上泛濫FPGA會(huì)不會(huì)越來越多的出現(xiàn)在汽車上?
    發(fā)表于 04-23 14:50

    嵌入式會(huì)越來越卷嗎?

    嵌入式會(huì)越來越卷嗎? 當(dāng)談及嵌入式系統(tǒng)時(shí),我們探究的不僅是一種科技,更是個(gè)日益多元與普及的趨勢(shì)。嵌入式系統(tǒng),作為一種融入更大系統(tǒng)中的計(jì)算機(jī)硬件和軟件,旨在執(zhí)行特定功能或任務(wù)。但這個(gè)看
    發(fā)表于 03-18 16:41

    毫米波雷達(dá)半精度浮點(diǎn)存儲(chǔ)格式分析

    本文介紹了TC3xx單片機(jī)雷達(dá)信號(hào)處理單元SPU支持的半精度浮點(diǎn)格式,將其和32bit整型數(shù)格式進(jìn)行比較,分析了兩者的動(dòng)態(tài)范圍及實(shí)際處理誤差,發(fā)現(xiàn)半精度浮點(diǎn)
    的頭像 發(fā)表于 02-20 08:26 ?309次閱讀
    毫米波雷達(dá)半精度<b class='flag-5'>浮點(diǎn)</b>存儲(chǔ)<b class='flag-5'>格式</b>分析

    為什么越來越多的企業(yè)會(huì)用到 NTP網(wǎng)絡(luò)時(shí)間服務(wù)器

    ? ? ? 越來越多的企業(yè)使用 NTP網(wǎng)絡(luò)時(shí)間服務(wù)器 是為了確保其計(jì)算機(jī)網(wǎng)絡(luò)中的所有設(shè)備都具有精確的時(shí)間。網(wǎng)絡(luò) 時(shí)間服務(wù)器 是一種網(wǎng)絡(luò)設(shè)備,它通過從原子鐘等準(zhǔn)確時(shí)間源獲取時(shí)間信號(hào)并向網(wǎng)絡(luò)中的設(shè)備廣播
    的頭像 發(fā)表于 01-23 14:17 ?308次閱讀
    為什么<b class='flag-5'>越來越多</b>的企業(yè)會(huì)用到 NTP網(wǎng)絡(luò)時(shí)間服務(wù)器

    應(yīng)用于3D對(duì)象檢測(cè)的點(diǎn)云深度學(xué)習(xí)方法

    隨著激光雷達(dá)傳感器(“光檢測(cè)和測(cè)距”的縮寫,有時(shí)稱為“激光掃描”,現(xiàn)在在些最新的 iPhone 上可用)或 RGB-D 攝像頭(一種 RGB-D 攝像頭)的興起,3D 數(shù)據(jù)變得越來越廣泛。D 圖像
    的頭像 發(fā)表于 01-03 10:32 ?793次閱讀
    兩<b class='flag-5'>種</b><b class='flag-5'>應(yīng)用于</b>3D對(duì)象檢測(cè)的點(diǎn)云深度<b class='flag-5'>學(xué)習(xí)</b>方法

    一種高速電機(jī)旋轉(zhuǎn)轉(zhuǎn)子測(cè)溫方法

    本文章主要介紹一種應(yīng)用于高速電機(jī)旋轉(zhuǎn)轉(zhuǎn)子溫度測(cè)量技術(shù)。隨著新能源汽車的大力普及,作為動(dòng)力輸出的永磁電機(jī)應(yīng)用越來越廣泛,電機(jī)向著高轉(zhuǎn)速,高能量密度的發(fā)現(xiàn)發(fā)展,隨之而來對(duì)電機(jī)內(nèi)部轉(zhuǎn)子溫度及其他運(yùn)行狀態(tài)的監(jiān)測(cè)也
    的頭像 發(fā)表于 12-19 10:30 ?673次閱讀
    <b class='flag-5'>一種</b>高速電機(jī)旋轉(zhuǎn)轉(zhuǎn)子測(cè)溫方法

    縫縫補(bǔ)補(bǔ)的浮點(diǎn)數(shù)進(jìn)制轉(zhuǎn)換器

    [浮點(diǎn)數(shù)]()在計(jì)算機(jī)科學(xué)中是一種重要的數(shù)據(jù)類型,用于表示實(shí)數(shù)。其中,F(xiàn)P32和FP16是兩常見的浮點(diǎn)
    的頭像 發(fā)表于 12-04 14:00 ?1323次閱讀
    縫縫補(bǔ)補(bǔ)的<b class='flag-5'>浮點(diǎn)</b>數(shù)進(jìn)制轉(zhuǎn)換器

    一種應(yīng)用于智能家電嵌入式軟件的框架構(gòu)件規(guī)范

    電子發(fā)燒友網(wǎng)站提供《一種應(yīng)用于智能家電嵌入式軟件的框架構(gòu)件規(guī)范.pdf》資料免費(fèi)下載
    發(fā)表于 11-17 10:56 ?1次下載
    <b class='flag-5'>一種</b><b class='flag-5'>應(yīng)用于</b>智能家電嵌入式軟件的框架構(gòu)件規(guī)范

    如何將越來越多的天線塞進(jìn)越來越小的移動(dòng)設(shè)備?

    LTE天線多重性是規(guī)范標(biāo)準(zhǔn),這是為了避免手機(jī)掉線,比方說,在通話時(shí)用手遮擋了根天線,就會(huì)產(chǎn)生干擾。同通信鏈路擁有多個(gè)天線可使手機(jī)運(yùn)營商合并多個(gè)數(shù)據(jù)流,提升數(shù)據(jù)傳輸速率。
    發(fā)表于 11-13 14:22 ?370次閱讀
    如何將<b class='flag-5'>越來越多</b>的天線塞進(jìn)<b class='flag-5'>越來越</b>小的移動(dòng)設(shè)備?

    一種應(yīng)用于負(fù)電源的電平位移電路

    電子發(fā)燒友網(wǎng)站提供《一種應(yīng)用于負(fù)電源的電平位移電路.pdf》資料免費(fèi)下載
    發(fā)表于 11-13 09:18 ?0次下載
    <b class='flag-5'>一種</b><b class='flag-5'>應(yīng)用于</b>負(fù)電源的電平位移電路

    一種應(yīng)用于車載的無線射頻識(shí)別系統(tǒng)

    電子發(fā)燒友網(wǎng)站提供《一種應(yīng)用于車載的無線射頻識(shí)別系統(tǒng).pdf》資料免費(fèi)下載
    發(fā)表于 10-26 14:41 ?0次下載
    <b class='flag-5'>一種</b><b class='flag-5'>應(yīng)用于</b>車載的無線射頻識(shí)別系統(tǒng)