0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

使用CUTLASS實現(xiàn)高性能矩陣乘法

星星科技指導員 ? 來源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次閱讀

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級別和規(guī)模上實現(xiàn)高性能矩陣乘法( GEMM )。它結合了分層分解和數(shù)據(jù)移動的策略,類似于用于實現(xiàn)cuBLAS的策略。

CUTLASS 將這些“運動部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設備范圍的原語可以通過自定義平鋪大小、數(shù)據(jù)類型和其他算法策略進行專門化和調(diào)優(yōu)。由此產(chǎn)生的靈活性簡化了它們在定制內(nèi)核和應用程序中作為構建塊的使用。

為了支持多種應用程序, CUTLASS 為混合精度計算提供了廣泛的支持,提供了專門的數(shù)據(jù)移動,并為以下各項提供了多重累積抽象:

半精度浮點(FP16)、 BFloat16 (BF16)和張量浮點 32 (TF32)數(shù)據(jù)類型。

單精度浮點(FP32)數(shù)據(jù)類型。

雙精度浮點(FP64)數(shù)據(jù)類型。

整數(shù)數(shù)據(jù)類型(4b和8b)。

二進制數(shù)據(jù)類型(1b)。

此外, CUTLASS 演示了針對 NVIDIA Volta 、 Turing 和 Ampere 體系結構上實現(xiàn)的可編程、高通Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實現(xiàn)了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運算的公式。這允許 Cutslass 通過重用高度優(yōu)化的 warp-wide GEMM 組件和以下組件來構建卷積。

關于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學位。計算機工程學位,專注于 GPU 的算法優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    4823

    瀏覽量

    102659
  • CUDA
    +關注

    關注

    0

    文章

    121

    瀏覽量

    13577
收藏 人收藏

    評論

    相關推薦

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)

    Wolfspeed碳化硅助力實現(xiàn)高性能功率系統(tǒng)
    發(fā)表于 10-24 10:51 ?0次下載

    請問如何用VCA810實現(xiàn)模擬乘法器?

    我在《德州儀器高性能單片機和模擬器件在高校中的應用和選型指南》中看見,書中說VCA810可以做為模擬乘法器使用,但是應用手冊里的公式卻不是V0=VC*Vin,而是一個帶指數(shù)向的公式,所以我很好
    發(fā)表于 09-23 07:11

    克服設計難題-實現(xiàn)高性能接口

    電子發(fā)燒友網(wǎng)站提供《克服設計難題-實現(xiàn)高性能接口.pdf》資料免費下載
    發(fā)表于 08-28 09:41 ?0次下載
    克服設計難題-<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>高性能</b>接口

    高性能計算集群的能耗優(yōu)化

    高性能計算(HighPerformanceComputing,HPC)是指利用大規(guī)模并行計算機集群來解決復雜的科學和工程問題的技術。高性能計算集群的應用領域非常廣泛,包括天氣預報、生物信息學
    的頭像 發(fā)表于 05-25 08:27 ?297次閱讀
    <b class='flag-5'>高性能</b>計算集群的能耗優(yōu)化

    構建高性能計算芯片

    計算的異構多核架構,對整個芯片行業(yè)的高性能 CPU 開發(fā)產(chǎn)生了影響。 這些芯片都不太可能進行商業(yè)銷售。它們針對特定的數(shù)據(jù)類型和工作負載進行了優(yōu)化,設計預算龐大,但可以通過提高性能和降低功耗來實現(xiàn)合理化。目標是在更小的面積上容納更
    的頭像 發(fā)表于 04-25 10:23 ?1255次閱讀
    構建<b class='flag-5'>高性能</b>計算芯片

    大電流、高性能LED矩陣驅(qū)動器LP5866T數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《大電流、高性能LED矩陣驅(qū)動器LP5866T數(shù)據(jù)表.pdf》資料免費下載
    發(fā)表于 03-22 16:11 ?0次下載
    大電流、<b class='flag-5'>高性能</b>LED<b class='flag-5'>矩陣</b>驅(qū)動器LP5866T數(shù)據(jù)表

    NVMe Host Controller IP實現(xiàn)高性能存儲解決方案

    電子發(fā)燒友網(wǎng)站提供《NVMe Host Controller IP實現(xiàn)高性能存儲解決方案.pdf》資料免費下載
    發(fā)表于 02-21 14:28 ?0次下載

    矩陣式變換器的拓撲結構和工作原理 矩陣式變換器的控制策略和仿真分析

    利用PSIM仿真軟件對所設計的控制策略進行了驗證,仿真結果證實,所設計的控制策略具有變頻特性良好、諧波含量少、波形正弦性好等優(yōu)勢。該矩陣式變流器控制策略對高性能電力電子裝置設計具有實際意義。
    的頭像 發(fā)表于 12-26 14:07 ?2755次閱讀
    <b class='flag-5'>矩陣</b>式變換器的拓撲結構和工作原理 <b class='flag-5'>矩陣</b>式變換器的控制策略和仿真分析

    詳解CUTLASS的工作原理

    嗨,我們要開始了。我叫馬修·尼斯利。我是NVIDIA的深度學習compiler PM,今天我將介紹一些針對NVIDIA Tensorcores的使用方法。首先我要講一下Cutlass。我會給你一些
    的頭像 發(fā)表于 12-26 09:49 ?1575次閱讀
    詳解<b class='flag-5'>CUTLASS</b>的工作原理

    FlashAttention2詳解(性能比FlashAttention提升200%)

    GPU performance characteristics. GPU主要計算單元(如浮點運算單元)和內(nèi)存層次結構。大多數(shù)現(xiàn)代GPU包含專用的低精度矩陣乘法單元(如Nvidia GPU的Tensor Core用于FP16/BF16矩陣
    的頭像 發(fā)表于 11-24 16:21 ?1119次閱讀
    FlashAttention2詳解(<b class='flag-5'>性能</b>比FlashAttention提升200%)

    如何在有限空間里實現(xiàn)高性能?結合最低特定RDS(On)與表面貼裝技術是個好方法!

    如何在有限空間里實現(xiàn)高性能?結合最低特定RDS(On)與表面貼裝技術是個好方法!
    的頭像 發(fā)表于 11-23 17:43 ?486次閱讀
    如何在有限空間里<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>高性能</b>?結合最低特定RDS(On)與表面貼裝技術是個好方法!

    一種高性能多通道通用DMA設計與實現(xiàn)

    為充分發(fā)揮異構多核DSP芯片的實時計算能力,設計并實現(xiàn)了一種高性能多通道的通用DMA,該DMA最大支持64個通道的數(shù)據(jù)搬運,并支持一維、二維、轉(zhuǎn)置以及級聯(lián)描述符等多種傳輸模式。芯片實測傳輸性能最高可達11.7 GB/s,
    的頭像 發(fā)表于 11-20 15:52 ?1064次閱讀
    一種<b class='flag-5'>高性能</b>多通道通用DMA設計與<b class='flag-5'>實現(xiàn)</b>

    實現(xiàn)可靠高性能數(shù)字電源

    電子發(fā)燒友網(wǎng)站提供《實現(xiàn)可靠高性能數(shù)字電源.pdf》資料免費下載
    發(fā)表于 11-16 15:02 ?0次下載
    <b class='flag-5'>實現(xiàn)</b>可靠<b class='flag-5'>高性能</b>數(shù)字電源

    Nginx 如何實現(xiàn)高性能低消耗

    。Nginx具有豐富的模塊庫、靈活的配置、較低資源消耗等優(yōu)點。下面,我們一起深入看一下Nginx的工作機制 1. Nginx 如何實現(xiàn)高性能低消耗的呢? 我們從以下幾個方面說明以下: 網(wǎng)絡事件處理機
    的頭像 發(fā)表于 11-11 11:31 ?528次閱讀
    Nginx 如何<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>高性能</b>低消耗

    高性能芯片有哪些特征?

    當代 GPU 有數(shù)百億顆晶體管。更好的處理器性能是以指數(shù)級增長的電源需求為代價的,因此人工智能 (AI) 和機器學習 (ML) 等應用的高性能處理器需要不斷增加功率。同時,由于先進的處理器節(jié)點實現(xiàn)了電流的增長,核心電壓正在下降。
    的頭像 發(fā)表于 10-31 16:13 ?893次閱讀