0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

當(dāng)前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)

后摩智能 ? 來源:后摩智能 ? 2024-09-24 16:57 ? 次閱讀

隨著大模型時(shí)代的到來,AI算力逐漸變成重要的戰(zhàn)略資源,對現(xiàn)有AI芯片也提出了前所未有的挑戰(zhàn):大算力的需求、高吞吐量與低延時(shí)、高效內(nèi)存管理、能耗等等。

存算一體架構(gòu)是可能有效解決當(dāng)前芯片瓶頸的路徑之一,通過將數(shù)據(jù)存儲(chǔ)與處理單元集成,顯著減少了數(shù)據(jù)在芯片內(nèi)部的傳輸,降低延遲和能耗,提高計(jì)算速度。

此外,針對大模型的特定需求,芯片設(shè)計(jì)也在不斷創(chuàng)新,以更好地支持并行處理和高效率的數(shù)據(jù)流動(dòng)。這些技術(shù)發(fā)展不僅對推動(dòng)人工智能領(lǐng)域的進(jìn)步至關(guān)重要,也為芯片設(shè)計(jì)和制造業(yè)帶來了新的機(jī)遇和挑戰(zhàn)。

Q1?當(dāng)前主流的大模型對于底層推理芯片提出了哪些挑戰(zhàn)?

1、算力需求:由于大模型計(jì)算量的提升,對算力的需求也飛速增長??紤]到芯片光罩面積的限制,一方面需要通過電路優(yōu)化提升算力密度,另一方面需要通過先進(jìn)集成等手段突破芯片面積的限制。

2、高吞吐量與低延時(shí):大模型推理分為prefill和decoding兩個(gè)階段,兩階段的推理延遲分別影響用戶得到首個(gè)token的延遲(time to first token,TTFT)和生成階段逐token的輸出延遲(time per output token,TPOT),優(yōu)化兩個(gè)階段的延遲可以提升用戶在使用推理服務(wù)時(shí)的體驗(yàn)。由于prefill階段需要在單次推理處理完整的prompt輸入,是計(jì)算密集的,所以prefill階段需要通過提升芯片的算力來降低延遲。另一方面,decoding階段中,每個(gè)請求只處理一個(gè)token,是訪存密集的,因此需要提升芯片的訪存帶寬來降低延遲。

3、高效內(nèi)存管理:在提供大模型推理服務(wù)時(shí),不同用戶的請求到達(dá)時(shí)間,prompt長度,以及生成長度均不相同,所以在動(dòng)態(tài)batching時(shí)不同請求間的KV Cache長度往往不同,從而導(dǎo)致KV Cache的碎片化問題。因此,諸如vLLM等優(yōu)化KV Cache的碎片化問題的內(nèi)存管理方案被提出,從而顯著提升GPU上的內(nèi)存利用率。

4、能耗:對于每個(gè)sequence的生成,decoding階段每次只處理單個(gè)token,從而導(dǎo)致在生成的過程中需要反復(fù)搬運(yùn)權(quán)重到片上緩存,產(chǎn)生高訪存能耗。

5、可編程性與靈活性:隨著深度學(xué)習(xí)和人工智能領(lǐng)域快速發(fā)展,新的算法和模型不斷涌現(xiàn)。芯片應(yīng)具有一定的可編程性和靈活性,以適應(yīng)這些變化,不僅僅針對當(dāng)前的算法進(jìn)行優(yōu)化。

Q2?大模型時(shí)代的需求,存算一體芯片會(huì)是更優(yōu)解嗎?

1、存算一體的優(yōu)勢與大模型需求的契合點(diǎn):CIM(Computing in Memory)具備高計(jì)算密度、高計(jì)算能效的優(yōu)勢,適合大模型Prefill階段的處理。在同樣芯片面積限制下,有望提供超過當(dāng)前GPU的算力。另外,對圖片、視頻等領(lǐng)域生成模型,算力的需求將進(jìn)一步上升,CIM高算力密度的優(yōu)勢可以進(jìn)一步發(fā)揮。

2、方向一:近存路線:基于DRAM的近存計(jì)算架構(gòu)能夠處理decoding階段訪存密集的矩陣向量乘法操作。通過在DRAM的bank附近放置處理單元,它們可以減少搬運(yùn)權(quán)重的能耗,并且通過近bank處理單元的并行計(jì)算提升訪存帶寬,從而獲得推理加速。但是由于DRAM的工藝限制,近存處理單元的算力較弱,無法高效處理prefill階段的計(jì)算密集算子,因此往往需要與GPU配合工作,完成整個(gè)推理流程。

3、方向二:近存+存算路線:CIM+PIM的混合異構(gòu)方案,可以同時(shí)滿足Prefill高算力和Decode高存儲(chǔ)帶寬和容量的需求,實(shí)現(xiàn)優(yōu)勢互補(bǔ),超過當(dāng)前的同構(gòu)方案。

未來,隨著技術(shù)進(jìn)步和創(chuàng)新設(shè)計(jì)的不斷涌現(xiàn),芯片技術(shù)將進(jìn)一步突破現(xiàn)有極限,實(shí)現(xiàn)更低的能耗和更高的計(jì)算性能。存算一體技術(shù)也將為芯片行業(yè)提供更多創(chuàng)新發(fā)展路徑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46312

    瀏覽量

    236465
  • 存算一體
    +關(guān)注

    關(guān)注

    0

    文章

    99

    瀏覽量

    4266
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2205

    瀏覽量

    2227

原文標(biāo)題:存算十問|(十):面向大模型時(shí)代,存算一體是更優(yōu)解嗎?

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問世以來,大模型遍地開花,承載大模型應(yīng)用的高性能推理框架也不斷推出,大有百家爭鳴之勢。在這種情況下,澎峰科技作為全球領(lǐng)先的智能計(jì)算服務(wù)提供商,在2023年11月25日發(fā)布了針對大語言
    的頭像 發(fā)表于 09-29 10:14 ?263次閱讀
    澎峰科技高性能大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLM解析

    主流芯片架構(gòu)包括哪些類型

    主流芯片架構(gòu)是芯片設(shè)計(jì)領(lǐng)域中的核心組成部分,它們決定了芯片的功能、性能、功耗等多個(gè)方面。當(dāng)前,全球范圍內(nèi)
    的頭像 發(fā)表于 08-22 11:08 ?540次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn),旨在提高模型在處理復(fù)雜任務(wù)時(shí)的效率和響應(yīng)速度。以下是對LLM大
    的頭像 發(fā)表于 07-24 11:38 ?641次閱讀

    如何加速大語言模型推理

    的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語言模型推理過程,以期為相關(guān)領(lǐng)域的研究者和開發(fā)者提供參考。
    的頭像 發(fā)表于 07-04 17:32 ?397次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的應(yīng)用

    。 關(guān)于大語言模型是否具備與人類“系統(tǒng)2”相似的能力,存在廣泛的爭議。然而,隨著模型參數(shù)量的增加和大規(guī)模預(yù)訓(xùn)練的實(shí)施,大語言模型展現(xiàn)出了與人類相似的
    發(fā)表于 05-07 17:21

    【大語言模型:原理與工程實(shí)踐】大語言模型的評測

    推斷孩子的年齡。而在演繹推理中,我們關(guān)注模型從已知前提出發(fā),通過邏輯推導(dǎo)得出結(jié)論的準(zhǔn)確性和邏輯性,例如在真假陳述中找出真實(shí)的陳述者。對于此類任務(wù),我們主要關(guān)注兩個(gè)評價(jià)指標(biāo):
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實(shí)踐】揭開大語言模型的面紗

    用于文本生成,根據(jù)提示或上下文生成連貫、富有創(chuàng)造性的文本,為故事創(chuàng)作等提供無限可能。大語言模型也面臨挑戰(zhàn)。一方面,其計(jì)算資源需求巨大,訓(xùn)練和推理耗時(shí);另一方面,模型高度依賴數(shù)據(jù),需要大
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實(shí)踐】探索《大語言模型原理與工程實(shí)踐》

    處理中預(yù)訓(xùn)練架構(gòu)Transformer,以及這些技術(shù)在現(xiàn)實(shí)世界中的如何應(yīng)用。通過具體案例的分析,作者展示了大語言模型在解決實(shí)際問題中的強(qiáng)大能力,同時(shí)也指出了當(dāng)前技術(shù)面臨的挑戰(zhàn)和局限性。書中對大語言
    發(fā)表于 04-30 15:35

    并行驅(qū)動(dòng)與異構(gòu)驗(yàn)證,思爾芯如何面對大模型芯片的復(fù)雜挑戰(zhàn)?

    在大語言模型時(shí)代,急劇增長的底層算力需求和多樣化的創(chuàng)新應(yīng)用催生了芯片行業(yè)的新機(jī)遇。往往機(jī)遇與挑戰(zhàn)并存,我們又該如何面對?近日,“從設(shè)計(jì)到量產(chǎn),大模型
    的頭像 發(fā)表于 03-21 08:22 ?337次閱讀
    并行驅(qū)動(dòng)與異構(gòu)驗(yàn)證,思爾芯如何面對大<b class='flag-5'>模型</b><b class='flag-5'>芯片</b>的復(fù)雜<b class='flag-5'>挑戰(zhàn)</b>?

    思爾芯如何面對大模型芯片的復(fù)雜挑戰(zhàn)?

    在大語言模型時(shí)代,急劇增長的底層算力需求和多樣化的創(chuàng)新應(yīng)用催生了芯片行業(yè)的新機(jī)遇。
    的頭像 發(fā)表于 03-20 17:29 ?378次閱讀
    思爾芯如何面對大<b class='flag-5'>模型</b><b class='flag-5'>芯片</b>的復(fù)雜<b class='flag-5'>挑戰(zhàn)</b>?

    Groq推出大模型推理芯片 超越了傳統(tǒng)GPU和谷歌TPU

    Groq推出了模型推理芯片,以每秒500tokens的速度引起轟動(dòng),超越了傳統(tǒng)GPU和谷歌TPU。
    的頭像 發(fā)表于 02-26 10:24 ?886次閱讀
    Groq推出大<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b> 超越了傳統(tǒng)GPU和谷歌TPU

    HarmonyOS:使用MindSpore Lite引擎進(jìn)行模型推理

    場景介紹 MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件設(shè)備 AI 模型推理的功能,目前已經(jīng)在圖像分類、目標(biāo)識別、人臉識別、文字識別等應(yīng)用中廣泛使用。 本文介紹
    發(fā)表于 12-14 11:41

    澎峰科技發(fā)布大模型推理引擎PerfXLLM

    自從2020年6月OpenAI發(fā)布chatGPT之后,基于 Transformer 網(wǎng)絡(luò)結(jié)構(gòu)的 語言大模型(LLM) 引發(fā)了全世界的注意與追捧,成為了人工智能領(lǐng)域的里程碑事件。 但大模型推理所需
    的頭像 發(fā)表于 11-25 15:35 ?988次閱讀
    澎峰科技發(fā)布大<b class='flag-5'>模型</b><b class='flag-5'>推理</b>引擎PerfXLLM

    大型語言模型的邏輯推理能力探究

    最新研究揭示,盡管大語言模型LLMs在語言理解上表現(xiàn)出色,但在邏輯推理方面仍有待提高。為此,研究者們推出了GLoRE,一個(gè)全新的邏輯推理評估基準(zhǔn),包含12個(gè)數(shù)據(jù)集,覆蓋三大任務(wù)類型。
    的頭像 發(fā)表于 11-23 15:05 ?850次閱讀
    大型語言<b class='flag-5'>模型</b>的邏輯<b class='flag-5'>推理</b>能力探究

    使用rk3588多npu推理模型,模型推理時(shí)間還增加了,這怎么解釋

    使用rk3588多npu推理模型,模型推理時(shí)間還增加了,這怎么解釋
    發(fā)表于 11-05 18:22