0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型端側(cè)部署加速,都有哪些芯片可支持?

Carol Li ? 來源:電子發(fā)燒友 ? 作者:李彎彎 ? 2024-05-24 00:14 ? 次閱讀

電子發(fā)燒友網(wǎng)報道(文/李彎彎)大模型在端側(cè)部署是指將大型神經(jīng)網(wǎng)絡(luò)模型部署在移動終端設(shè)備上,使這些設(shè)備能夠直接運(yùn)行這些模型,從而執(zhí)行各種人工智能任務(wù),如圖像識別、語音識別、自然語言處理等。隨著大模型小型化、場景化需求的增加,推理逐步從云端擴(kuò)展向端側(cè)。這種趨勢在PC和手機(jī)等終端產(chǎn)品上尤為明顯。

大模型在端側(cè)部署加速

大模型在端側(cè)部署的過程通常包括幾個階段,首先是模型訓(xùn)練階段,在這個階段,使用大量的標(biāo)注數(shù)據(jù)訓(xùn)練出對應(yīng)的模型文件。訓(xùn)練時需要考慮模型的大小和計算量,以便適應(yīng)端側(cè)設(shè)備的硬件條件。

接著是模型壓縮,為了降低模型在端側(cè)設(shè)備上的存儲和運(yùn)行壓力,通常需要對模型進(jìn)行壓縮。這可以通過剪枝、量化等手段來實現(xiàn),以減小模型的大小和降低計算復(fù)雜度。

再就是模型部署,在這個階段,將壓縮后的模型部署到端側(cè)設(shè)備上。這包括將模型文件傳輸?shù)皆O(shè)備上,在設(shè)備上安裝必要的推理引擎和運(yùn)行時環(huán)境等步驟。

最后,在模型部署完成后,端側(cè)設(shè)備就可以使用這些模型進(jìn)行推理計算了。這通常包括加載模型、輸入數(shù)據(jù)預(yù)處理、模型計算、結(jié)果輸出等步驟。

在大模型端側(cè)部署過程中,需要考慮一些技術(shù)挑戰(zhàn)和限制。例如,端側(cè)設(shè)備的硬件條件通常比云端服務(wù)器要差很多,因此需要在模型設(shè)計和壓縮階段充分考慮這些因素。此外,端側(cè)設(shè)備的網(wǎng)絡(luò)帶寬和延遲也可能對模型推理的實時性和準(zhǔn)確性產(chǎn)生影響。

為了克服這些挑戰(zhàn)和限制,一些技術(shù)工具和平臺被開發(fā)出來,如MLflow、Ray Serve、Kubeflow、Seldon Core、BentoML和ONNX Runtime等。這些工具可以幫助用戶更方便地構(gòu)建、部署和管理機(jī)器學(xué)習(xí)模型,從而提高模型在端側(cè)設(shè)備上的性能和可用性。

現(xiàn)如今,大模型在端側(cè)的部署正在加速。在PC領(lǐng)域,繼英特爾推出首個AI PC處理器后,聯(lián)想集團(tuán)、惠普、宏碁等廠商相繼發(fā)布多款A(yù)I PC新品。據(jù)報道,已有超過10款筆記本可以本地運(yùn)行AI大模型,并且還有一批新品將陸續(xù)上市。

在手機(jī)領(lǐng)域,從2023年下半年開始,小米、OPPO、vivo等手機(jī)廠商紛紛在新系統(tǒng)中增加大模型能力。到2024年1月,中國手機(jī)市場Top5中,除蘋果之外,已經(jīng)全數(shù)發(fā)布自有端側(cè)大模型產(chǎn)品。

大模型在端側(cè)部署的優(yōu)勢也日益凸顯。一方面,端側(cè)部署可以降低數(shù)據(jù)傳輸延遲和帶寬限制,提高實時性和響應(yīng)速度。另一方面,端側(cè)部署可以更好地保護(hù)用戶隱私和數(shù)據(jù)安全,因為數(shù)據(jù)可以在本地進(jìn)行處理,而無需傳輸?shù)皆贫恕?br />
國內(nèi)外廠商推出支持大模型端側(cè)部署芯片

大模型要在端側(cè)部署離不開芯片的支持,英特爾、高通、聯(lián)發(fā)科等都推出了針對大模型在PC、手機(jī)等移動端部署所需的芯片。英特爾推出了首款基于Intel 4制程的酷睿Ultra系列處理器第一代產(chǎn)品Meteor Lake,這款處理器首次在客戶端CPU中采用了Chiplet(芯粒)設(shè)計和自家的Foveros先進(jìn)封裝技術(shù),集成了NPU(神經(jīng)網(wǎng)絡(luò)處理單元),可以本地運(yùn)行200億參數(shù)大模型,無需聯(lián)網(wǎng)即可秒級生成高質(zhì)量多模態(tài)數(shù)據(jù)。

高通發(fā)布的第三代驍龍8移動平臺,是其首個專為生成式AI打造的移動平臺。該平臺支持在終端側(cè)運(yùn)行100億參數(shù)的模型,并面向70億參數(shù)大預(yù)言模型每秒生成高達(dá)20個token,且能夠在終端側(cè)通過Stable Diffusion生成圖片。

此外,高通還推出了AI Hub,這是一個為開發(fā)者提供的AI模型庫,包括傳統(tǒng)AI模型和生成式AI模型,能夠支持在驍龍和高通平臺上進(jìn)行部署。這個模型庫支持超過75個AI模型,如Whisper、ControlNet、Stable Diffusion和Baichuan-7B等,開發(fā)者可以輕松地獲取這些模型并將其集成到應(yīng)用程序中。

聯(lián)發(fā)科與阿里云展開深度合作,在天璣9300和天璣8300移動平臺上實現(xiàn)了通義千問大模型的端側(cè)部署。聯(lián)發(fā)科的天璣系列移動芯片,如天璣9300和天璣8300,都是高性能、高能效的移動計算平臺。這些芯片不僅具有強(qiáng)大的處理能力,還支持先進(jìn)的5G技術(shù)和生成式AI技術(shù),為端側(cè)大模型部署提供了堅實的基礎(chǔ)。

另外,國內(nèi)的愛芯元智、芯動力科技公司也針對大模型在端側(cè)的部署優(yōu)化產(chǎn)品。愛芯元智的AX650N芯片在大模型端側(cè)部署方面就展現(xiàn)出了顯著的優(yōu)勢。

具體來說,AX650N在部署Swin Transformer這類大型視覺模型時,能夠保持高精度和高效率。由于大部分端側(cè)AI芯片在架構(gòu)上對于MHA(Multi-Head Attention)結(jié)構(gòu)沒有過多優(yōu)化,因此部署大型模型時往往需要進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的修改,這可能導(dǎo)致精度下降和重訓(xùn)的麻煩。然而,AX650N通過其獨特的架構(gòu)和優(yōu)化,能夠直接支持原版Swin Transformer的部署,從測試板到demo復(fù)現(xiàn)只需要5分鐘,私有模型在私有環(huán)境中運(yùn)行也僅需1小時。

此外,AX650N還具備32路視頻解碼/視頻結(jié)構(gòu)化處理、被動散熱、支持低延時編解碼、HDMI輸出和USB 3.0等特性,這些特性使得它非常適合用于各種視覺感知和邊緣計算的應(yīng)用場景。在大模型端側(cè)部署方面,AX650N不僅提供了強(qiáng)大的計算能力,還通過其易部署和低功耗的特點,為實際應(yīng)用落地提供了更多的可能性。

芯動力科技是一家清華系的AI芯片創(chuàng)企,他們面向大模型推出了AzureBlade L系列M.2加速卡。這款加速卡具有強(qiáng)大的性能,能夠順利運(yùn)行大模型系統(tǒng),并且其大小僅為80mm(長)x22mm(寬),非常適合在PC等端側(cè)設(shè)備上部署。

AzureBlade L系列M.2加速卡已經(jīng)實現(xiàn)了與Llama 2、Stable Diffusion等模型的適配,成為助推大模型在端側(cè)設(shè)備上部署的加速器。這種具備體積小、性能強(qiáng),且有通用接口的M.2加速卡,能夠突破端側(cè)設(shè)備有限的計算和存儲能力,為大模型在端側(cè)的落地提供了機(jī)會。

寫在最后

大模型在端側(cè)部署是一個復(fù)雜的過程,需要考慮多種因素和技術(shù)挑戰(zhàn)。但是通過合理的模型設(shè)計、壓縮和優(yōu)化以及使用適當(dāng)?shù)墓ぞ吆推脚_,就可以讓端側(cè)設(shè)備具備更強(qiáng)的人工智能能力。如今,在產(chǎn)業(yè)鏈各環(huán)節(jié)的努力下,大模型在端側(cè)部署的現(xiàn)狀呈現(xiàn)出加速的趨勢,預(yù)計,未來隨著技術(shù)的不斷進(jìn)步和優(yōu)化,大模型在端側(cè)部署的應(yīng)用將會越來越廣泛。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4722

    瀏覽量

    100306
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2204

    瀏覽量

    2227
收藏 人收藏

    評論

    相關(guān)推薦

    模型向邊側(cè)部署,AI加速卡朝高算力、小體積發(fā)展

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)AI加速卡是專門用于處理人工智能應(yīng)用中的大量計算任務(wù)的模塊。它集成了高性能的計算核心和大量的內(nèi)存,旨在加速機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等算法的計算過程。當(dāng)前,AI加速卡市場呈現(xiàn)出
    的頭像 發(fā)表于 09-17 00:18 ?2701次閱讀

    基于AX650N/AX630C部署側(cè)大語言模型Qwen2

    本文將分享如何將最新的側(cè)大語言模型部署到超高性價比SoC上,向業(yè)界對側(cè)大模型部署的開發(fā)者提供
    的頭像 發(fā)表于 07-06 17:43 ?2980次閱讀
    基于AX650N/AX630C<b class='flag-5'>部署</b><b class='flag-5'>端</b>側(cè)大語言<b class='flag-5'>模型</b>Qwen2

    后摩智能引領(lǐng)AI芯片革命,推出邊模型AI芯片M30

    在人工智能(AI)技術(shù)飛速發(fā)展的今天,AI大模型部署需求正迅速從云端向側(cè)和邊緣側(cè)設(shè)備遷移。這一轉(zhuǎn)變對AI芯片的性能、功耗和響應(yīng)速度提出了前所未有的挑戰(zhàn)。正是在這樣的背景下,后摩智能
    的頭像 發(fā)表于 06-28 15:13 ?567次閱讀

    支持模型部署和運(yùn)行的邊緣計算SoC芯片

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)如今,AI在邊緣側(cè)的應(yīng)用越來越廣泛,這其中少不了AI SoC芯片支持,邊緣計算AI SoC是一種集成了人工智能(AI)和邊緣計算能力的系統(tǒng)級芯片。這種芯片
    的頭像 發(fā)表于 05-27 08:00 ?2991次閱讀

    聯(lián)發(fā)科旗艦芯片部署阿里云大模型

    全球智能手機(jī)芯片出貨量領(lǐng)先的半導(dǎo)體公司聯(lián)發(fā)科近日宣布,已成功在天璣9300等旗艦芯片上集成阿里云通義千問大模型,實現(xiàn)了大模型在手機(jī)芯片
    的頭像 發(fā)表于 03-28 13:59 ?426次閱讀

    牽手NVIDIA 元戎啟行模型將搭載 DRIVE Thor芯片

    NVIDIA的DRIVE Thor芯片適配公司的智能駕駛模型。據(jù)悉,元戎啟行是業(yè)內(nèi)首批能用 DRIVE Thor芯片適配
    發(fā)表于 03-25 11:49 ?280次閱讀
    牽手NVIDIA 元戎啟行<b class='flag-5'>端</b>到<b class='flag-5'>端</b><b class='flag-5'>模型</b>將搭載 DRIVE Thor<b class='flag-5'>芯片</b>

    使用CUBEAI部署tflite模型到STM32F0中,模型創(chuàng)建失敗怎么解決?

    看到CUBE_AI已經(jīng)支持到STM32F0系列芯片,就想拿來入門嵌入式AI。 生成的模型很小,是可以部署到F0上的,但是一直無法創(chuàng)建成功。 查閱CUBE AI文檔說在調(diào)用create
    發(fā)表于 03-15 08:10

    人工智能十大趨勢預(yù)測:更多多模態(tài)、大模型側(cè)部署加速!智能化應(yīng)用呈爆發(fā)式增長

    。 ? 而2024年被認(rèn)為是大模型的應(yīng)用之年,不難看到,人工智能將會呈現(xiàn)一些明顯趨勢。如:無論是在消費級還是垂直行業(yè)領(lǐng)域,大模型的應(yīng)用都會加速;在市場應(yīng)用的驅(qū)動下,無論是算力、數(shù)據(jù),還是多模態(tài)大
    的頭像 發(fā)表于 02-18 00:03 ?3634次閱讀

    Meta計劃今年部署自研定制芯片,以加速AI研發(fā)

    Meta公司近日宣布計劃在今年內(nèi)為其數(shù)據(jù)中心部署一款自研定制芯片,以支持其人工智能(AI)的研發(fā)工作。這一舉措旨在提高M(jìn)eta在AI領(lǐng)域的競爭力,并加速其技術(shù)發(fā)展。
    的頭像 發(fā)表于 02-03 10:48 ?553次閱讀

    邊緣側(cè)部署模型優(yōu)勢多!模型量化解決邊緣設(shè)備資源限制問題

    設(shè)備上,可以減少數(shù)據(jù)傳輸?shù)难舆t和帶寬需求,提高模型的實時性和響應(yīng)速度。 ? 邊緣部署模型的優(yōu)勢 ? 邊緣側(cè)部署
    的頭像 發(fā)表于 01-05 00:06 ?3162次閱讀

    AI大模型側(cè)加速落地已成必然趨勢,芯片廠商提前布局!

    普遍認(rèn)為,2024年AI大模型在商業(yè)應(yīng)用會有極大突破。 ? “AI大模型側(cè)的加速落地已成必然趨勢?!痹谛清房萍忌现芘e辦的2023開發(fā)者大會暨產(chǎn)品發(fā)布會上,該公司董事長&總經(jīng)理林永育
    的頭像 發(fā)表于 12-29 00:47 ?2077次閱讀
    AI大<b class='flag-5'>模型</b>在<b class='flag-5'>端</b>側(cè)<b class='flag-5'>加速</b>落地已成必然趨勢,<b class='flag-5'>芯片</b>廠商提前布局!

    AI大模型接入手機(jī),行業(yè)迎來新一輪競賽

    選擇側(cè)部署,看上去最劃算 當(dāng)前,AI大模型接入手機(jī)存在兩種選擇:云端部署側(cè)部署。
    發(fā)表于 12-05 10:11 ?646次閱讀
    AI大<b class='flag-5'>模型</b>接入手機(jī),行業(yè)迎來新一輪競賽

    如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

    背景介紹 大語言模型正以其驚人的新能力推動人工智能的發(fā)展,擴(kuò)大其應(yīng)用范圍。然而,由于這類模型具有龐大的參數(shù)規(guī)模,部署和推理的難度和成本極高,這一挑戰(zhàn)一直困擾著 AI 領(lǐng)域。此外,當(dāng)前存在大量
    的頭像 發(fā)表于 12-04 20:25 ?842次閱讀
    如何在 NVIDIA TensorRT-LLM 中<b class='flag-5'>支持</b> Qwen <b class='flag-5'>模型</b>

    走向邊緣智能,美格智能攜手阿加犀成功在高算力AI模組上運(yùn)行一系列大語言模型

    模型、RedPajama、ChatGLM2、Vicuna,展現(xiàn)出卓越的邊緣模型部署能力。▌構(gòu)建智算底座,加速
    的頭像 發(fā)表于 11-14 14:34 ?370次閱讀
    走向邊緣智能,美格智能攜手阿加犀成功在高算力AI模組上運(yùn)行一系列大語言<b class='flag-5'>模型</b>

    基于OpenVINO C# API部署RT-DETR模型

    RT-DETR 是在 DETR 模型基礎(chǔ)上進(jìn)行改進(jìn)的,一種基于 DETR 架構(gòu)的實時檢測器,它通過使用一系列新的技術(shù)和算法,實現(xiàn)了更高效的訓(xùn)練和推理,在前文我們發(fā)表了《基于 OpenVINO
    的頭像 發(fā)表于 11-10 16:59 ?658次閱讀
    基于OpenVINO C# API<b class='flag-5'>部署</b>RT-DETR<b class='flag-5'>模型</b>