0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

云原生是大模型“降本增效”的解藥嗎?

科技云報到 ? 來源:jf_60444065 ? 作者:jf_60444065 ? 2024-02-20 09:31 ? 次閱讀

科技云報道原創(chuàng)。

在過去一兩年里,以GPT和Diffusion model為代表的大語言模型和生成式AI,將人們對AI的期待推向了一個新高峰,并吸引了千行百業(yè)嘗試在業(yè)務中利用大模型。

國內各家大廠在大模型領域展開了激烈的軍備競賽,如:文心大模型、通義千問、混元大模型、盤古大模型等等,這些超大規(guī)模的模型訓練參數都在千億以上,有的甚至超過萬億級。

即便訓練一次千億參數量模型的成本可能就高達數百萬美元,但大廠們依然拼盡全力,除此之外也有很多行業(yè)企業(yè)希望擁有自己的專屬大模型。

對于企業(yè)來說,要想在大模型的競爭中勝出,就必須充分利用算力,并且構建高效穩(wěn)定的服務運行環(huán)境,這就對IT基礎設施能力提出了更高的要求。

而云原生正是比拼的重要一環(huán)。云原生技術的自動化部署和管理、彈性伸縮等功能,能夠有效提高大模型應用效率并降低成本。

據Gartner預測,2023年70%的AI應用會基于容器和Serverless技術開發(fā)。在實際生產中,越來越多的AI業(yè)務,比如自動駕駛、NLP等,也正在轉向容器化部署。

那么,云原生是如何幫助大模型降本增效,在這個過程中又遇到了哪些挑戰(zhàn)?

云原生成為大模型的標配

近年來,容器和Kubernetes已經成為越來越多AI應用首選的運行環(huán)境和平臺。

一方面,Kubernetes幫助用戶標準化異構資源和運行時環(huán)境、簡化運維流程;另一方面,AI這種重度依賴GPU的場景可以利用K8s的彈性優(yōu)勢節(jié)省資源成本。

隨著大模型浪潮的到來,以云原生環(huán)境運行AI應用正在變成一種事實標準。

彈性伸縮與資源管理

大模型訓練往往需要大量的計算資源,而云原生環(huán)境通過容器化和編排工具可以實現資源的彈性調度與自動擴縮容。

這意味著在大模型訓練過程中可以迅速獲取所需資源,并在任務完成后釋放資源,降低閑置成本。

分布式計算支持

云原生架構天然支持分布式系統(tǒng),大模型訓練過程中的并行計算需求可以通過云上的分布式集群輕松實現,從而加速模型收斂速度。

微服務架構與模塊化設計

大模型推理服務可以被分解為多個微服務,比如預處理服務、模型加載服務和后處理服務等,這些服務能夠在云原生環(huán)境中獨立部署、升級和擴展,提高系統(tǒng)的可維護性和迭代效率。

持續(xù)集成/持續(xù)部署(CI/CD)

云原生理念強調快速迭代和自動化運維,借助CI/CD流程,大模型的研發(fā)團隊能夠以更高效的方式構建、測試和部署模型版本,確保模型更新的敏捷性。

存儲與數據處理

云原生提供了多種數據持久化和臨時存儲解決方案,有助于解決大模型所需的大量數據讀取和寫入問題。

同時,利用云上大數據處理和流式計算能力可以對大規(guī)模數據進行有效預處理和后處理。

可觀測性和故障恢復

在云原生環(huán)境下,監(jiān)控、日志和追蹤功能完善,使得大模型服務的狀態(tài)更加透明,遇到問題時能更快地定位和修復,保證服務高可用性。

總體而言,云原生架構的諸多優(yōu)勢契合了大模型在計算密集、數據驅動、迭代頻繁等方面的需求,能夠為大模型帶來成本、性能、效率等多方面的價值,因而成為大模型發(fā)展的標配。

大模型對云原生能力提出新挑戰(zhàn)

盡管云原生對于大模型有著天然的優(yōu)勢,但是面對LLM、AIGC這樣的新領域,依然對云原生能力提出了更多挑戰(zhàn)。

在訓練階段,大模型對計算、存儲、網絡等基礎架構的要求都更高。

規(guī)模上,要訓練出具有廣泛知識和專業(yè)領域理解及推理能力的大語言模型,往往需要高達萬卡級別的GPU集群和PB級的數據存儲以及TB級的數據吞吐。

此外,高性能網絡也將達到單機800Gbps甚至3.2Tbps的RDMA互聯。

性能方面,隨著模型體積和參數量的增長,單張顯卡已無法承載完整的模型。因此需要使用多張顯卡進行分布式訓練,并采用各種混合并行策略進行加速。

這些策略包括數據并行、模型并行、流水線并行以及針對語言模型的序列并行等,以及各種復雜的組合策略。

在推理階段,大模型需要提供高效且穩(wěn)定的推理服務,這需要不斷優(yōu)化其性能,并確保服務質量(QoS)得到保證。

在此基礎上,最重要的目標是提高資源效率和工程效率。一方面,持續(xù)提高資源利用效率,并通過彈性擴展資源規(guī)模,以應對突發(fā)的計算需求。

另一方面,要最優(yōu)化算法人員的工作效率,提高模型迭代速度和質量。

由此可見,大模型對云原生技術提出了新的能力要求:

一是,統(tǒng)一管理異構資源,提升資源利用率。

從異構資源管理的角度,對IaaS云服務或者IDC內的各種異構計算(如 CPU,GPU,NPU,VPU,FPGA,ASIC)、存儲(OSS,NAS, CPFS,HDFS)、網絡(TCP, RDMA)資源進行抽象,統(tǒng)一管理、運維和分配,通過彈性和軟硬協同優(yōu)化,持續(xù)提升資源利用率。

在運維過程中,需要多維度的異構資源可觀測性,包括監(jiān)控、健康檢查、告警、自愈等自動化運維能力。

對于寶貴的計算資源,如GPU和NPU等加速器,需要通過各種調度、隔離和共享的方法,最大限度地提高其利用率。

在此過程中,還需要持續(xù)利用云資源的彈性特征,持續(xù)提高資源的交付和使用效率。

二是,通過統(tǒng)一工作流和調度,實現 AI、大數據等多類復雜任務的高效管理。

對于大規(guī)模分布式AI任務,需要提供豐富的任務調度策略,如Gang scheduling、Capacity scheduling、Topology aware scheduling、優(yōu)先級隊列等,并使用工作流或數據流的方式串聯起整個任務流水線。

同時,需兼容Tensorflow,Pytorch,Horovod,ONNX,Spark,Flink等各種計算引擎和運行時,統(tǒng)一運行各類異構工作負載流程,統(tǒng)一管理作業(yè)生命周期,統(tǒng)一調度任務工作流,保證任務規(guī)模和性能。

一方面不斷提升運行任務的性價比,另一方面持續(xù)改善開發(fā)運維體驗和工程效率。

此外,在計算框架與算法層面適配資源彈性能力,提供彈性訓練和彈性推理服務,優(yōu)化任務整體運行成本。

除了計算任務優(yōu)化,還應關注數據使用效率的優(yōu)化。為此,需要統(tǒng)一的數據集管理、模型管理和訪問性能優(yōu)化等功能,并通過標準API和開放式架構使其易于被業(yè)務應用程序集成。

對于大模型還有一個主要能力,就是能夠在分鐘級內準備好開發(fā)環(huán)境和集群測試環(huán)境,幫助算法工程師開始執(zhí)行深度學習任務。

把端到端的 AI 生產過程通過相同的編程模型、運維方式進行交付。

結語

隨著大模型等AI技術的不斷發(fā)展,云原生技術將面臨一些新的挑戰(zhàn)和需求。例如,如何快速適應新的開源大模型訓練方法,以及如何提高大模型推理性能并確保其質量和穩(wěn)定性。

同時,也需要關注一些前沿技術和創(chuàng)新能力,通過標準化和可編程的方式來集成,不斷迭代業(yè)務應用,形成 AI+ 或 LLM+ 的新應用開發(fā)模式和編程模型。

但無論技術如何發(fā)展,為大模型提供快速、準確、穩(wěn)定且成本可控的服務,保證大模型訓練和推理的成本、性能和效率,都將成為企業(yè)為其價值買單的根本。

【關于科技云報道】

專注于原創(chuàng)的企業(yè)級內容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領域Top10媒體。獲工信部權威認可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數據、人工智能、區(qū)塊鏈等領域。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    29359

    瀏覽量

    267635
  • 云原生
    +關注

    關注

    0

    文章

    239

    瀏覽量

    7924
  • 大模型
    +關注

    關注

    2

    文章

    2206

    瀏覽量

    2227
收藏 人收藏

    評論

    相關推薦

    谷景電感替代國外品牌電感助力客戶降本增效

    谷景電感成功替代國外品牌電感助力客戶降本增效編輯:谷景電子在電子元器件領域,使用國產電子器件替代國外進口品牌的趨勢日益明顯,尤其是在電感產品領域。近期,谷景就成功幫助一位客戶成功完成了電感替代方案
    發(fā)表于 09-16 23:17 ?0次下載

    云原生和非云原生哪個好?六大區(qū)別詳細對比

    云原生和非云原生各有優(yōu)劣,具體選擇取決于應用場景。云原生利用云計算的優(yōu)勢,通過微服務、容器化和自動化運維等技術,提高了應用的可擴展性、更新速度和成本效益。非云原生則可能更適合對延遲敏感
    的頭像 發(fā)表于 09-13 09:53 ?245次閱讀

    光伏電站智慧運維系統(tǒng)助力光伏電站降本增效

    光伏電站智慧運維系統(tǒng)助力光伏電站降本增效 隨著光伏行業(yè)的不斷發(fā)展,光伏運維的重要性日益提升,因此公眾智能監(jiān)測結合相關的計算機技術和數據處理技術,自主研發(fā)了光伏電站智慧運維系統(tǒng),該系
    的頭像 發(fā)表于 09-06 16:50 ?310次閱讀
    光伏電站智慧運維系統(tǒng)助力光伏電站<b class='flag-5'>降本增效</b>

    市場解讀 對話展商 磁元件峰會揭秘新能源降本增效秘籍

    現場對話華東磁性元件產業(yè)鏈峰會展商,揭秘高性能材料與智能化設備如何攜手并進,為新能源產業(yè)注入強勁動力,實現降本增效的綠色新篇章! 隨著科技的進步,磁性元件行業(yè)正加速向高性能材料創(chuàng)新與智能化生產方向
    的頭像 發(fā)表于 08-06 13:44 ?175次閱讀
    市場解讀 對話展商 磁元件峰會揭秘新能源<b class='flag-5'>降本增效</b>秘籍

    京東云原生安全產品重磅發(fā)布

    “安全產品那么多,我怎么知道防住了?”“大家都說自己是云原生的,我看都是換湯不換藥”在與客戶溝通云原生安全方案的時候,經常會遇到這樣的吐槽。越來越的客戶已經開始了云原生化的技術架構改造,也意識到
    的頭像 發(fā)表于 07-26 10:36 ?350次閱讀
    京東<b class='flag-5'>云原生</b>安全產品重磅發(fā)布

    從積木式到裝配式云原生安全

    云原生安全風險 隨著云原生架構的快速發(fā)展,核心能力逐漸穩(wěn)定,安全問題日趨緊急。在云原生安全領域不但有新技術帶來的新風險,傳統(tǒng)IT基礎設施下的安全威脅也依然存在。要想做好云原生安全,就要
    的頭像 發(fā)表于 07-26 10:35 ?220次閱讀
    從積木式到裝配式<b class='flag-5'>云原生</b>安全

    AR眼鏡:醫(yī)藥廠商降本增效新利器

    在快速迭代的醫(yī)藥行業(yè)中,每一分效率的提升都意味著更多的機遇與成本節(jié)約。面對復雜多變的市場環(huán)境,特別是疫情帶來的挑戰(zhàn),醫(yī)藥廠商們正積極尋求創(chuàng)新與突破。讓我們一同探索AR眼鏡如何成為醫(yī)藥廠商降本增效的得力
    的頭像 發(fā)表于 07-23 13:39 ?195次閱讀

    直線電機模組:米思米如何以“磁”之力,引領降本增效新風尚?

    在“降本增效”成為企業(yè)共識的今天,米思米直線電機模組以其獨特的磁力驅動技術、優(yōu)化的結構設計以及高性價比優(yōu)勢脫穎而出成為了眾多企業(yè)的首選。
    的頭像 發(fā)表于 07-23 11:16 ?241次閱讀

    隆基分布式光伏電站助力鑄造企業(yè)降本增效

    在能源轉型與環(huán)保升級的大潮中,積極為“碳達峰、碳中和”貢獻力量,是企業(yè)踐行社會責任的體現。隆基聯合山東峰瑞電力科技有限公司為山東省知名鑄造業(yè)企業(yè)——山東億佰通管道系統(tǒng)有限公司安裝的分布式光伏電站,既為企業(yè)降本增效,又為“雙碳事業(yè)”做出了貢獻。
    的頭像 發(fā)表于 07-19 10:20 ?395次閱讀

    原邊控制充電器芯片U6776D有利降本增效

    原邊控制充電器芯片U6776D有利降本增效SHENZHENYINLIANBAO高效|創(chuàng)新|進取原邊控制技術的實現依賴于初級調節(jié)技術、?變壓器容差補償、?線纜補償和?EMI優(yōu)化技術等,這些技術共同作用
    的頭像 發(fā)表于 07-19 08:10 ?287次閱讀
    原邊控制充電器芯片U6776D有利<b class='flag-5'>降本增效</b>

    降本增效,智能制造,離不開儲能散熱管理

    近年來,新能源汽車發(fā)展增速面臨下滑,產銷量承載壓力,動力電池產業(yè)鏈的材料價格也因為供需轉換開始呈現下降趨勢,特別體現在電池級碳酸鋰價格上。 在這種情況下,降本增效、智能制造,便成為現階段動力電池產業(yè)
    的頭像 發(fā)表于 07-04 13:58 ?233次閱讀
    <b class='flag-5'>降本增效</b>,智能制造,離不開儲能散熱管理

    無人機智能巡檢系統(tǒng)助力光伏運維降本增效

    無人機智能巡檢系統(tǒng)助力光伏運維降本增效 如今,我國已實現光伏制造業(yè)水平、光伏發(fā)電裝機量和光伏發(fā)電量三項世界之首,在國家扶持與產業(yè)飛速發(fā)展下,光伏產業(yè)如何走深、走精、走長也成為了無可避免的問題。同時
    的頭像 發(fā)表于 06-25 17:15 ?401次閱讀

    清遠mes管理系統(tǒng)助力企業(yè)降本增效

    清遠 MES管理系統(tǒng) 可以幫助企業(yè)降本增效的方式包括但不限于以下幾個方面: 生產過程優(yōu)化: 清遠MES系統(tǒng) 可以實時監(jiān)控生產過程中的各個環(huán)節(jié),包括設備狀態(tài)、生產進度、質量指標等,幫助企業(yè)管理人員及時
    的頭像 發(fā)表于 06-17 15:01 ?227次閱讀

    智能電表使用國產SF25C20晶圓合封MCU助力企業(yè)降本增效

    智能電表使用國產SF25C20晶圓合封MCU助力企業(yè)降本增效
    的頭像 發(fā)表于 04-15 09:24 ?496次閱讀
    智能電表使用國產SF25C20晶圓合封MCU助力企業(yè)<b class='flag-5'>降本增效</b>

    智佳能:鋰電智造升級與降本增效

    要拿到新能源新賽段的入場券,對于裝備企業(yè)而言,一是要裝備本身降本,二是產線投資降本,三是賦能電池在生產運營中長期降本。
    的頭像 發(fā)表于 12-13 10:54 ?846次閱讀