亚洲五月,亚洲综合一区,国产精品亚洲精品观看不卡

科技云報(bào)道原創(chuàng)。

AI大模型正在倒逼數(shù)字基礎(chǔ)設(shè)施產(chǎn)業(yè)加速升級(jí)。

過去一年半，AI大模型標(biāo)志性的應(yīng)用相繼出現(xiàn)，從ChatGPT到Sora一次次刷新人們的認(rèn)知。震撼的背后，是大模型參數(shù)指數(shù)級(jí)的增長。

這種數(shù)據(jù)暴漲的壓力，快速傳導(dǎo)到了大模型的底層基礎(chǔ)設(shè)施。作為支撐大模型的底座“三大件”——算力、網(wǎng)絡(luò)、存儲(chǔ)，都在快速的迭代。

算力方面，英偉達(dá)用了兩年的時(shí)間就將GPU從H100升級(jí)到了H200，讓模型的訓(xùn)練性能提升了5倍。

網(wǎng)絡(luò)方面，從之前的25G升級(jí)到現(xiàn)在的200G，網(wǎng)絡(luò)帶寬提升了6倍。隨著RDMA大規(guī)模的應(yīng)用，網(wǎng)絡(luò)延遲也降低了60%。

存儲(chǔ)方面，華為、阿里云、百度智能云、騰訊云等大廠，都相繼推出了面向AI大模型的存儲(chǔ)方案。

那么作為基礎(chǔ)設(shè)施的三大件之一的存儲(chǔ)，在AI大模型的場景下到底發(fā)生了哪些變化？又有哪些新的技術(shù)挑戰(zhàn)？

AI大模型帶來的存儲(chǔ)挑戰(zhàn)

算力、算法、數(shù)據(jù)，在發(fā)展AI過程中的重要性早已為人所熟知，但是作為數(shù)據(jù)的承載，存儲(chǔ)卻往往被忽略。

在訓(xùn)練AI大模型的過程中，需要大量數(shù)據(jù)的交換，存儲(chǔ)作為數(shù)據(jù)的基礎(chǔ)硬件，并非僅僅只是簡單地記錄數(shù)據(jù)，而是深刻參與到了數(shù)據(jù)歸集、流轉(zhuǎn)、利用等大模型訓(xùn)練的全流程。

如果存儲(chǔ)性能不強(qiáng)，那么可能需要耗費(fèi)大量時(shí)間才能完成一次訓(xùn)練，這就會(huì)嚴(yán)重制約大模型的發(fā)展迭代。

事實(shí)上，不少企業(yè)在開發(fā)及實(shí)施大模型應(yīng)用過程中，已經(jīng)開始意識(shí)到存儲(chǔ)系統(tǒng)所面臨的巨大挑戰(zhàn)。

從AI大模型的研發(fā)生產(chǎn)流程看，可分為數(shù)據(jù)采集、清洗、訓(xùn)練和應(yīng)用四個(gè)階段，各階段都對存儲(chǔ)提出了新的要求，比如：

在數(shù)據(jù)采集環(huán)節(jié)，由于原始訓(xùn)練數(shù)據(jù)規(guī)模海量，且來源多樣，企業(yè)希望能夠有一個(gè)大容量、低成本、高可靠的數(shù)據(jù)存儲(chǔ)底座。

在數(shù)據(jù)清洗階段，網(wǎng)絡(luò)上收集的原始數(shù)據(jù)是不能直接用于AI模型訓(xùn)練的，需要將多格式、多協(xié)議的數(shù)據(jù)進(jìn)行清洗、去重、過濾、加工，行業(yè)內(nèi)稱其為“數(shù)據(jù)預(yù)處理”。

與傳統(tǒng)單模態(tài)小模型訓(xùn)練相比，多模態(tài)大模型所需的訓(xùn)練數(shù)據(jù)量是其1000倍以上，一個(gè)典型的百TB級(jí)大模型數(shù)據(jù)集，預(yù)處理時(shí)長超過10天，占比AI數(shù)據(jù)挖掘全流程的30%。

同時(shí)，數(shù)據(jù)預(yù)處理伴隨高并發(fā)處理，對算力消耗巨大。這就要求存儲(chǔ)能夠提供多協(xié)議、高性能的支持，用標(biāo)準(zhǔn)文件的方式完成海量數(shù)據(jù)的清洗和轉(zhuǎn)換，以縮短數(shù)據(jù)預(yù)處理的時(shí)長。

在模型訓(xùn)練環(huán)節(jié)，通常會(huì)出現(xiàn)訓(xùn)練集加載慢、易中斷、數(shù)據(jù)恢復(fù)時(shí)間長等問題。

相較于傳統(tǒng)學(xué)習(xí)模型，大模型訓(xùn)練參數(shù)、訓(xùn)練數(shù)據(jù)集指數(shù)級(jí)增加，如何實(shí)現(xiàn)海量小文件數(shù)據(jù)集快速加載，降低 GPU等待時(shí)間是關(guān)鍵。

目前，主流預(yù)訓(xùn)練模型已經(jīng)有千億級(jí)參數(shù)，而頻繁的參數(shù)調(diào)優(yōu)、網(wǎng)絡(luò)不穩(wěn)定、服務(wù)器故障等多種因素帶來訓(xùn)練過程不穩(wěn)定，易中斷返工，需要Checkpoints機(jī)制來確保訓(xùn)練回退到還原點(diǎn)，而不是初始點(diǎn)。

當(dāng)前，由于Checkpoints需要天級(jí)的恢復(fù)時(shí)長，導(dǎo)致大模型整體訓(xùn)練周期陡增，而面對單次超大的數(shù)據(jù)量和未來小時(shí)級(jí)的頻度要求，需要認(rèn)真考慮如何降低Checkpoints恢復(fù)時(shí)長。

因此，存儲(chǔ)能否快速地讀寫checkpoint（檢查點(diǎn)）文件，也成了能否高效利用算力資源、提高訓(xùn)練效率的關(guān)鍵。

在應(yīng)用階段，存儲(chǔ)需要提供比較豐富的數(shù)據(jù)審核的能力，來滿足鑒黃鑒暴安全合規(guī)的訴求，保證大模型生成的內(nèi)容是合法、合規(guī)的方式去使用。

總的來說，AI大模型訓(xùn)練的效率要達(dá)到極致，減少不必要的浪費(fèi)，必須在數(shù)據(jù)上下功夫。準(zhǔn)確地說，必須要在數(shù)據(jù)存儲(chǔ)技術(shù)上進(jìn)行創(chuàng)新。

AI倒逼存儲(chǔ)技術(shù)創(chuàng)新

根據(jù)投資機(jī)構(gòu)ARK Invest預(yù)算，到2030年，產(chǎn)業(yè)有望訓(xùn)練出比GPT-3多57倍參數(shù)、多720倍Token的AI模型，成本將從今天的170億美元降至60萬美元。隨著計(jì)算價(jià)格降低，數(shù)據(jù)將成為大模型生產(chǎn)的主要限制因素。

面對數(shù)據(jù)桎梏問題，不少企業(yè)已經(jīng)開始進(jìn)行前瞻性布局。

比如百川智能、智譜、元象等大模型企業(yè)，都已采用騰訊云AIGC云存儲(chǔ)解決方案來提升效率。

數(shù)據(jù)顯示，騰訊云AIGC云存儲(chǔ)解決方案，可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率均提升一倍，需要的時(shí)間縮短一半。

科大訊飛、中科院等大模型企業(yè)和機(jī)構(gòu)，則采用了華為AI存儲(chǔ)相關(guān)產(chǎn)品。

數(shù)據(jù)顯示，華為OceanStor A310可實(shí)現(xiàn)從數(shù)據(jù)歸集、預(yù)處理到模型訓(xùn)練、推理應(yīng)用的AI全流程海量數(shù)據(jù)管理，簡化數(shù)據(jù)歸集流程，減少數(shù)據(jù)搬移，預(yù)處理效率提升30%。

目前，國內(nèi)各大廠商也相繼發(fā)布了面向AI大模型場景的存儲(chǔ)方案。

2023年7月，華為發(fā)布兩款面向AI大模型的存儲(chǔ)產(chǎn)品——OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲(chǔ)和FusionCube A3000訓(xùn)/推超融合一體機(jī)。

2023年11月云棲大會(huì)上，阿里云推出一系列針對大模型場景的存儲(chǔ)產(chǎn)品創(chuàng)新，用AI技術(shù)賦能AI業(yè)務(wù)，幫助用戶更輕松地管理大規(guī)模多模態(tài)數(shù)據(jù)集，提高模型訓(xùn)練、推理的效率和準(zhǔn)確性。

2023年12月，百度智能云發(fā)布了“百度滄?！ご鎯?chǔ)”統(tǒng)一技術(shù)底座，同時(shí)面向數(shù)據(jù)湖存儲(chǔ)和AI存儲(chǔ)能力進(jìn)行了全面增強(qiáng)。

2024年4月，騰訊云宣布云存儲(chǔ)解決方案面向AIGC場景全面升級(jí)，針對AI大模型數(shù)據(jù)采集清洗、訓(xùn)練、推理、數(shù)據(jù)治理全流程提供全面、高效的云存儲(chǔ)支持。

綜合各大廠商的存儲(chǔ)技術(shù)創(chuàng)新，可以發(fā)現(xiàn)技術(shù)方向較為統(tǒng)一，都是基于AI大模型生產(chǎn)研發(fā)的全流程，對存儲(chǔ)產(chǎn)品進(jìn)行有針對性的性能優(yōu)化。

以騰訊云為例，在數(shù)據(jù)采集與清洗環(huán)節(jié)，首先需要存儲(chǔ)能夠支持多協(xié)議、高性能、大帶寬。

因此，騰訊云對象存儲(chǔ)COS能夠支持單集群管理百 EB 級(jí)別存儲(chǔ)規(guī)模，提供便捷、高效的數(shù)據(jù)公網(wǎng)接入能力，并支持多種協(xié)議，充分支持大模型PB級(jí)別的海量數(shù)據(jù)采集。

同時(shí)，數(shù)據(jù)清洗時(shí)，大數(shù)據(jù)引擎需要快速地讀取并過濾出有效數(shù)據(jù)。騰訊云對象存儲(chǔ)COS通過自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問性能，實(shí)現(xiàn)了高達(dá)數(shù)TBps的讀取帶寬，支撐計(jì)算高速運(yùn)行，大大提升數(shù)據(jù)清洗效率。

在模型訓(xùn)練環(huán)節(jié)，通常需要每2-4小時(shí)保存一次訓(xùn)練成果，以便能在GPU故障時(shí)時(shí)能回滾。

騰訊云自主研發(fā)并行文件存儲(chǔ)CFS Turbo ，面向AIGC訓(xùn)練場景的進(jìn)行了專門優(yōu)化，每秒總讀寫吞吐達(dá)到TiB/s級(jí)別，每秒元數(shù)據(jù)性能高達(dá)百萬OPS，均為業(yè)界第一。3TB checkpoint 寫入時(shí)間從10分鐘，縮短至10秒內(nèi)，使大模型訓(xùn)練效率大幅提升。

大模型推理場景對數(shù)據(jù)安全與可追溯性提出更高要求。

騰訊云數(shù)據(jù)萬象CI為此提供圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力，為數(shù)據(jù)生產(chǎn)從“用戶輸入——預(yù)處理——內(nèi)容審核——版權(quán)保護(hù)——安全分發(fā)——信息檢索”業(yè)務(wù)全流程提供有力支撐，優(yōu)化AIGC內(nèi)容生產(chǎn)與管理模式，順應(yīng)監(jiān)管導(dǎo)向，拓寬存儲(chǔ)邊界。

同時(shí)，隨著訓(xùn)練數(shù)據(jù)和推理數(shù)據(jù)的增長，需要提供低成本的存儲(chǔ)能力，減少存儲(chǔ)開銷。騰訊云對象存儲(chǔ)服務(wù)提供了高達(dá)12個(gè)9的數(shù)據(jù)持久性和99.995%的數(shù)據(jù)可用性，能夠?yàn)闃I(yè)務(wù)提供持續(xù)可用的存儲(chǔ)服務(wù)。

總的來說，隨著AI大模型的推進(jìn)，數(shù)據(jù)存儲(chǔ)出現(xiàn)了新的趨勢。市場渴望更高性能、大容量、低成本的存儲(chǔ)產(chǎn)品，并加速大模型各個(gè)環(huán)節(jié)的融合和效率提升。

而各大廠商也在通過技術(shù)創(chuàng)新不斷滿足大模型各環(huán)節(jié)的需求，為企業(yè)實(shí)施大模型降低門檻。

在AI大模型的倒逼下，存儲(chǔ)創(chuàng)新已在路上。

【關(guān)于科技云報(bào)道】

專注于原創(chuàng)的企業(yè)級(jí)內(nèi)容行家——科技云報(bào)道。成立于2015年，是前沿企業(yè)級(jí)IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可，可信云、全球云計(jì)算大會(huì)官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

存儲(chǔ)

存儲(chǔ)

+關(guān)注

關(guān)注
13

文章
4182

瀏覽量
85510
AI

AI

+關(guān)注

關(guān)注
87

文章
29475

瀏覽量
267807
騰訊云

騰訊云

+關(guān)注

關(guān)注
0

文章
207

瀏覽量
16736
AIGC

AIGC

+關(guān)注

關(guān)注
1

文章
346

瀏覽量
1460
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2235

瀏覽量
2278

ai大模型和ai框架的關(guān)系是什么

AI大模型和AI框架是人工智能領(lǐng)域中兩個(gè)重要的概念，它們之間的關(guān)系密切且復(fù)雜。 AI大模型的定義和特點(diǎn)

發(fā)表于 07-16 10:07 ?3.7w次閱讀

ai大模型和傳統(tǒng)ai的區(qū)別在哪？

AI大模型和傳統(tǒng)AI的區(qū)別主要體現(xiàn)在以下幾個(gè)方面：數(shù)據(jù)量和訓(xùn)練規(guī)模 AI大模型通常需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練，以獲得更好的性能。相比之下，傳統(tǒng)

發(fā)表于 07-16 10:06 ?1010次閱讀

AI大模型與小模型的優(yōu)缺點(diǎn)

在人工智能（AI）的廣闊領(lǐng)域中，模型作為算法與數(shù)據(jù)之間的橋梁，扮演著至關(guān)重要的角色。根據(jù)模型的大小和復(fù)雜度，我們可以將其大致分為AI大模型和

發(fā)表于 07-10 10:39 ?1986次閱讀

降價(jià)潮背后：大模型落地門檻真的降了嗎？

“比起價(jià)格門檻，AI大模型的應(yīng)用門檻，更難跨越?！贝?b class='flag-5'>模型爭相降價(jià)下，AI應(yīng)用的門檻真的降低了嗎？答案還真不一定。因?yàn)槌藘r(jià)格門檻，

發(fā)表于 06-13 08:04 ?275次閱讀

降價(jià)潮背后：大<b class='flag-5'>模型</b>落地門檻真的降<b class='flag-5'>了嗎</b>？

STM CUBE AI錯(cuò)誤導(dǎo)入onnx模型報(bào)錯(cuò)的原因？

使用cube-AI分析模型時(shí)報(bào)錯(cuò)，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 05-27 07:15

防止AI大模型被黑客病毒入侵控制（原創(chuàng)）聆思大模型AI開發(fā)套件評測4

設(shè)計(jì)中集成硬件安全模塊（HSM），該模塊可以提供安全的存儲(chǔ)、加密和解密服務(wù)。安全密鑰管理：使用HSM生成、存儲(chǔ)和管理用于保護(hù)AI模型的加密密鑰。 2.

發(fā)表于 03-19 11:18

cubemx ai導(dǎo)入onnx模型后壓縮失敗了怎么解決？

cubemx ai導(dǎo)入onnx模型后壓縮失敗。請問我怎么解決

發(fā)表于 03-19 07:58

AI大模型遠(yuǎn)程控制啟動(dòng)車輛（原創(chuàng)）

AI大模型

還沒吃飯

發(fā)布于 :2024年03月18日 15:18:29

使用cube-AI分析模型時(shí)報(bào)錯(cuò)的原因有哪些？

使用cube-AI分析模型時(shí)報(bào)錯(cuò)，該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.

發(fā)表于 03-14 07:09

AI大模型可以取代大學(xué)教育嗎？

AI大模型

電子發(fā)燒友網(wǎng)官方

發(fā)布于 :2024年01月02日 16:27:52

AI大模型怎么解決芯片過剩?

AI大模型

電子發(fā)燒友網(wǎng)官方

發(fā)布于 :2024年01月02日 15:42:05

AI大模型會(huì)不會(huì)取代電子工程師?

AI大模型

電子發(fā)燒友網(wǎng)官方

發(fā)布于 :2024年01月02日 15:11:43

AI大模型可以設(shè)計(jì)電路嗎?

AI大模型

電子發(fā)燒友網(wǎng)官方

發(fā)布于 :2024年01月02日 15:09:29

數(shù)聚AI ? 智慧未來 | 浪潮信息存儲(chǔ)助力企業(yè)基于大模型實(shí)現(xiàn)數(shù)字化創(chuàng)新

2023年生成式AI和大模型的爆發(fā)，讓我們面對一個(gè)變化更加快速也更加激動(dòng)人心的時(shí)代，隨著新質(zhì)生產(chǎn)力和算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展的提出，算力和存儲(chǔ)基礎(chǔ)設(shè)施也面臨著創(chuàng)新與破局，如何在生成式AI

發(fā)表于 11-30 16:25 ?394次閱讀