0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型的Scaling Law的概念和推導

深度學習自然語言處理 ? 來源:知乎 ? 2023-11-29 14:28 ? 次閱讀

作者:nghuyong

在大模型的研發(fā)中,通常會有下面一些需求:

1.計劃訓練一個10B的模型,想知道至少需要多大的數(shù)據(jù)?

2.收集到了1T的數(shù)據(jù),想知道能訓練一個多大的模型?

3.老板準備1個月后開發(fā)布會,給的資源是100張A100,應(yīng)該用多少數(shù)據(jù)訓多大的模型效果最好?

4.老板對現(xiàn)在10B的模型不滿意,想知道擴大到100B模型的效果能提升到多少?

以上這些問題都可以基于Scaling Law的理論進行回答。本文是閱讀了一系列 Scaling Law的文章后的整理和思考,包括Scaling Law的概念和推導以及反Scaling Law的場景,不當之處,歡迎指正。

核心結(jié)論

大模型的Scaling Law是OpenAI在2020年提出的概念[1],具體如下:

對于Decoder-only的模型,計算量(Flops), 模型參數(shù)量, 數(shù)據(jù)大小(token數(shù)),三者滿足:。(推導見本文最后)

模型的最終性能主要與計算量,模型參數(shù)量和數(shù)據(jù)大小三者相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。

31fcb884-8e70-11ee-939d-92fbcf53809c.png

固定模型的總參數(shù)量,調(diào)整層數(shù)/深度/寬度,不同模型的性能差距很小,大部分在2%以內(nèi)

3.對于計算量,模型參數(shù)量和數(shù)據(jù)大小,當不受其他兩個因素制約時,模型性能與每個因素都呈現(xiàn)冪律關(guān)系

32087e6c-8e70-11ee-939d-92fbcf53809c.png

4. 為了提升模型性能,模型參數(shù)量和數(shù)據(jù)大小需要同步放大,但模型和數(shù)據(jù)分別放大的比例還存在爭議。

5. Scaling Law不僅適用于語言模型,還適用于其他模態(tài)以及跨模態(tài)的任務(wù)[4]:

32100722-8e70-11ee-939d-92fbcf53809c.png

這里橫軸單位為PF-days: 如果每秒鐘可進行次運算,就是1 peta flops,那么一天的運算就是這個算力消耗被稱為1個petaflop/s-day。

核心公式

(?)=?∞+(?0?)?

3214b344-8e70-11ee-939d-92fbcf53809c.png

第一項是指無法通過增加模型規(guī)模來減少的損失,可以認為是數(shù)據(jù)自身的熵(例如數(shù)據(jù)中的噪音)

第二項是指能通過增加計算量來減少的損失,可以認為是模型擬合的分布與實際分布之間的差。根據(jù)公式,增大(例如計算量),模型整體loss下降,模型性能提升;伴隨趨向于無窮大,模型能擬合數(shù)據(jù)的真實分布,讓第二項逼近0,整體趨向于

大模型中的scaling law

下圖是GPT4報告[5]中的Scaling Law曲線,計算量和模型性能滿足冪律關(guān)系

321c9bcc-8e70-11ee-939d-92fbcf53809c.png

橫軸是歸一化之后的計算量,假設(shè)GPT4的計算量為1。基于10,000倍小的計算規(guī)模,就能預(yù)測最終GPT4的性能。

縱軸是"Bits for words", 這也是交叉熵的一個單位。在計算交叉熵時,如果使用以 2 為底的對數(shù),交叉熵的單位就是 "bits per word",與信息論中的比特(bit)概念相符。所以這個值越低,說明模型的性能越好。

Baichuan2

下圖是Baichuan2[6]技術(shù)報告中的Scaling Law曲線?;?0M到3B的模型在1T數(shù)據(jù)上訓練的性能,可預(yù)測出最后7B模型和13B模型在2.6T數(shù)據(jù)上的性能

32344484-8e70-11ee-939d-92fbcf53809c.png

MindLLM

下圖是MindLLM[7]技術(shù)報告中的Scaling Law曲線?;?0M到500M的模型在10B數(shù)據(jù)上訓練的性能,預(yù)測出最后3B模型在500B數(shù)據(jù)上的性能。

323b3a14-8e70-11ee-939d-92fbcf53809c.png

Scaling Law實操: 計算效率最優(yōu)

根據(jù)冪律定律,模型的參數(shù)固定,無限堆數(shù)據(jù)并不能無限提升模型的性能,模型最終性能會慢慢趨向一個固定的值

3243b540-8e70-11ee-939d-92fbcf53809c.png

如圖所示,如果模型的參數(shù)量為(圖中紫色的線),在數(shù)量達到,模型基本收斂。所以在數(shù)據(jù)量達到后,繼續(xù)增加數(shù)據(jù)產(chǎn)生的計算量,沒有同樣計算量下提升模型參數(shù)量帶來的收益大(計算效率更優(yōu))。根據(jù),可以進一步轉(zhuǎn)換成模型參數(shù)與計算量的關(guān)系,即: 模型參數(shù)為,在計算量為Flops,即PF-days時基本收斂。也就是右圖中紫色線的拐點。

按照上面的思路,下面進行Scaling Law的實操。

首先準備充足的數(shù)據(jù)(例如1T),設(shè)計不同模型參數(shù)量的小模型(例如0.001B - 1B),獨立訓練每個模型,每個模型都訓練到基本收斂(假設(shè)數(shù)據(jù)量充足)。根據(jù)訓練中不同模型的參數(shù)和數(shù)據(jù)量的組合,收集計算量與模型性能的關(guān)系。然后可以進一步獲得計算效率最優(yōu)時,即同樣計算量下性能最好的模型規(guī)模和數(shù)據(jù)大小的組合,模型大小與計算量的關(guān)系,以及數(shù)據(jù)大小與計算量的關(guān)系。

325aa9d0-8e70-11ee-939d-92fbcf53809c.png

如圖所示,根據(jù)左圖可以看到計算量與模型性能呈現(xiàn)冪律關(guān)系(可以認為數(shù)據(jù)和模型都不受限制),根據(jù)中圖和右圖,可以發(fā)現(xiàn),,即計算效率最優(yōu)時,模型的參數(shù)與計算量的冪次成線性關(guān)系,數(shù)據(jù)量的大小也與計算量的冪次成線性關(guān)系。

根據(jù),可以推算出,但是,分別是多少存在分歧。

OpenAI[1]認為模型規(guī)模更重要,即,而DeepMind在Chinchilla工作[2]和Google在PaLM工作[3]中都驗證了,即模型和數(shù)據(jù)同等重要。

所以假定計算量整體放大10倍,OpenAI認為模型參數(shù)更重要,模型應(yīng)放大100.73(5.32)倍,數(shù)據(jù)放大100.27(1.86)倍;后來DeepMind和Google認為模型參數(shù)量與數(shù)據(jù)同等重要,兩者都應(yīng)該分別放大100.5(3.16)倍。

326a9e3a-8e70-11ee-939d-92fbcf53809c.png

例如在PaLM的實驗中,計算量從 放大10倍到, 模型參數(shù)也提升了3.2倍,3.35B->10.7B。具體最好在自己的數(shù)據(jù)上做實驗來獲得你場景下的和

LLaMA: 反Scaling Law的大模型

假設(shè)遵循計算效率最優(yōu)來研發(fā)LLM,那么根據(jù)Scaling Law,給定模型大小,可以推算出最優(yōu)的計算量,進一步根據(jù)最優(yōu)計算量就能推算出需要的token數(shù)量,然后訓練就行。

但是計算效率最優(yōu)這個觀點是針對訓練階段而言的,并不是推理階段,實際應(yīng)用中推理階段效率更實用。

Meta在LLaMA[8]的觀點是:給定模型的目標性能,并不需要用最優(yōu)的計算效率在最快時間訓練好模型,而應(yīng)該在更大規(guī)模的數(shù)據(jù)上,訓練一個相對更小模型,這樣的模型在推理階段的成本更低,盡管訓練階段的效率不是最優(yōu)的(同樣的算力其實能獲得更優(yōu)的模型,但是模型尺寸也會更大)。根據(jù)Scaling Law,10B模型只需要200B的數(shù)據(jù),但是作者發(fā)現(xiàn)7B的模型性能在1T的數(shù)據(jù)后還能繼續(xù)提升。

32852c32-8e70-11ee-939d-92fbcf53809c.png

所以LLaMA工作的重點是訓練一系列語言模型,通過使用更多的數(shù)據(jù),讓模型在有限推理資源下有最佳的性能。

具體而言,確定模型尺寸后,Scaling Law給到的只是最優(yōu)的數(shù)據(jù)量,或者說是一個至少的數(shù)據(jù)量,實際在訓練中觀察在各個指標上的性能表現(xiàn),只要還在繼續(xù)增長,就可以持續(xù)增加訓練數(shù)據(jù)。

32a3707a-8e70-11ee-939d-92fbcf53809c.png

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    347

    瀏覽量

    15246
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1014

    瀏覽量

    6347
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2212

    瀏覽量

    2233

原文標題:大模型中的Scaling Law計算方法

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    FFTC問題求解答?。。討B(tài)scaling

    ).? ????? 1)? You said "the scaling factor should be 1/sqrt(4) = 1/2 when in 256 size"
    發(fā)表于 06-21 13:25

    多電機數(shù)學模型推導

    某一單電機負載出現(xiàn)波動,系統(tǒng)會自動調(diào)節(jié),恢復穩(wěn)態(tài)。想請問,這樣的數(shù)學模型怎么建網(wǎng)上只能找到單電機的,他說我自己推導??墒钦娴臎]有頭緒,大家可以給一點引導嗎,謝謝了
    發(fā)表于 09-09 08:48

    如何進行電磁波的計算推導?

    赫茲的實驗中,驗證了麥克斯韋預(yù)言的準確性,電磁波的特性及推導過程有沒有人解析一下???射頻電路設(shè)計時振幅 、相位的概念和作用是什么?
    發(fā)表于 03-11 08:01

    怎么推導出RO和ROUT?

    RO和ROUT的定義與推導一種使用SPICE運放模型和RO的技巧
    發(fā)表于 04-07 06:26

    電動助力轉(zhuǎn)向EPS——理論公式推導及simulink模型

    電動助力轉(zhuǎn)向EPS(二)——理論公式推導及simulink模型EPSEPS系統(tǒng)建模方向盤動態(tài)公式扭矩傳感器模塊電機模塊齒輪齒條模塊simulink建模方向盤動態(tài)模塊扭矩傳感器模型電機模塊模型
    發(fā)表于 06-29 07:26

    電機控制系統(tǒng)基于概念的仿真模型

    基本完善了開題時碩士畢業(yè)論文的電機控制系統(tǒng)概念,實現(xiàn)了基于概念的仿真模型。記此文檔以備忘。異步電機矢量控制系統(tǒng)中電流環(huán)控制器至于什么時異步電機矢量控制系統(tǒng),這里就不贅述了??梢詤⒖缄惒畷r教授的《運動控制系統(tǒng)》,講的很詳細。涉及到
    發(fā)表于 09-06 09:26

    信號功率計算公式推導步驟

    本文首先介紹了信號功率的相關(guān)概念,其次闡述了功率信號特點,最后介紹了無線信號功率計算公式推導。
    的頭像 發(fā)表于 03-13 11:24 ?17.7w次閱讀
    信號功率計算公式<b class='flag-5'>推導</b>步驟

    python推導式是什么

    python推導推導式(英文名:comprehensions),也叫解析式,是Python的一種獨有特性。 推導式是可以從一個數(shù)據(jù)序列構(gòu)建另一個新的數(shù)據(jù)序列的結(jié)構(gòu)體。 總共有四種推導
    的頭像 發(fā)表于 02-28 17:13 ?2484次閱讀

    常用的feature scaling方法都有哪些?

    feature scaling的方法可以分成2類,逐行進行和逐列進行。逐行是對每一維特征操作,逐列是對每個樣本操作,上圖為逐行操作中特征標準化的示例。
    的頭像 發(fā)表于 08-02 11:45 ?889次閱讀

    EDA探索之MOSFET的微縮- Moore’s Law介紹

    摩爾定律提出的時候,還處于Happy Scaling Era(EDA探索丨第11期:MOSFET收縮,Happy Scaling Era)。所以除了器件密度的翻倍,大家通常所認識的摩爾定律還隱含著其它的一些含義。
    發(fā)表于 03-29 14:25 ?395次閱讀

    Scaling Law模型設(shè)計實操案例

    縱軸是"Bits for words", 這也是交叉熵的一個單位。在計算交叉熵時,如果使用以 2 為底的對數(shù),交叉熵的單位就是 "bits per word",與信息論中的比特(bit)概念相符。所以這個值越低,說明模型的性能越好。
    的頭像 發(fā)表于 11-22 16:08 ?687次閱讀
    <b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>大<b class='flag-5'>模型</b>設(shè)計實操案例

    電感等效模型阻抗公式推導

    電感等效模型阻抗是電感元件在電磁場中對電流和電壓的響應(yīng)的量化描述。在電路分析和設(shè)計中,電感等效模型的阻抗對于預(yù)測和優(yōu)化電路的性能至關(guān)重要。以下是電感等效模型阻抗公式的推導,以滿足您的要
    的頭像 發(fā)表于 12-15 10:20 ?1929次閱讀

    張宏江深度解析:大模型技術(shù)發(fā)展的八大觀察點

    在大模型的發(fā)展史上,Scaling Law(規(guī)模律)發(fā)揮了核心作用,它是推動模型性能持續(xù)提升的主要動力。Scaling
    發(fā)表于 03-14 10:41 ?204次閱讀
    張宏江深度解析:大<b class='flag-5'>模型</b>技術(shù)發(fā)展的八大觀察點

    股價久違飆漲,商湯要用自己的Scaling law挑戰(zhàn)GPT4

    4月24日,商湯集團在港交所暫停交易,暫停交易前上漲31.15%。商湯集團回應(yīng),“昨日日日新大模型5.0發(fā)布會廣受好評,受到市場極大關(guān)注;依照上市規(guī)則及港交所建議,公司將進一步刊發(fā)相關(guān)公告。”就在
    的頭像 發(fā)表于 05-08 08:05 ?276次閱讀
    股價久違飆漲,商湯要用自己的<b class='flag-5'>Scaling</b> <b class='flag-5'>law</b>挑戰(zhàn)GPT4

    浪潮信息趙帥:開放計算創(chuàng)新 應(yīng)對Scaling Law挑戰(zhàn)

    Scaling Law帶來的AI基礎(chǔ)設(shè)施Scale up和Scale out的挑戰(zhàn),數(shù)據(jù)中心需要以開放創(chuàng)新加速算力系統(tǒng)、管理和基礎(chǔ)設(shè)施的全向Scale進程,推動AI產(chǎn)業(yè)的創(chuàng)新發(fā)展。 ? 開源開放推動人工智能創(chuàng)新與算力生態(tài)的全面發(fā)展 生成式人工智能的飛躍式進步正在加速智能時
    的頭像 發(fā)表于 08-15 16:02 ?213次閱讀
    浪潮信息趙帥:開放計算創(chuàng)新 應(yīng)對<b class='flag-5'>Scaling</b> <b class='flag-5'>Law</b>挑戰(zhàn)