2024av在线无码中文最新,无码av一级蜜桃,日本伦理电影在线观看

作者：nghuyong

在大模型的研發(fā)中，通常會有下面一些需求：

1.計劃訓練一個10B的模型，想知道至少需要多大的數(shù)據(jù)？

2.收集到了1T的數(shù)據(jù)，想知道能訓練一個多大的模型？

3.老板準備1個月后開發(fā)布會，給的資源是100張A100，應(yīng)該用多少數(shù)據(jù)訓多大的模型效果最好？

4.老板對現(xiàn)在10B的模型不滿意，想知道擴大到100B模型的效果能提升到多少？

以上這些問題都可以基于Scaling Law的理論進行回答。本文是閱讀了一系列 Scaling Law的文章后的整理和思考，包括Scaling Law的概念和推導以及反Scaling Law的場景，不當之處，歡迎指正。

核心結(jié)論

大模型的Scaling Law是OpenAI在2020年提出的概念[1]，具體如下:

對于Decoder-only的模型，計算量(Flops), 模型參數(shù)量, 數(shù)據(jù)大小(token數(shù))，三者滿足:。(推導見本文最后)

模型的最終性能主要與計算量，模型參數(shù)量和數(shù)據(jù)大小三者相關(guān)，而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。

固定模型的總參數(shù)量，調(diào)整層數(shù)/深度/寬度，不同模型的性能差距很小，大部分在2%以內(nèi)

3.對于計算量，模型參數(shù)量和數(shù)據(jù)大小，當不受其他兩個因素制約時，模型性能與每個因素都呈現(xiàn)冪律關(guān)系

4. 為了提升模型性能，模型參數(shù)量和數(shù)據(jù)大小需要同步放大，但模型和數(shù)據(jù)分別放大的比例還存在爭議。

5. Scaling Law不僅適用于語言模型，還適用于其他模態(tài)以及跨模態(tài)的任務(wù)[4]：

這里橫軸單位為PF-days: 如果每秒鐘可進行次運算，就是1 peta flops，那么一天的運算就是這個算力消耗被稱為1個petaflop/s-day。

核心公式

(?)=?∞+(?0?)?

第一項是指無法通過增加模型規(guī)模來減少的損失，可以認為是數(shù)據(jù)自身的熵（例如數(shù)據(jù)中的噪音）

第二項是指能通過增加計算量來減少的損失，可以認為是模型擬合的分布與實際分布之間的差。根據(jù)公式，增大(例如計算量)，模型整體loss下降，模型性能提升；伴隨趨向于無窮大，模型能擬合數(shù)據(jù)的真實分布，讓第二項逼近0，整體趨向于

大模型中的scaling law

下圖是GPT4報告[5]中的Scaling Law曲線，計算量和模型性能滿足冪律關(guān)系

橫軸是歸一化之后的計算量，假設(shè)GPT4的計算量為1。基于10,000倍小的計算規(guī)模，就能預(yù)測最終GPT4的性能。

縱軸是"Bits for words", 這也是交叉熵的一個單位。在計算交叉熵時，如果使用以 2 為底的對數(shù)，交叉熵的單位就是 "bits per word"，與信息論中的比特（bit）概念相符。所以這個值越低，說明模型的性能越好。

Baichuan2

下圖是Baichuan2[6]技術(shù)報告中的Scaling Law曲線?；?0M到3B的模型在1T數(shù)據(jù)上訓練的性能，可預(yù)測出最后7B模型和13B模型在2.6T數(shù)據(jù)上的性能

MindLLM

下圖是MindLLM[7]技術(shù)報告中的Scaling Law曲線?；?0M到500M的模型在10B數(shù)據(jù)上訓練的性能，預(yù)測出最后3B模型在500B數(shù)據(jù)上的性能。

Scaling Law實操: 計算效率最優(yōu)

根據(jù)冪律定律，模型的參數(shù)固定，無限堆數(shù)據(jù)并不能無限提升模型的性能，模型最終性能會慢慢趨向一個固定的值

如圖所示，如果模型的參數(shù)量為（圖中紫色的線），在數(shù)量達到，模型基本收斂。所以在數(shù)據(jù)量達到后，繼續(xù)增加數(shù)據(jù)產(chǎn)生的計算量，沒有同樣計算量下提升模型參數(shù)量帶來的收益大（計算效率更優(yōu)）。根據(jù)，可以進一步轉(zhuǎn)換成模型參數(shù)與計算量的關(guān)系，即: 模型參數(shù)為，在計算量為Flops，即PF-days時基本收斂。也就是右圖中紫色線的拐點。

按照上面的思路，下面進行Scaling Law的實操。

首先準備充足的數(shù)據(jù)（例如1T），設(shè)計不同模型參數(shù)量的小模型(例如0.001B - 1B)，獨立訓練每個模型，每個模型都訓練到基本收斂（假設(shè)數(shù)據(jù)量充足）。根據(jù)訓練中不同模型的參數(shù)和數(shù)據(jù)量的組合，收集計算量與模型性能的關(guān)系。然后可以進一步獲得計算效率最優(yōu)時，即同樣計算量下性能最好的模型規(guī)模和數(shù)據(jù)大小的組合，模型大小與計算量的關(guān)系，以及數(shù)據(jù)大小與計算量的關(guān)系。

如圖所示，根據(jù)左圖可以看到計算量與模型性能呈現(xiàn)冪律關(guān)系（可以認為數(shù)據(jù)和模型都不受限制），根據(jù)中圖和右圖，可以發(fā)現(xiàn),，即計算效率最優(yōu)時，模型的參數(shù)與計算量的冪次成線性關(guān)系，數(shù)據(jù)量的大小也與計算量的冪次成線性關(guān)系。

根據(jù)，可以推算出，但是,分別是多少存在分歧。

OpenAI[1]認為模型規(guī)模更重要，即，而DeepMind在Chinchilla工作[2]和Google在PaLM工作[3]中都驗證了，即模型和數(shù)據(jù)同等重要。

所以假定計算量整體放大10倍，OpenAI認為模型參數(shù)更重要，模型應(yīng)放大100.73(5.32)倍，數(shù)據(jù)放大100.27(1.86)倍；后來DeepMind和Google認為模型參數(shù)量與數(shù)據(jù)同等重要，兩者都應(yīng)該分別放大100.5(3.16)倍。

例如在PaLM的實驗中，計算量從放大10倍到，模型參數(shù)也提升了3.2倍，3.35B->10.7B。具體最好在自己的數(shù)據(jù)上做實驗來獲得你場景下的和

LLaMA: 反Scaling Law的大模型

假設(shè)遵循計算效率最優(yōu)來研發(fā)LLM，那么根據(jù)Scaling Law，給定模型大小，可以推算出最優(yōu)的計算量，進一步根據(jù)最優(yōu)計算量就能推算出需要的token數(shù)量，然后訓練就行。

但是計算效率最優(yōu)這個觀點是針對訓練階段而言的，并不是推理階段，實際應(yīng)用中推理階段效率更實用。

Meta在LLaMA[8]的觀點是：給定模型的目標性能，并不需要用最優(yōu)的計算效率在最快時間訓練好模型，而應(yīng)該在更大規(guī)模的數(shù)據(jù)上，訓練一個相對更小模型，這樣的模型在推理階段的成本更低，盡管訓練階段的效率不是最優(yōu)的（同樣的算力其實能獲得更優(yōu)的模型，但是模型尺寸也會更大）。根據(jù)Scaling Law，10B模型只需要200B的數(shù)據(jù)，但是作者發(fā)現(xiàn)7B的模型性能在1T的數(shù)據(jù)后還能繼續(xù)提升。

所以LLaMA工作的重點是訓練一系列語言模型，通過使用更多的數(shù)據(jù)，讓模型在有限推理資源下有最佳的性能。

具體而言，確定模型尺寸后，Scaling Law給到的只是最優(yōu)的數(shù)據(jù)量，或者說是一個至少的數(shù)據(jù)量，實際在訓練中觀察在各個指標上的性能表現(xiàn)，只要還在繼續(xù)增長，就可以持續(xù)增加訓練數(shù)據(jù)。

審核編輯：黃飛

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

GPT

GPT

+關(guān)注

關(guān)注
0

文章
347

瀏覽量
15246
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1014

瀏覽量
6347
大模型

大模型

+關(guān)注

關(guān)注
2

文章
2212

瀏覽量
2233

原文標題：大模型中的Scaling Law計算方法

文章出處：【微信號：zenRRan，微信公眾號：深度學習自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

FFTC問題求解答?。。討B(tài)scaling

).? ????? 1)? You said "the scaling factor should be 1/sqrt(4) = 1/2 when in 256 size"

發(fā)表于 06-21 13:25

多電機數(shù)學模型推導

某一單電機負載出現(xiàn)波動，系統(tǒng)會自動調(diào)節(jié)，恢復穩(wěn)態(tài)。想請問，這樣的數(shù)學模型怎么建網(wǎng)上只能找到單電機的，他說我自己推導?？墒钦娴臎]有頭緒，大家可以給一點引導嗎，謝謝了

發(fā)表于 09-09 08:48

如何進行電磁波的計算推導？

赫茲的實驗中，驗證了麥克斯韋預(yù)言的準確性，電磁波的特性及推導過程有沒有人解析一下??？射頻電路設(shè)計時振幅、相位的概念和作用是什么？

發(fā)表于 03-11 08:01

怎么推導出RO和ROUT？

RO和ROUT的定義與推導一種使用SPICE運放模型和RO的技巧

發(fā)表于 04-07 06:26

電動助力轉(zhuǎn)向EPS——理論公式推導及simulink模型

電動助力轉(zhuǎn)向EPS（二）——理論公式推導及simulink模型EPSEPS系統(tǒng)建模方向盤動態(tài)公式扭矩傳感器模塊電機模塊齒輪齒條模塊simulink建模方向盤動態(tài)模塊扭矩傳感器模型電機模塊模型

發(fā)表于 06-29 07:26

電機控制系統(tǒng)基于概念的仿真模型

基本完善了開題時碩士畢業(yè)論文的電機控制系統(tǒng)概念，實現(xiàn)了基于概念的仿真模型。記此文檔以備忘。異步電機矢量控制系統(tǒng)中電流環(huán)控制器至于什么時異步電機矢量控制系統(tǒng)，這里就不贅述了?？梢詤⒖缄惒畷r教授的《運動控制系統(tǒng)》，講的很詳細。涉及到

發(fā)表于 09-06 09:26

信號功率計算公式推導步驟

本文首先介紹了信號功率的相關(guān)概念，其次闡述了功率信號特點，最后介紹了無線信號功率計算公式推導。

發(fā)表于 03-13 11:24 ?17.7w次閱讀

python推導式是什么

python推導式推導式（英文名：comprehensions），也叫解析式，是Python的一種獨有特性。推導式是可以從一個數(shù)據(jù)序列構(gòu)建另一個新的數(shù)據(jù)序列的結(jié)構(gòu)體。總共有四種推導

發(fā)表于 02-28 17:13 ?2484次閱讀

常用的feature scaling方法都有哪些？

feature scaling的方法可以分成2類，逐行進行和逐列進行。逐行是對每一維特征操作，逐列是對每個樣本操作，上圖為逐行操作中特征標準化的示例。

發(fā)表于 08-02 11:45 ?889次閱讀

EDA探索之MOSFET的微縮- Moore’s Law介紹

摩爾定律提出的時候，還處于Happy Scaling Era（EDA探索丨第11期：MOSFET收縮，Happy Scaling Era）。所以除了器件密度的翻倍，大家通常所認識的摩爾定律還隱含著其它的一些含義。

發(fā)表于 03-29 14:25 ?395次閱讀

Scaling Law大模型設(shè)計實操案例

縱軸是"Bits for words", 這也是交叉熵的一個單位。在計算交叉熵時，如果使用以 2 為底的對數(shù)，交叉熵的單位就是 "bits per word"，與信息論中的比特（bit）概念相符。所以這個值越低，說明模型的性能越好。

發(fā)表于 11-22 16:08 ?687次閱讀

電感等效模型阻抗公式推導

電感等效模型阻抗是電感元件在電磁場中對電流和電壓的響應(yīng)的量化描述。在電路分析和設(shè)計中，電感等效模型的阻抗對于預(yù)測和優(yōu)化電路的性能至關(guān)重要。以下是電感等效模型阻抗公式的推導，以滿足您的要

發(fā)表于 12-15 10:20 ?1929次閱讀

張宏江深度解析：大模型技術(shù)發(fā)展的八大觀察點

在大模型的發(fā)展史上，Scaling Law（規(guī)模律）發(fā)揮了核心作用，它是推動模型性能持續(xù)提升的主要動力。Scaling

發(fā)表于 03-14 10:41 ?204次閱讀

股價久違飆漲，商湯要用自己的Scaling law挑戰(zhàn)GPT4

4月24日，商湯集團在港交所暫停交易，暫停交易前上漲31.15%。商湯集團回應(yīng)，“昨日日日新大模型5.0發(fā)布會廣受好評，受到市場極大關(guān)注；依照上市規(guī)則及港交所建議，公司將進一步刊發(fā)相關(guān)公告。”就在

發(fā)表于 05-08 08:05 ?276次閱讀

浪潮信息趙帥：開放計算創(chuàng)新應(yīng)對Scaling Law挑戰(zhàn)

Scaling Law帶來的AI基礎(chǔ)設(shè)施Scale up和Scale out的挑戰(zhàn)，數(shù)據(jù)中心需要以開放創(chuàng)新加速算力系統(tǒng)、管理和基礎(chǔ)設(shè)施的全向Scale進程，推動AI產(chǎn)業(yè)的創(chuàng)新發(fā)展。 ? 開源開放推動人工智能創(chuàng)新與算力生態(tài)的全面發(fā)展生成式人工智能的飛躍式進步正在加速智能時

發(fā)表于 08-15 16:02 ?213次閱讀