0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

2023年發(fā)布的25個(gè)開(kāi)源大型語(yǔ)言模型總結(jié)

Dbwd_Imgtec ? 來(lái)源:未知 ? 2023-07-28 12:20 ? 次閱讀

來(lái)源:DeepHub IMBA


大型語(yǔ)言模型(llm)是一種人工智能(AI),在大量文本和代碼數(shù)據(jù)集上進(jìn)行訓(xùn)練。它們可以用于各種任務(wù),包括生成文本、翻譯語(yǔ)言和編寫不同類型的創(chuàng)意內(nèi)容。

今年開(kāi)始,人們對(duì)開(kāi)源LLM越來(lái)越感興趣。這些模型是在開(kāi)源許可下發(fā)布的,這意味著任何人都可以使用、修改和分發(fā)它們。這使得研究人員、開(kāi)發(fā)人員和企業(yè)都可以嘗試LLM,并為它們開(kāi)發(fā)新的應(yīng)用程序。使用開(kāi)源llm有很多好處。首先它們通常比專業(yè)的LLM更價(jià)便宜。并且它們更加透明,這意味著研究人員可以研究它們是如何工作的以及它們是如何做出決定的。最主要的是它們更加靈活,可以針對(duì)不同的任務(wù)進(jìn)行定制。wKgZomToNseAVRkNAAE3DVUyw_A778.jpg本文總結(jié)了當(dāng)前可用的開(kāi)源llm的全部(幾乎全部)列表,以及有關(guān)其許可選項(xiàng)和源代碼存儲(chǔ)庫(kù)的信息,希望對(duì)你有所幫助。▎SAIL 7B
基于LLaMa的搜索增強(qiáng)
參數(shù):7B
許可類型:GPL-3.0
發(fā)布日期:2023年5月
論文:SAIL — Search Augmented Instruction Learning

▎Guanaco
采用高效微調(diào)方法QLoRA發(fā)布的LLM模型
參數(shù):65B
許可類型:MIT
發(fā)布日期:2023年5月
論文:QLoRA — Efficient Finetuning of Quantized LLMs

▎RMKV
與transformer的LLM性能相當(dāng)?shù)腞NN模型
參數(shù):100M–14B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:Scaling RNN to 1.5B and Reach Transformer LM Performance

▎MPT-7B
MosaicML的基礎(chǔ)系列模型
參數(shù):7B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs

▎OpenLLaMa
在RedPajama數(shù)據(jù)集上訓(xùn)練的Meta AI的LLaMA 7B的另一個(gè)開(kāi)源復(fù)制。
參數(shù):3,7B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model

▎RedPajama-INCITE
基于RedPajama數(shù)據(jù)集上訓(xùn)練的指令調(diào)整和聊天Pythia模型。
參數(shù):3B, 7B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:RedPajama-INCITE family of models including base, instruction-tuned & chat models

▎h2oGPT
H2O的微調(diào)框架和文檔問(wèn)答功能的聊天機(jī)器人UI
參數(shù):12B,30B
許可類型:Apache 2.0
發(fā)布日期:2023年5月
論文:Building the World’s Best Open-Source Large Language Model:H2O.ai’s Journey

▎FastChat-T5
通過(guò)微調(diào)Flan-t5-xl對(duì)從ShareGPT收集的用戶共享對(duì)話進(jìn)行訓(xùn)練的聊天機(jī)器人
參數(shù):3B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:FastChat-T5 — our compact and commercial-friendly chatbot!

▎GPT4All
用于訓(xùn)練和部署強(qiáng)大的定制llm的完整工具系統(tǒng)
參數(shù):7–13B
許可類型:MIT
發(fā)布日期:2023年4月
論文:GPT4All:An ecosystem of open-source on-edge large language models.

▎MiniGPT-4
基于BLIP-2和Vicuna LLM的Visual LLM模型
參數(shù):13B
許可類型:BSD-3-Clause
發(fā)布日期:2023年4月
論文:MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models

▎StableLM
StableLM的LLM模型系列
參數(shù):7B
許可類型:CC BY-NC-SA-4.0
發(fā)布日期:2023年4月
論文:Stability AI Launches the First of its StableLM Suite of Language Models

▎BloomZ
通過(guò)多任務(wù)微調(diào)實(shí)現(xiàn)跨語(yǔ)言泛化
參數(shù):176B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:Cross-lingual Generalization through Multitask Finetuning

▎Dolly
Pythia 12B LLM在Databricks ML平臺(tái)上訓(xùn)練的模型
參數(shù):12B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM

▎Baize Chatbot
基于LLaMa的開(kāi)源聊天模型
參數(shù):30B
許可類型:GPL-3.0 license
發(fā)布日期:2023年4月
論文:Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

▎ColossalChat
由ColossalAI開(kāi)源發(fā)布的一個(gè)完整的RLHF流程訓(xùn)練的模型
參數(shù):N/A
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline

▎Lit LLaMa
來(lái)自Lightning AI的LLaMA的開(kāi)源實(shí)現(xiàn)
參數(shù):13B
許可類型:Apache 2.0
發(fā)布日期:2023年4月
論文:Why We’re Building Lit-LLaMA

▎Cerebras-GPT
開(kāi)放的,計(jì)算效率高的,大型語(yǔ)言模型
參數(shù):111M-13B
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster

▎Open Flamingo
Deepmind的Flamingo模型的開(kāi)源實(shí)現(xiàn)
參數(shù):9B
許可類型:MIT License
發(fā)布日期:2023年3月
論文:Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning

▎Chat GLM
使用開(kāi)放式雙語(yǔ)(中英文)雙向密集預(yù)訓(xùn)練模型
參數(shù):6B-130B
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:GLM-130B:An Open Bilingual Pre-trained Model

▎DLite
通過(guò)微調(diào)Alpaca數(shù)據(jù)集上最小的GPT-2模型
參數(shù):124M
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly

▎Alpaca 7B
描述:斯坦福大學(xué)發(fā)布的指令遵循LLaMA模型
參數(shù):7B
許可類型:Apache 2.0
發(fā)布日期:2023年3月
論文:Alpaca — A Strong, Replicable Instruction-Following Model

▎Flan UL2
在預(yù)訓(xùn)練的UL2檢查點(diǎn)上訓(xùn)練Flan 20B模型。
參數(shù):20B
許可類型:MIT License
發(fā)布日期:2023年3月
論文:A New Open Source Flan 20B with UL2

▎Flan-T5
T5在各種數(shù)據(jù)集上的指令微調(diào),提高預(yù)訓(xùn)練語(yǔ)言模型的可用性
參數(shù):60M–11B
許可類型:Apache 2.0
發(fā)布日期:2023年2月
論文:Scaling Instruction-Finetuned Language Models


總結(jié)最后再補(bǔ)充2個(gè)剛剛發(fā)布的模型,一個(gè)是llama-2,這個(gè)我們文章也在前幾天介紹了微調(diào)和使用的方法。另外一個(gè)就是昨天剛看到的新聞,stabilityai發(fā)布的 FreeWilly2,它是在 Llama2 70B 上微調(diào)的結(jié)果,目前在open_llm_leaderboard上排第一。開(kāi)源大型語(yǔ)言模型正在迅速發(fā)展,開(kāi)源社區(qū)發(fā)布了許多模型。這些模型為開(kāi)發(fā)人員、研究人員和愛(ài)好者提供了一個(gè)非常大機(jī)會(huì),可以在沒(méi)有專有系統(tǒng)的情況下試驗(yàn)尖端的語(yǔ)言技術(shù)。隨著越來(lái)越多的組織和個(gè)人為這些模型的發(fā)展做出貢獻(xiàn),我們可以期待看到更強(qiáng)大、更容易使用和更創(chuàng)新的語(yǔ)言模型,它們將塑造自然語(yǔ)言處理的未來(lái)。作者:Manikanth

END

歡迎加入Imagination GPU與人工智能交流2群

wKgZomToNseABI9MAABN8aBfIqc329.jpg

入群請(qǐng)加小編微信:eetrend89

(添加請(qǐng)備注公司名和職稱)

推薦閱讀 對(duì)話Imagination中國(guó)區(qū)董事長(zhǎng):以GPU為支點(diǎn)加強(qiáng)軟硬件協(xié)同,助力數(shù)字化轉(zhuǎn)型 下載白皮書 | 通過(guò)Photon架構(gòu)創(chuàng)建身臨其境的圖形體驗(yàn)

Imagination Technologies是一家總部位于英國(guó)的公司,致力于研發(fā)芯片和軟件知識(shí)產(chǎn)權(quán)(IP),基于Imagination IP的產(chǎn)品已在全球數(shù)十億人的電話、汽車、家庭和工作 場(chǎng)所中使用。獲取更多物聯(lián)網(wǎng)智能穿戴、通信、汽車電子、圖形圖像開(kāi)發(fā)等前沿技術(shù)信息,歡迎關(guān)注 Imagination Tech!


原文標(biāo)題:2023年發(fā)布的25個(gè)開(kāi)源大型語(yǔ)言模型總結(jié)

文章出處:【微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • imagination
    +關(guān)注

    關(guān)注

    1

    文章

    566

    瀏覽量

    61215

原文標(biāo)題:2023年發(fā)布的25個(gè)開(kāi)源大型語(yǔ)言模型總結(jié)

文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    2024 19 種最佳大型語(yǔ)言模型

    大型語(yǔ)言模型2023生成式人工智能熱潮背后的推動(dòng)力。然而,它們已經(jīng)存在了一段時(shí)間了。LLM是黑盒AI系統(tǒng),它使用深度學(xué)習(xí)對(duì)超大數(shù)據(jù)集進(jìn)行
    的頭像 發(fā)表于 08-30 12:56 ?419次閱讀
    2024 <b class='flag-5'>年</b> 19 種最佳<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    基于CPU的大型語(yǔ)言模型推理實(shí)驗(yàn)

    隨著計(jì)算和數(shù)據(jù)處理變得越來(lái)越分散和復(fù)雜,AI 的重點(diǎn)正在從初始訓(xùn)練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強(qiáng)大的公開(kāi)可用的大型語(yǔ)言模型 (LLM)。本次測(cè)試采用開(kāi)源
    的頭像 發(fā)表于 07-18 14:28 ?382次閱讀
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推理實(shí)驗(yàn)

    英偉達(dá)開(kāi)源Nemotron-4 340B系列模型,助力大型語(yǔ)言模型訓(xùn)練

    近日,英偉達(dá)宣布開(kāi)源了一款名為Nemotron-4 340B的大型模型,這一壯舉為開(kāi)發(fā)者們打開(kāi)了通往高性能大型語(yǔ)言模型(LLM)訓(xùn)練的新天地
    的頭像 發(fā)表于 06-17 14:53 ?489次閱讀

    了解大型語(yǔ)言模型 (LLM) 領(lǐng)域中的25個(gè)關(guān)鍵術(shù)語(yǔ)

    1.LLM(大語(yǔ)言模型大型語(yǔ)言模型(LLMs)是先進(jìn)的人工智能系統(tǒng),經(jīng)過(guò)大量文本數(shù)據(jù)集的訓(xùn)練,可以理解和生成類似人類的文本。他們使用深度學(xué)
    的頭像 發(fā)表于 05-10 08:27 ?1173次閱讀
    了解<b class='flag-5'>大型</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b> (LLM) 領(lǐng)域中的<b class='flag-5'>25</b><b class='flag-5'>個(gè)</b>關(guān)鍵術(shù)語(yǔ)

    谷歌發(fā)布輕量級(jí)開(kāi)源人工智能模型Gemma

    谷歌近日宣布推出開(kāi)源人工智能(AI)模型系列Gemma,旨在為開(kāi)發(fā)人員和研究人員提供一個(gè)負(fù)責(zé)任的AI構(gòu)建平臺(tái)。這一舉措標(biāo)志著自2022OpenAI的ChatGPT引領(lǐng)AI聊天機(jī)器人熱
    的頭像 發(fā)表于 02-23 11:38 ?739次閱讀

    谷歌大型模型終于開(kāi)放源代碼,遲到但重要的開(kāi)源戰(zhàn)略

    在人工智能領(lǐng)域,谷歌可以算是開(kāi)源的鼻祖。今天幾乎所有的大語(yǔ)言模型,都基于谷歌在 2017 發(fā)布的 Transformer 論文;谷歌的
    發(fā)表于 02-22 18:14 ?384次閱讀
    谷歌<b class='flag-5'>大型模型</b>終于開(kāi)放源代碼,遲到但重要的<b class='flag-5'>開(kāi)源</b>戰(zhàn)略

    模型開(kāi)源開(kāi)放評(píng)測(cè)體系司南正式發(fā)布

    近日,大模型開(kāi)源開(kāi)放評(píng)測(cè)體系司南(OpenCompass2.0)正式發(fā)布,旨在為大語(yǔ)言模型、多模態(tài)模型
    的頭像 發(fā)表于 02-05 11:28 ?943次閱讀

    Meta發(fā)布CodeLlama70B開(kāi)源模型

    Meta發(fā)布CodeLlama70B開(kāi)源模型 Meta發(fā)布開(kāi)源模型CodeLlama70B
    的頭像 發(fā)表于 01-31 10:30 ?1313次閱讀

    機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型

    ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)大模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)源、易用的 RoboFlamingo 機(jī)器人操作
    發(fā)表于 01-19 11:43 ?324次閱讀
    機(jī)器人基于<b class='flag-5'>開(kāi)源</b>的多模態(tài)<b class='flag-5'>語(yǔ)言</b>視覺(jué)大<b class='flag-5'>模型</b>

    OpenHarmony社區(qū)運(yùn)營(yíng)報(bào)告(202312月)

    貢獻(xiàn)者,70 家共建單位,產(chǎn)生 26.9 萬(wàn)多個(gè) PR,2.4 萬(wàn)多個(gè) Star,6.7 萬(wàn)多個(gè) Fork,59 個(gè) SIG。 2、合作社區(qū)官方賬號(hào)發(fā)布內(nèi)容數(shù)據(jù)匯總 截至 2023
    發(fā)表于 01-10 15:44

    語(yǔ)言模型推斷中的批處理效應(yīng)

    隨著開(kāi)源預(yù)訓(xùn)練大型語(yǔ)言模型(Large Language Model, LLM )變得更加強(qiáng)大和開(kāi)放,越來(lái)越多的開(kāi)發(fā)者將大語(yǔ)言
    的頭像 發(fā)表于 01-04 12:32 ?538次閱讀
    大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推斷中的批處理效應(yīng)

    Spectrum 2023熱門故事: AI啟示錄、ChatGPT幻覺(jué)、英偉達(dá)的成功等

    ChatGPT的強(qiáng)大功能時(shí),該公司又于20233月發(fā)布了最新的大型語(yǔ)言模型GPT-4(
    的頭像 發(fā)表于 01-02 15:34 ?365次閱讀

    2023科技圈熱詞“大語(yǔ)言模型”,與自然語(yǔ)言處理有何關(guān)系

    。 ? 2023,大語(yǔ)言模型及其在人工智能領(lǐng)域的應(yīng)用已然成為全球科技研究的熱點(diǎn),其在規(guī)模上的增長(zhǎng)尤為引人注目,參數(shù)量已從最初的十幾億躍升到如今的一萬(wàn)億。參數(shù)量的提升使得
    的頭像 發(fā)表于 01-02 09:28 ?2363次閱讀

    中國(guó)電信大模型做得怎么樣了?

    千億參數(shù)的星辰大模型發(fā)布。從202110月啟動(dòng)自研城市治理大模型,星辰大模型已經(jīng)走過(guò)語(yǔ)義大模型
    發(fā)表于 11-15 12:24 ?633次閱讀
    中國(guó)電信大<b class='flag-5'>模型</b>做得怎么樣了?

    現(xiàn)已公開(kāi)發(fā)布!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大語(yǔ)言模型推理

    NVIDIA 于 2023 10 月 19 日公開(kāi)發(fā)布 TensorRT-LLM ,可在 NVIDIA GPU 上加速和優(yōu)化最新的大語(yǔ)言模型
    的頭像 發(fā)表于 10-27 20:05 ?885次閱讀
    現(xiàn)已公開(kāi)<b class='flag-5'>發(fā)布</b>!歡迎使用 NVIDIA TensorRT-LLM 優(yōu)化大<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>推理