0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

清華等開源「工具學(xué)習(xí)基準(zhǔn)」ToolBench,微調(diào)模型ToolLLaMA性能超越ChatGPT

AI智勝未來 ? 來源:新智元 ? 2023-06-08 11:39 ? 次閱讀

【導(dǎo)讀】工具學(xué)習(xí)的開源時(shí)代來了!

人類具有創(chuàng)造和利用工具的能力,使得我們可以突破身體的限制,探索更廣闊的世界。

人工智能基礎(chǔ)模型也類似,如果僅靠訓(xùn)練階段得到的權(quán)重,使用場景就會(huì)非常受限,而最近提出的工具學(xué)習(xí)(tool learning),將特定領(lǐng)域的專用工具與大規(guī)?;A(chǔ)模型相結(jié)合,可以實(shí)現(xiàn)更高的效率、性能。

不過目前工具學(xué)習(xí)的相關(guān)研究還不夠深入,也缺乏相關(guān)的開源數(shù)據(jù)和代碼。

最近,清華大學(xué)自然語言處理實(shí)驗(yàn)室等支持的開源社區(qū)OpenBMB (Open Lab for Big Model Base)發(fā)布了ToolBench項(xiàng)目,可以幫助開發(fā)者構(gòu)建開源、大規(guī)模、高質(zhì)量的指令調(diào)優(yōu)數(shù)據(jù),促進(jìn)構(gòu)建具有通用工具使用能力的大型語言模型。

d1432186-0580-11ee-8a94-dac502259ad0.png

倉庫鏈接:https://github.com/OpenBMB/ToolBench

ToolBench倉庫中提供了相關(guān)數(shù)據(jù)集、訓(xùn)練和評估腳本,以及在ToolBench上微調(diào)的功能模型ToolLLaMA,具體特點(diǎn)為:

1. 支持單工具和多工具方案

其中單工具設(shè)置遵循LangChain提示風(fēng)格,多工具設(shè)置遵循AutoGPT的提示風(fēng)格。

2. 模型回復(fù)不僅包括最終答案,還包含模型的思維鏈過程、工具執(zhí)行和工具執(zhí)行結(jié)果

3. 支持真實(shí)世界級別的復(fù)雜性,支持多步工具調(diào)用

4. 豐富的API,可用于現(xiàn)實(shí)世界中的場景,如天氣信息、搜索、股票更新和PowerPoint自動(dòng)化

5. 所有的數(shù)據(jù)都是由OpenAI API自動(dòng)生成并由開發(fā)團(tuán)隊(duì)進(jìn)行過濾,數(shù)據(jù)的創(chuàng)建過程很容易擴(kuò)展

不過需要注意的是,目前發(fā)布的數(shù)據(jù)還不是最終版本,研究人員仍然在對數(shù)據(jù)進(jìn)行后處理來提高數(shù)據(jù)質(zhì)量,并增加真實(shí)世界工具的覆蓋范圍。

ToolBench

ToolBench的總體思路是基于BMTools,在有監(jiān)督數(shù)據(jù)中訓(xùn)練大型語言模型。

d168661c-0580-11ee-8a94-dac502259ad0.png

倉庫中包含31.2萬次真實(shí)API調(diào)用得到的9800條數(shù)據(jù),涵蓋單工具場景和多工具場景,下面是單工具的統(tǒng)計(jì)信息。

d1731882-0580-11ee-8a94-dac502259ad0.png

其中每行數(shù)據(jù)都是一個(gè)json dict,包含數(shù)據(jù)創(chuàng)建的提示模板、工具使用的人工指令(查詢)、中間思維/工具執(zhí)行循環(huán)和最終答案。

模型實(shí)驗(yàn)

機(jī)器評估:研究人員對每個(gè)工具隨機(jī)抽取100個(gè)鏈步(chain steps)來構(gòu)建機(jī)器評估測試平臺,平均27個(gè)最終步驟和73個(gè)中間工具調(diào)用步驟,其中最終步驟的評估使用Rouge-L指標(biāo),中間步驟的評估使用ExactMatch指標(biāo)進(jìn)行評估。

d17da022-0580-11ee-8a94-dac502259ad0.png

人工評估:在天氣、地圖、股票、翻譯、化學(xué)和WolframAlpha工具中隨機(jī)抽取10個(gè)query,然后評估工具調(diào)用過程的通過率、最終答案以及和ChatGPT最終答案的比較。

ChatGPT評估:通過ChatGPT對LLaMA和ChatGPT的答案和工具使用鏈進(jìn)行自動(dòng)評估。

評估結(jié)果如下(分?jǐn)?shù)越高越好),可以看到ToolLLaMA在不同場景下與ChatGPT的性能相同或更好。

d186b716-0580-11ee-8a94-dac502259ad0.png

工具學(xué)習(xí)

在清華大學(xué)、人民大學(xué)、北京郵電大學(xué)等個(gè)國內(nèi)外知名高校和大學(xué)聯(lián)合發(fā)布的一篇論文中,對工具學(xué)習(xí)進(jìn)行了系統(tǒng)的研究,介紹了工具學(xué)習(xí)的背景,包括認(rèn)知起源、基礎(chǔ)模型的范式轉(zhuǎn)變,以及工具和模型的互補(bǔ)作用。

d1a93c64-0580-11ee-8a94-dac502259ad0.png

論文鏈接:https://arxiv.org/pdf/2304.08354.pdf

文中還回顧了現(xiàn)有的工具學(xué)習(xí)研究,包括工具增強(qiáng)型和工具導(dǎo)向型學(xué)習(xí),并制定了一個(gè)通用的工具學(xué)習(xí)框架:從理解用戶指令開始,模型應(yīng)該學(xué)會(huì)把一個(gè)復(fù)雜的任務(wù)分解成幾個(gè)子任務(wù),通過推理動(dòng)態(tài)地調(diào)整計(jì)劃,并通過選擇合適的工具有效地征服每個(gè)子任務(wù)。

文中還討論了如何訓(xùn)練模型以提高工具使用能力并促進(jìn)工具學(xué)習(xí)的普及。

考慮到之前的工作中缺乏系統(tǒng)的工具學(xué)習(xí)評估,研究人員用17種有代表性的工具進(jìn)行了實(shí)驗(yàn),并展示了當(dāng)前基礎(chǔ)模型在熟練利用工具方面的潛力。

論文最后討論了幾個(gè)需要進(jìn)一步研究的工具學(xué)習(xí)的開放性問題,例如確保安全和可信賴的工具使用、用基礎(chǔ)模型實(shí)現(xiàn)工具創(chuàng)建,以及解決個(gè)性化的難題。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46316

    瀏覽量

    236476
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3058

    瀏覽量

    48570
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    586

    瀏覽量

    13464

原文標(biāo)題:清華等開源「工具學(xué)習(xí)基準(zhǔn)」ToolBench,微調(diào)模型ToolLLaMA性能超越ChatGPT

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    ChatGPT模型的發(fā)展,對GPGPU有怎樣的性能要求?

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)最近,在ChatGPT火了之后,國內(nèi)互聯(lián)網(wǎng)科技圈不時(shí)傳出計(jì)劃或者正在研究類ChatGPT模型的消息。 ? 然而在相關(guān)技術(shù)真正面世之前,近日,OpenAI又放
    的頭像 發(fā)表于 03-07 09:15 ?2016次閱讀

    科技大廠競逐AIGC,中國的ChatGPT在哪?

    。亞馬遜成立了一個(gè)小型工作組,拓展ChatGPTAI工具對企業(yè)的工作職能…… ChatGPT火爆,搜索引擎巨頭百度率先坐不住了。 就在谷歌官宣Bard內(nèi)測的當(dāng)天下午,百度官宣了大
    發(fā)表于 03-03 14:28

    清華大學(xué)發(fā)布首個(gè)開源自動(dòng)圖學(xué)工具

    如何應(yīng)用自動(dòng)機(jī)器學(xué)習(xí) (AutoML) 加速圖機(jī)器學(xué)習(xí)任務(wù)的處理?清華大學(xué)發(fā)布全球首個(gè)開源自動(dòng)圖學(xué)習(xí)工具
    的頭像 發(fā)表于 12-22 16:32 ?1595次閱讀

    清華大學(xué)發(fā)布全球首個(gè)開源自動(dòng)圖學(xué)習(xí)工具包:AutoGL

    如何應(yīng)用自動(dòng)機(jī)器學(xué)習(xí) (AutoML) 加速圖機(jī)器學(xué)習(xí)任務(wù)的處理?清華大學(xué)發(fā)布全球首個(gè)開源自動(dòng)圖學(xué)習(xí)工具
    的頭像 發(fā)表于 12-26 10:38 ?1971次閱讀

    超越GPT 3.5的小型語言模型案例概述

    ChatGPT 是在 GPT-3.5 系列模型的基礎(chǔ)上微調(diào)而來的,我們看到很多研究也在緊隨其后緊追慢趕,但是,與 ChatGPT 相比,他們的新研究效果到底有多好?
    發(fā)表于 02-27 11:44 ?801次閱讀

    ChatGPT開源項(xiàng)目匯總表格

    CarperAI 是EleutherAI研究小組的一個(gè)新實(shí)驗(yàn)室,其任務(wù)是“通過強(qiáng)化學(xué)習(xí)提高大型語言模型 (LLM) 的性能和安全性?!?CarperAI 開源了 Transformer
    的頭像 發(fā)表于 03-22 14:11 ?1714次閱讀

    低成本開源聊天機(jī)器人Vicuna:可達(dá)到ChatGPT/Bard 90%以上水平

    根據(jù)介紹,通過根據(jù)從 ShareGPT.com (一個(gè)用戶可以分享他們的 ChatGPT 對話的網(wǎng)站) 收集的用戶共享對話微調(diào) LLaMA 基礎(chǔ)模型,Vicuna-13B 與 Stanford Alpaca
    的頭像 發(fā)表于 04-06 11:09 ?2484次閱讀

    微軟開源“傻瓜式”類ChatGPT模型訓(xùn)練工具

    DeepSpeed-RLHF 模塊:DeepSpeed-RLHF 復(fù)刻了 InstructGPT 論文中的訓(xùn)練模式,并確保包括 a) 監(jiān)督微調(diào)(SFT),b) 獎(jiǎng)勵(lì)模型微調(diào)和 c) 基于人類反饋
    的頭像 發(fā)表于 04-14 09:36 ?1010次閱讀

    支持 ChatGPT 的機(jī)器學(xué)習(xí)模型的概況

    本文介紹了支持 ChatGPT 的機(jī)器學(xué)習(xí)模型的概況,文章將從大型語言模型的介紹開始,深入探討用來訓(xùn)練 GPT-3 的革命性自我注意機(jī)制,然后深入研究由人類反饋的強(qiáng)化
    的頭像 發(fā)表于 05-26 11:44 ?791次閱讀
    支持 <b class='flag-5'>ChatGPT</b> 的機(jī)器<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>的概況

    iPhone都能微調(diào)模型了嘛

    自動(dòng)測試分?jǐn)?shù)達(dá)到 ChatGPT的99.3%,人類難以分辨 兩者的回答…… 這是開源模型最新成果,來自羊駝家族的又一重磅成員——華盛頓大學(xué) 原駝 ( Guanaco )。 ? 更關(guān)鍵的是,與原駝
    的頭像 發(fā)表于 06-02 15:26 ?657次閱讀
    iPhone都能<b class='flag-5'>微調(diào)</b>大<b class='flag-5'>模型</b>了嘛

    OpenAI開放大模型微調(diào)功能 GPT-3.5可以打造專屬ChatGPT

    OpenAI開放大模型微調(diào)功能 GPT-3.5可以打造專屬ChatGPT OpenAI開放大模型微調(diào)功能,這意味著GPT-3.5 Turbo
    的頭像 發(fā)表于 08-23 19:34 ?1137次閱讀

    開源LLEMMA發(fā)布:超越未公開的頂尖模型,可直接應(yīng)用于工具和定理證明

    但LLEMMA的出現(xiàn)改變了這一局面。它不僅在MATH基準(zhǔn)測試上創(chuàng)下了新高,甚至超越了某些還未對外公開的頂尖模型,如Minerva。更讓人欣喜的是,LLEMMA無需額外的調(diào)整,即可直接應(yīng)用于工具
    的頭像 發(fā)表于 10-22 10:24 ?672次閱讀
    <b class='flag-5'>開源</b>LLEMMA發(fā)布:<b class='flag-5'>超越</b>未公開的頂尖<b class='flag-5'>模型</b>,可直接應(yīng)用于<b class='flag-5'>工具</b>和定理證明

    最佳開源模型刷新多項(xiàng)SOTA,首次超越Mixtral Instruct!「開源版GPT-4」家族迎來大爆發(fā)

    Mixtral 8x7B模型開源后,AI社區(qū)再次迎來一大波微調(diào)實(shí)踐。來自Nous Research應(yīng)用研究小組團(tuán)隊(duì)微調(diào)出新一代大模型Nous
    的頭像 發(fā)表于 01-30 15:29 ?845次閱讀
    最佳<b class='flag-5'>開源</b><b class='flag-5'>模型</b>刷新多項(xiàng)SOTA,首次<b class='flag-5'>超越</b>Mixtral Instruct!「<b class='flag-5'>開源</b>版GPT-4」家族迎來大爆發(fā)

    llm模型chatGPT的區(qū)別

    LLM(Large Language Model)是指大型語言模型,它們是一類使用深度學(xué)習(xí)技術(shù)構(gòu)建的自然語言處理(NLP)模型。LLM模型可以處理各種語言任務(wù),如文本生成、文本分類、機(jī)
    的頭像 發(fā)表于 07-09 09:55 ?688次閱讀

    模型為什么要微調(diào)?大模型微調(diào)的原理

    難以達(dá)到最佳性能。為了提升模型在特定任務(wù)上的表現(xiàn),微調(diào)(Fine-tuning)成為了一個(gè)關(guān)鍵步驟。本文將詳細(xì)探討大模型為什么要進(jìn)行微調(diào)以及
    的頭像 發(fā)表于 07-10 10:43 ?2679次閱讀