0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

搜索出生的百川智能大模型RAG爬坑之路總結(jié)

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:NLP PaperWeekly ? 2024-01-05 15:02 ? 次閱讀

今天對(duì)百川的RAG方法進(jìn)行解讀,百川智能具有深厚的搜索背景,來(lái)看看他們是怎么爬RAG的坑的吧~

總的來(lái)說(shuō),百川通過(guò)長(zhǎng)上下文模型(192k)+搜索增強(qiáng)結(jié)合的方法來(lái)解決知識(shí)更新,降低模型幻覺(jué)的問(wèn)題,使得其在5000萬(wàn)tokens的數(shù)據(jù)集中取得95%的精度。其主要在以下幾個(gè)方面做優(yōu)化:

1) Query拓展:這是我自己取的名字,可能不太準(zhǔn)確,其主要參考Meta的CoVe[1]以及百川自研的Think Step-Further方法對(duì)原始用戶輸入的復(fù)雜問(wèn)題進(jìn)行拆解、拓展,挖掘用戶更深層次的子問(wèn)題,借助子問(wèn)題檢索效果更高的特點(diǎn)來(lái)解決復(fù)雜問(wèn)題檢索質(zhì)量偏差的問(wèn)題。

2) 優(yōu)化檢索鏈路:采用稀疏檢索+向量檢索+Rerank結(jié)合的方法,來(lái)提高檢索的召回率和準(zhǔn)確率。并且其自研的Baichuan-Text-Embedding向量模型也登頂了C-MTEB語(yǔ)義向量評(píng)測(cè)標(biāo)準(zhǔn)。

3) 自我反省機(jī)制:百川智能通過(guò)self-Critique大模型自省機(jī)制來(lái)篩選更優(yōu)質(zhì)、知識(shí)密度更高的內(nèi)容。

一、概述

1Motivation

1.1 當(dāng)前檢索增強(qiáng)RAG方法痛點(diǎn)

成本高、召回偏低:擴(kuò)展上下文窗口+引入向量數(shù)據(jù)庫(kù)能以非常低的成本提高模型對(duì)新知識(shí)的接入能力,但是擴(kuò)展上下文窗口容量有限(128k最多容納23萬(wàn)漢字,相當(dāng)于658kb文檔),成本比較高,性能下降明顯。向量數(shù)據(jù)庫(kù)也存在召回率偏低、開(kāi)發(fā)門檻高等缺點(diǎn)。

用戶輸入變復(fù)雜:與傳統(tǒng)關(guān)鍵詞或者短語(yǔ)搜索邏輯不太一致,用戶輸入問(wèn)題不再是詞或者短句,而是轉(zhuǎn)變成自然對(duì)話聲知識(shí)多輪對(duì)話數(shù)據(jù),問(wèn)題形式更加多元,緊密關(guān)聯(lián)上下文,輸入風(fēng)格更加口語(yǔ)化。

1.2 RAG是當(dāng)前大模型落地降低幻覺(jué)、更新數(shù)據(jù)的有效方法之一

行業(yè)大模型解決方案有后訓(xùn)練(Post-Train)和有監(jiān)督微調(diào)(SFT),但是仍然無(wú)法解決大模型落地的幻覺(jué)和實(shí)效性問(wèn)題。

后訓(xùn)練(Post-Train)和有監(jiān)督微調(diào)(SFT)每次需要更新數(shù)據(jù),重新訓(xùn)練,還可能會(huì)帶來(lái)其他問(wèn)題,成本比較大。

2Methods

省流版總結(jié):

百川將長(zhǎng)窗口與搜索/RAG(檢索增強(qiáng)生成)相結(jié)合,形成長(zhǎng)窗口模型+搜索的完整技術(shù)棧。

百川RAG方案總結(jié):Query 擴(kuò)展(參考Meta CoVe + 自研Think Step-Further) + 自研Baichuan-Text-Embedding向量模型 + 稀疏檢索(BM25、ES) + rerank模型 + 自研Self-Critique技術(shù)(過(guò)濾檢索結(jié)果)。

2.1 Query擴(kuò)展

背景:與傳統(tǒng)關(guān)鍵詞或者短語(yǔ)搜索邏輯不太一致,用戶輸入問(wèn)題不再是詞或者短句,而是轉(zhuǎn)變成自然對(duì)話聲知識(shí)多輪對(duì)話數(shù)據(jù),問(wèn)題形式更加多元,緊密關(guān)聯(lián)上下文,輸入風(fēng)格更加口語(yǔ)化。

目的:拆解復(fù)雜的prompt,檢索相關(guān)子問(wèn)題,并深度挖掘用于口語(yǔ)化表達(dá)中深層次含義,借助子問(wèn)題檢索效果更高的特點(diǎn)來(lái)解決復(fù)雜問(wèn)題檢索質(zhì)量偏差的問(wèn)題。

方法:參考Meta CoVe[1]以及Think Step-Further的方法,對(duì)用戶原始的Query進(jìn)行擴(kuò)展,拓展出多個(gè)相關(guān)問(wèn)題,然后通過(guò)相關(guān)問(wèn)題去檢索相關(guān)內(nèi)容,提高召回率。

百川Query擴(kuò)展方案:

9a30d1cc-ab6e-11ee-8b88-92fbcf53809c.png

Meta CoVe方案:

9a3626ea-ab6e-11ee-8b88-92fbcf53809c.png

2.2 自研Embedding模型

數(shù)據(jù):在超過(guò)1.5T tokens(看著訓(xùn)練百川模型的數(shù)據(jù)都來(lái)訓(xùn)embedding模型了?)。

方法:采用無(wú)監(jiān)督方法(估計(jì)類似SimCSE[2]系列),通過(guò)自研損失函數(shù)解決對(duì)比學(xué)習(xí)方式依賴batchsize問(wèn)題。

效果:登頂C-MTEB,在分類、聚類、排序、檢索和文本相似度5個(gè)任務(wù)評(píng)分取得領(lǐng)先。

9a3a141c-ab6e-11ee-8b88-92fbcf53809c.png

2.3 多路召回+rerank

方法:稀疏檢索+向量檢索 + rerank模型。其中稀疏檢索應(yīng)該是指BM25、ES等傳統(tǒng)檢索的方法,rerank模型百川沒(méi)有提到,不確定是用大模型來(lái)做rerank還是直接訓(xùn)練相關(guān)rerank模型來(lái)對(duì)檢索結(jié)果排序。

效果:召回率95%,對(duì)比其他開(kāi)源向量模型召回率低于80%。

2.4 self-Critique

方法:讓大模型基于 Prompt、從相關(guān)性和可用性等角度對(duì)檢索回來(lái)的內(nèi)容自省,進(jìn)行二次查看,從中篩選出與 Prompt 最匹配、最優(yōu)質(zhì)的候選內(nèi)容。

目的:提升檢索結(jié)果的知識(shí)密度和廣度,降低檢索結(jié)果中的知識(shí)噪聲。

9a3f13fe-ab6e-11ee-8b88-92fbcf53809c.png

3 Conclusion

百川192K上下文模型表現(xiàn)不錯(cuò),實(shí)現(xiàn)了100%的回答精度。

9a51553c-ab6e-11ee-8b88-92fbcf53809c.png

長(zhǎng)上下文窗口模型+搜索增強(qiáng)技術(shù)使5000萬(wàn)Tokens數(shù)據(jù)集達(dá)到95%的回答精度。

9a56555a-ab6e-11ee-8b88-92fbcf53809c.png

二、總結(jié)

多輪問(wèn)答等場(chǎng)景的召回和傳統(tǒng)搜索引擎的召回分布還不太一樣。百川借助子問(wèn)題檢索效果更高的特點(diǎn),對(duì)原始復(fù)雜問(wèn)題進(jìn)行拆解、拓展來(lái)解決復(fù)雜問(wèn)題檢索質(zhì)量偏差的問(wèn)題。

對(duì)于沒(méi)見(jiàn)過(guò)的語(yǔ)料直接用向量檢索的結(jié)果可能不太理想。百川在大量語(yǔ)料上利用無(wú)監(jiān)督方法訓(xùn)練embedding模型來(lái)優(yōu)化效果。而行業(yè)大模型更傾向于私有的數(shù)據(jù),要提升私有數(shù)據(jù)的訓(xùn)練效果還得繼續(xù)在私有化數(shù)據(jù)上訓(xùn)練效果會(huì)更佳。

Query拓展 + 多路召回 + Rerank + self-Critique可能是現(xiàn)階段比較好的一種RAG方式,但是其也會(huì)帶來(lái)更多成本。總體思路有點(diǎn)像ReAct[3]系列的進(jìn)階版本,其在搜索側(cè)和答案修正側(cè)都做了更多的一些工作來(lái)優(yōu)化實(shí)際效果。其缺點(diǎn)是需要多次調(diào)用大模型,會(huì)帶來(lái)額外的成本,真實(shí)線上是否采用這種策略還有待驗(yàn)證。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SFT
    SFT
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    6795

原文標(biāo)題:百川智能RAG方案總結(jié):搜索出生的百川智能大模型RAG爬坑之路

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    白海科技與百川智能順勢(shì)而為、攜手共進(jìn),助力領(lǐng)域大模型應(yīng)用快速落地

    (2023年08月08日,中國(guó)北京訊)近日,AI基礎(chǔ)軟件服務(wù)商白??萍寂c國(guó)內(nèi)領(lǐng)先的AGI服務(wù)企業(yè)百川智能宣布達(dá)成戰(zhàn)略合作協(xié)議。這次合作旨在加速大語(yǔ)言模型在各行各業(yè)的應(yīng)用,并為客戶提供智能
    的頭像 發(fā)表于 08-08 14:23 ?1001次閱讀

    百川ESD產(chǎn)品簡(jiǎn)介 2017版

    百川ESD產(chǎn)品簡(jiǎn)介
    發(fā)表于 10-09 16:26 ?0次下載

    海基新能源再獲百川股份資金加持

    ?;履茉礊?b class='flag-5'>百川股份參股公司,此次增資前,百川股份合計(jì)持股26.55%。百川股份表示,本次增資有利于擴(kuò)大?;履茉翠囯婍?xiàng)目產(chǎn)能規(guī)模,滿足其未來(lái)發(fā)展對(duì)資金的需求。
    的頭像 發(fā)表于 12-28 10:11 ?3636次閱讀

    超高帶寬 海納百川

    智聯(lián)新一代無(wú)線通信系統(tǒng)可以為多種業(yè)務(wù)系統(tǒng)提供安全傳輸通道,幫助行業(yè)用戶真正實(shí)現(xiàn)“超高帶寬、海納百川”。需求分析:信息化建設(shè)的不斷推進(jìn),我國(guó)“建設(shè)智慧城市”的深入開(kāi)展
    的頭像 發(fā)表于 04-19 15:37 ?814次閱讀
    超高帶寬  海納<b class='flag-5'>百川</b>

    百川的大模型KnowHow介紹

    模型是一個(gè)實(shí)驗(yàn)工程,涉及數(shù)據(jù)清洗、底層框架、算法策略等多個(gè)工序,每個(gè)環(huán)節(jié)都有很多,因此知道如何避和技術(shù)選型非常重要,可以節(jié)省很多算力和時(shí)間。
    的頭像 發(fā)表于 09-18 10:28 ?1125次閱讀

    百川智能獲阿里騰訊小米等3億美元投資

    百川智能推出了4款開(kāi)源baichuan-7b/13b、baichuan 2-7b/13b的免費(fèi)商用產(chǎn)品和baichuan-53b、baichuan 2-53b的閉源大模型,平均每28天推出一次新的大
    的頭像 發(fā)表于 10-17 10:15 ?701次閱讀

    寒武紀(jì)的思元(MLU)云端智能加速卡與百川智能完成大模型適配,攜手創(chuàng)新生成式AI

    近日,寒武紀(jì)思元(MLU)系列云端智能加速卡與百川智能旗下的大模型Baichuan2-53B、Baichuan2-13B、Baichuan2-7B等已完成全面適配,寒武紀(jì)思元(MLU)
    的頭像 發(fā)表于 11-06 20:32 ?1268次閱讀
    寒武紀(jì)的思元(MLU)云端<b class='flag-5'>智能</b>加速卡與<b class='flag-5'>百川</b><b class='flag-5'>智能</b>完成大<b class='flag-5'>模型</b>適配,攜手創(chuàng)新生成式AI

    百川智能發(fā)布Baichuan2 Turbo系列API,或?qū)⑻娲袠I(yè)大模型

    在當(dāng)天的媒體溝通會(huì)上,百川智能創(chuàng)始人、CEO王小,百川智能聯(lián)合創(chuàng)始人、聯(lián)席總裁洪濤,百川
    的頭像 發(fā)表于 12-20 16:54 ?861次閱讀

    百川智能發(fā)布超千億大模型Baichuan 3

    百川智能近日發(fā)布了超千億參數(shù)的大語(yǔ)言模型Baichuan 3,引發(fā)了業(yè)界的廣泛關(guān)注。這款模型在多個(gè)權(quán)威通用能力評(píng)測(cè)中表現(xiàn)卓越,展現(xiàn)了其強(qiáng)大的語(yǔ)義理解和生成能力。
    的頭像 發(fā)表于 01-31 14:58 ?739次閱讀

    數(shù)勢(shì)聯(lián)動(dòng)百川,發(fā)布首批大模型聯(lián)合解決方案,推動(dòng)中國(guó)大模型價(jià)值落地

    近日,行業(yè)領(lǐng)先的數(shù)據(jù)智能產(chǎn)品提供商北京數(shù)勢(shì)云創(chuàng)科技有限公司(以下簡(jiǎn)稱“數(shù)勢(shì)科技”)和國(guó)內(nèi)通用大模型廠商北京百川智能科技有限公司(以下簡(jiǎn)稱“百川
    的頭像 發(fā)表于 02-28 11:40 ?413次閱讀
    數(shù)勢(shì)聯(lián)動(dòng)<b class='flag-5'>百川</b>,發(fā)布首批大<b class='flag-5'>模型</b>聯(lián)合解決方案,推動(dòng)中國(guó)大<b class='flag-5'>模型</b>價(jià)值落地

    百川智能與北京大學(xué)將共建通用人工智能聯(lián)合實(shí)驗(yàn)室

    近日,百川智能與北京大學(xué)攜手合作,共同簽署了“北大——百川通用人工智能聯(lián)合實(shí)驗(yàn)室”的共建協(xié)議,標(biāo)志著雙方在人工智能領(lǐng)域邁出了堅(jiān)實(shí)的合作步伐。
    的頭像 發(fā)表于 03-21 11:45 ?791次閱讀

    百川智能發(fā)布Baichuan 4大模型及首款A(yù)I助手“小應(yīng)”

    百川智能近日發(fā)布了其新一代基座大模型Baichuan 4,并同步推出了首款A(yù)I助手“小應(yīng)”。這款A(yù)I助手是在Baichuan 4強(qiáng)大能力的基礎(chǔ)上,結(jié)合先進(jìn)的
    的頭像 發(fā)表于 05-23 14:15 ?525次閱讀

    亞馬遜云科技接入百川智能和零一萬(wàn)物基礎(chǔ)模型

    近日,亞馬遜云科技在中國(guó)峰會(huì)上宣布,兩大中文基礎(chǔ)模型——百川智能的Baichuan2-7B和零一萬(wàn)物的Yi-1.5 6B/9B/34B,即將或已正式登陸中國(guó)區(qū)域的SageMaker JumpStart。這一舉措為中國(guó)企業(yè)提供了豐
    的頭像 發(fā)表于 06-04 11:53 ?524次閱讀

    百川智能完成50億元A輪融資

    近日,國(guó)內(nèi)領(lǐng)先的醫(yī)療AI大模型企業(yè)——百川智能,正式宣布完成了高達(dá)50億元人民幣的A輪融資,這一里程碑式的融資不僅彰顯了市場(chǎng)對(duì)其技術(shù)實(shí)力與未來(lái)發(fā)展?jié)摿Φ母叨日J(rèn)可,也為公司的后續(xù)發(fā)展奠定了堅(jiān)實(shí)的資金基礎(chǔ)。
    的頭像 發(fā)表于 07-26 16:42 ?393次閱讀

    模型廠商“輸血”不斷,百川智能完成50億元A輪融資!

    有重磅消息曝出:知名大模型公司百川智能已經(jīng)成功收獲了價(jià)值50億元的A輪融資。由此,我們不禁感嘆,大模型廠商們的“輸血”和“續(xù)命”之戰(zhàn),還在激烈的上演著。
    的頭像 發(fā)表于 07-31 14:47 ?542次閱讀
    大<b class='flag-5'>模型</b>廠商“輸血”不斷,<b class='flag-5'>百川</b><b class='flag-5'>智能</b>完成50億元A輪融資!