五十路丰满中年熟女中出,久久久亚洲精品久

最新研究揭示，盡管大語(yǔ)言模型LLMs在語(yǔ)言理解上表現(xiàn)出色，但在邏輯推理方面仍有待提高。為此，研究者們推出了GLoRE，一個(gè)全新的邏輯推理評(píng)估基準(zhǔn)，包含12個(gè)數(shù)據(jù)集，覆蓋三大任務(wù)類(lèi)型。

實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)，GPT-4在邏輯推理上的表現(xiàn)遠(yuǎn)超ChatGPT，但與人類(lèi)表現(xiàn)和有監(jiān)督的微調(diào)相比，仍有提高空間。

為此，研究者提出了自我一致性探測(cè)方法（self-consistency probing method）來(lái)進(jìn)一步提升ChatGPT的準(zhǔn)確性，并通過(guò)微調(diào)策略，進(jìn)一步增強(qiáng)大型語(yǔ)言模型的邏輯推理能力。

讓我們一起看看這篇研究吧！

GLoRE基準(zhǔn)

邏輯推理，作為人類(lèi)智能的核心，長(zhǎng)期以來(lái)都是AI研究的熱點(diǎn)。為了更好地評(píng)估LLMs在自然語(yǔ)言中處理復(fù)雜信息的能力，研究人員推出了通用邏輯推理評(píng)估（GLoRE）基準(zhǔn)。與眾所周知的GLUE和Super-GLUE評(píng)估自然語(yǔ)言理解能力類(lèi)似，GLoRE匯集了多個(gè)邏輯推理數(shù)據(jù)集。

GLoRE主要包括三大任務(wù)：

多項(xiàng)選擇閱讀理解：系統(tǒng)給定段落和問(wèn)題，目的是從答案中選擇正確的選項(xiàng)。特別地，GLoRE包括五個(gè)此類(lèi)數(shù)據(jù)集，如LogiQA、ReClor、AR-LSAT等。

自然語(yǔ)言推斷（NLI）：確定假設(shè)與前提之間的邏輯關(guān)系。包括ConTRoL、HELP、TaxiNLI等數(shù)據(jù)集。

真或假問(wèn)題（TF）：如FraCaS、RuleTaker和ProofWriter等數(shù)據(jù)集。

這些數(shù)據(jù)集涵蓋了從簡(jiǎn)單到復(fù)雜的各種邏輯推理情境，為我們?cè)u(píng)估大型語(yǔ)言模型的邏輯推理能力提供了合適的平替。其中，多項(xiàng)選擇閱讀理解深入探討了邏輯MRC問(wèn)題，而NLI任務(wù)關(guān)注文本分類(lèi)中的蘊(yùn)涵關(guān)系。而真或假問(wèn)題主要測(cè)試了模型在多前提上下文的蘊(yùn)涵問(wèn)題上的處理能力。

實(shí)驗(yàn)設(shè)置

在這篇研究中，研究人員針對(duì)開(kāi)源的LLMs和基于封閉API或UI的模型進(jìn)行了評(píng)估，考慮了7種評(píng)估場(chǎng)景：

zero-shot評(píng)估：模型通過(guò)模板轉(zhuǎn)換得到提示，并生成語(yǔ)言化的答案。

few-shot評(píng)估：LLMs使用帶有答案的示例作為上下文進(jìn)行推斷。

指令調(diào)整：LLMs被訓(xùn)練以遵循自然語(yǔ)言指令，進(jìn)行任務(wù)特定的微調(diào)。

自我一致性評(píng)估：模型需要全面了解上下文中的邏輯關(guān)系。

思維鏈評(píng)估：模型進(jìn)行一步一步的邏輯思考。

聊天UI評(píng)估：基于GPT-4的手動(dòng)聊天UI測(cè)試，更真實(shí)地反映用戶與模型的互動(dòng)。

生成響應(yīng)的評(píng)估：對(duì)模型生成的響應(yīng)進(jìn)行質(zhì)量評(píng)估，包括連貫性、完整性、正確性和相關(guān)性。

在實(shí)驗(yàn)中采用了RoBERTa-base作為基線，對(duì)比了數(shù)個(gè)LLMs如Falcon-40b-instruct和LLaMA-30b-supercot，以及OpenAI的ChatGPT和GPT-4。

評(píng)估指標(biāo)主要以分類(lèi)精度得分為指標(biāo)，并設(shè)立人類(lèi)基線，對(duì)于LogiQA22數(shù)據(jù)集特邀五名合著者進(jìn)行測(cè)試。

主要結(jié)果

Zero-shot任務(wù)

下表展示了主要的zero-shot任務(wù)上的實(shí)驗(yàn)結(jié)果。

我們主要可以得出以下發(fā)現(xiàn)：

人類(lèi)準(zhǔn)確率： 人類(lèi)在大多數(shù)邏輯推理任務(wù)上的平均準(zhǔn)確率超過(guò)80%，尤其是在ReClor和AR-LSAT上，平均準(zhǔn)確率分別為63.00%和56.00%。

RoBERTa-base表現(xiàn)： 該模型在多數(shù)邏輯推理任務(wù)上的表現(xiàn)落后于平均人類(lèi)表現(xiàn)，但在特定的ProofWriter任務(wù)上有55.92%的準(zhǔn)確率，顯示出處理特定邏輯推理任務(wù)的潛力。

開(kāi)源模型對(duì)比： LLaMA和Falcon在多數(shù)邏輯推理任務(wù)上的表現(xiàn)都不如微調(diào)的RoBERTa-base，特別是在MRC任務(wù)上。

ChatGPT和GPT-4： 兩種模型在多數(shù)MRC基準(zhǔn)測(cè)試中超過(guò)了RoBERTa-base。GPT-4在處理一些邏輯MRC數(shù)據(jù)集上展現(xiàn)出了顯著的能力。

LogiQA 2.0深度分析： ChatGPT和GPT-4在分類(lèi)推理上都展現(xiàn)出了超高的準(zhǔn)確率，但在處理涉及析取的前提上面臨挑戰(zhàn)。

Few-shot任務(wù)

下表展示了不同模型在few-shot任務(wù)上的實(shí)驗(yàn)結(jié)果。GPT-4在與zero-shot相比的few-shot場(chǎng)景中獲得了超過(guò)9個(gè)百分點(diǎn)的準(zhǔn)確率提升。

推理任務(wù)

下表展示了不同推理類(lèi)型的統(tǒng)計(jì)分析。

ChatGPT和GPT-4在分類(lèi)推理上表現(xiàn)出了超高的準(zhǔn)確率，分別為83.83%和95.04%。

兩模型在涉及析取的前提上面臨挑戰(zhàn)，可能是因?yàn)檫@些邏輯結(jié)構(gòu)的固有復(fù)雜性和潛在的模糊性。

社區(qū)模型在分類(lèi)推理上沒(méi)有展現(xiàn)出特別強(qiáng)的表現(xiàn)，連詞推理和析取推理對(duì)它們來(lái)說(shuō)仍然是個(gè)挑戰(zhàn)。

指令微調(diào)的有效性

使用Alpaca的指令進(jìn)行微調(diào)后，所有任務(wù)的性能都得到了顯著提高，證明了指令調(diào)整的強(qiáng)大效果。這種改進(jìn)主要?dú)w因于模型增強(qiáng)的一般指令理解能力。

經(jīng)過(guò)調(diào)整的LLaMA-7B模型明顯優(yōu)于基線的LLaMA-7B模型和Alpaca。在LogiQA 2.0數(shù)據(jù)集上，模型的準(zhǔn)確率從18.04%增加到52.74%，高于微調(diào)后的RoBERTa-base的48.76%。

盡管微調(diào)僅使用了LogiQA 2.0的訓(xùn)練數(shù)據(jù)集，但經(jīng)過(guò)調(diào)整的模型成功地將其能力推廣到其他數(shù)據(jù)集。在ReClor數(shù)據(jù)集上，經(jīng)過(guò)調(diào)整的模型達(dá)到了55.20%的準(zhǔn)確率，比Alpaca高出32.82個(gè)百分點(diǎn)。

Self-Consistency Probing評(píng)估

邏輯推理任務(wù)通常涉及處理一系列相關(guān)的陳述或事實(shí)，然后根據(jù)這些信息進(jìn)行推斷。這些任務(wù)需要理解不同信息之間的相互作用，而不是獨(dú)立地處理它們。這意味著，即使事實(shí)的順序或句子的結(jié)構(gòu)發(fā)生變化，真正的邏輯結(jié)論也應(yīng)該保持不變。因此，研究人員在實(shí)驗(yàn)中通過(guò)打亂句子為ChatGPT引入多樣性，特別是對(duì)于那些固有地不是順序的數(shù)據(jù)集。

由表可觀察到，投票模型在多數(shù)數(shù)據(jù)集上優(yōu)于單一模型。在LogiQA 2.0 zh數(shù)據(jù)集上，單一模型有更高的準(zhǔn)確率，可能因?yàn)橹形恼Z(yǔ)言結(jié)構(gòu)的特殊性。

打亂文本不會(huì)對(duì)ChatGPT的性能產(chǎn)生負(fù)面影響。在某些情況下，打亂的文本甚至提高了性能。類(lèi)似的趨勢(shì)也出現(xiàn)在其他CoT數(shù)據(jù)中，其中CoT序列的擾動(dòng)對(duì)整體效率的影響很小。

CoT評(píng)估

下表展示了在GLoRE上使用/不使用CoT的結(jié)果。

除此之外，實(shí)驗(yàn)還計(jì)算了GPT-4結(jié)果的混淆矩陣。所有模型在使用CoT提示時(shí)都有性能提升，范圍在2%到3%之間?；煜仃囘M(jìn)一步說(shuō)明了使用CoT提示提高性能的重要性。

GPT4的Chat UI評(píng)估

實(shí)驗(yàn)還對(duì)GPT-4模型在Chat UI界面上的性能進(jìn)行了深入探索，并通過(guò)案例研究揭示了其在回答和推理上的特點(diǎn)。

實(shí)驗(yàn)結(jié)果表明，沒(méi)有觀察到基于UI的輸出和基于API的輸出之間的明顯質(zhì)量差異?；赨I的評(píng)估結(jié)果在大多數(shù)數(shù)據(jù)集上略高于基于API的結(jié)果。評(píng)估指標(biāo)可能是造成這種差異的一個(gè)原因。

案例研究主要有以下發(fā)現(xiàn)：

GPT-4在一些情況下能夠正確地回答和推理，例如通過(guò)選擇新證據(jù)來(lái)解決專(zhuān)家觀點(diǎn)和證據(jù)之間的矛盾。

GPT-4有時(shí)會(huì)生成不正確的答案，如對(duì)人類(lèi)起源的問(wèn)題的回答。

在某些情況下，提供上下文示例可以幫助GPT-4更準(zhǔn)確地回答問(wèn)題。

CoT推理過(guò)程通過(guò)為GPT-4提供更相關(guān)的上下文來(lái)工作，但也可能依賴于表面的模式而不是深入的抽象。

人工評(píng)估

實(shí)驗(yàn)對(duì)模型的表現(xiàn)進(jìn)行了人工評(píng)估，GPT-4在所有指標(biāo)上都穩(wěn)定地排名第一，ChatGPT緊隨其后。評(píng)注者之間的一致性良好，Cohen's Kappa值為0.79。

連貫性: GPT-4得分最高，為4.52，表現(xiàn)出其邏輯連貫輸出的能力。ChatGPT緊隨其后，得分為4.00。

完整性: ChatGPT和GPT-4并列第一，得分均為4.81，展示了其詳盡的回應(yīng)能力。

正確性: GPT-4得分為4.51，領(lǐng)先于其他模型，其回應(yīng)準(zhǔn)確率高。

相關(guān)性: GPT-4略微領(lǐng)先，得分為4.89，與ChatGPT得分4.72相當(dāng)接近。

此外，使用GPT-4 API作為評(píng)估器對(duì)LLaMA-30-supercot模型進(jìn)行了實(shí)驗(yàn)，其評(píng)估得分與人工評(píng)估得分相近，為邏輯推理任務(wù)的自動(dòng)評(píng)估提供了信心。

結(jié)語(yǔ)

在這項(xiàng)研究中，研究團(tuán)隊(duì)提出了一個(gè)名為GLoRE的數(shù)據(jù)集，專(zhuān)門(mén)用于評(píng)估LLMs在處理多種邏輯推理任務(wù)上的表現(xiàn)。研究發(fā)現(xiàn)ChatGPT和GPT-4在大部分邏輯推理基準(zhǔn)測(cè)試上都顯著超越了傳統(tǒng)的微調(diào)方法。盡管商業(yè)模型在GLoRE測(cè)試中的表現(xiàn)相對(duì)較弱，但通過(guò)對(duì)相似數(shù)據(jù)進(jìn)行指令調(diào)整，模型的性能得到了顯著提高。此外，通過(guò)監(jiān)督微調(diào)、上下文學(xué)習(xí)和投票技術(shù)，研究團(tuán)隊(duì)成功地實(shí)現(xiàn)了更為出色的結(jié)果。在對(duì)模型進(jìn)行量化和定性評(píng)估后，該團(tuán)隊(duì)指出，現(xiàn)有的LLMs在解決邏輯推理任務(wù)時(shí)，似乎更多地依賴于表面模式。因此，他們認(rèn)為，對(duì)底層推理機(jī)制進(jìn)行深入研究和增強(qiáng)，將是一個(gè)有益的方向。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
490

瀏覽量
10225
自然語(yǔ)言

自然語(yǔ)言

+關(guān)注

關(guān)注
1

文章
279

瀏覽量
13309
ChatGPT

ChatGPT

+關(guān)注

關(guān)注
28

文章
1523

瀏覽量
7248

原文標(biāo)題：GLoRE：大型語(yǔ)言模型的邏輯推理能力探究

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

【大語(yǔ)言模型：原理與工程實(shí)踐】揭開(kāi)大語(yǔ)言模型的面紗

人工智能進(jìn)步中提供了重要價(jià)值。大語(yǔ)言模型在邏輯推理、推斷和問(wèn)題解決方面展現(xiàn)出了卓越的能力。隨著模型規(guī)模的擴(kuò)大，其

發(fā)表于 05-04 23:55

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

在知識(shí)獲取、邏輯推理、代碼生成等方面的能力。這些評(píng)測(cè)基準(zhǔn)包括語(yǔ)言建模能力、綜合知識(shí)能力、數(shù)學(xué)計(jì)算能力

發(fā)表于 05-07 17:12

【大語(yǔ)言模型：原理與工程實(shí)踐】大語(yǔ)言模型的應(yīng)用

，它通過(guò)抽象思考和邏輯推理，協(xié)助我們應(yīng)對(duì)復(fù)雜的決策。相應(yīng)地，我們?cè)O(shè)計(jì)了兩類(lèi)任務(wù)來(lái)檢驗(yàn)大語(yǔ)言模型的能力。一類(lèi)是感性的、無(wú)需理性能力的任務(wù)

發(fā)表于 05-07 17:21

基于邏輯推理的網(wǎng)絡(luò)攻擊想定生成系統(tǒng)

本文研究并實(shí)現(xiàn)基于邏輯推理的網(wǎng)絡(luò)攻擊想定自動(dòng)生成系統(tǒng)，用于網(wǎng)絡(luò)安全模擬演練。采用Datalog描述與安全相關(guān)的網(wǎng)絡(luò)配置信息和攻擊規(guī)則，使用XSB推理引擎構(gòu)造實(shí)現(xiàn)攻擊目的的攻

發(fā)表于 08-11 08:27 ?20次下載

深入理解語(yǔ)言模型的突顯能力

最近，人們對(duì)大型語(yǔ)言模型所展示的強(qiáng)大能力（例如思維鏈 ^[2]^ 、便簽本 ^[3]^ ）產(chǎn)生了極大的興趣，并開(kāi)展了許多工作。我們將之統(tǒng)稱為大模型

發(fā)表于 02-22 11:16 ?802次閱讀

大型語(yǔ)言模型有哪些用途？

大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語(yǔ)言模型的幫助下，可

發(fā)表于 02-23 19:50 ?5041次閱讀

大型語(yǔ)言模型有哪些用途？大型語(yǔ)言模型如何運(yùn)作呢？

大型語(yǔ)言模型能識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本及其他內(nèi)容。

發(fā)表于 03-08 13:57 ?7742次閱讀

利用大語(yǔ)言模型做多模態(tài)任務(wù)

大型語(yǔ)言模型LLM（Large Language Model）具有很強(qiáng)的通用知識(shí)理解以及較強(qiáng)的邏輯推理能力，但其只能處理文本數(shù)據(jù)。

發(fā)表于 05-10 16:53 ?950次閱讀

基于Transformer的大型語(yǔ)言模型（LLM）的內(nèi)部機(jī)制

本文旨在更好地理解基于 Transformer 的大型語(yǔ)言模型（LLM）的內(nèi)部機(jī)制，以提高它們的可靠性和可解釋性。隨著大型語(yǔ)言

發(fā)表于 06-25 15:08 ?1348次閱讀

騰訊發(fā)布混元大語(yǔ)言模型

能力和復(fù)雜語(yǔ)境下的邏輯推理能力；而且在時(shí)效性上比較強(qiáng)。目前混元大語(yǔ)言模型已經(jīng)在小程序、騰訊云、騰訊廣告、騰訊游戲等開(kāi)啟內(nèi)測(cè)。

發(fā)表于 09-07 10:23 ?1087次閱讀

騰訊對(duì)外開(kāi)放混元大模型

混元大模型是騰訊全鏈路自研的通用大語(yǔ)言模型，具備強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語(yǔ)境下的邏輯推理能力以及

發(fā)表于 09-18 15:12 ?1035次閱讀

基于歸結(jié)反演的大語(yǔ)言模型邏輯推斷系統(tǒng)

受邏輯符號(hào)領(lǐng)域的邏輯推理方法的啟發(fā)，我們引入了一個(gè)在一階邏輯下完備的邏輯推理范式歸結(jié)反演（其推理過(guò)程不會(huì)受到條件1的約束）來(lái)提高完備性，并提

發(fā)表于 04-28 18:00 ?312次閱讀

如何加速大語(yǔ)言模型推理

的主要挑戰(zhàn)。本文將從多個(gè)維度深入探討如何加速大語(yǔ)言模型的推理過(guò)程，以期為相關(guān)領(lǐng)域的研究者和開(kāi)發(fā)者提供參考。

發(fā)表于 07-04 17:32 ?397次閱讀

基于CPU的大型語(yǔ)言模型推理實(shí)驗(yàn)

隨著計(jì)算和數(shù)據(jù)處理變得越來(lái)越分散和復(fù)雜，AI 的重點(diǎn)正在從初始訓(xùn)練轉(zhuǎn)向更高效的AI 推理。Meta 的 Llama3 是功能強(qiáng)大的公開(kāi)可用的大型語(yǔ)言模型（LLM）。本次測(cè)試采用開(kāi)源

發(fā)表于 07-18 14:28 ?371次閱讀

LLM大模型推理加速的關(guān)鍵技術(shù)

LLM（大型語(yǔ)言模型）大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)，旨在提高模型在處理復(fù)雜任務(wù)

發(fā)表于 07-24 11:38 ?642次閱讀