引言:近期,大型語言模型在各種任務(wù)上展現(xiàn)出優(yōu)異的性能,展示了廣闊的應(yīng)用前景。然而,在醫(yī)學領(lǐng)域,現(xiàn)有的模型主要是單一任務(wù)系統(tǒng),缺乏足夠的表達能力和交互能力。因此,目前的模型與實際臨床工作流程中對它們的期望之間存在差距。雖然大型語言模型的出現(xiàn)和發(fā)展為交互式醫(yī)學系統(tǒng)帶來了希望,但由于其可能生成錯誤的輸出和產(chǎn)生幻覺等問題,不能直接應(yīng)用于實際場景。目前關(guān)于大模型在醫(yī)學領(lǐng)域的研究主要集中在評估現(xiàn)有模型性能、構(gòu)建適用的數(shù)據(jù)集以及指令微調(diào)等方面。
Large Language Models Encode Clinical Knowledge
http://arxiv.org/abs/2212.13138
本文的主要工作包括benchmark構(gòu)建、LLM評測和指令微調(diào)。
提出一個涵蓋醫(yī)學檢查、醫(yī)學研究和消費者醫(yī)療問題的醫(yī)學問答benchmark:MultiMedQA。這是一個由七個醫(yī)學問答數(shù)據(jù)集組成的基準,包括六個現(xiàn)有數(shù)據(jù)集和新引入的一個數(shù)據(jù)集。這是一個評估LLM臨床知識和問答能力的多樣化基準,包括多項選擇題、需要對醫(yī)療專業(yè)人員的問題進行較長格式回答的數(shù)據(jù)集,以及需要對非專業(yè)人員可能提出的問題進行較長格式回答的數(shù)據(jù)集。本文還提出了一個醫(yī)生和非專業(yè)用戶評估框架,從多個維度來評估LLM性能。
本文在MultiMedQA上評估了PaLM及Flan-PaLM。通過結(jié)合各種提示策略(few-shot, chain-of-thought and self-consistency prompting),F(xiàn)lan-PaLM在MedQA(USMLE),MedMCQA,PubMedQA和MMLU臨床主題上超過了SOTA性能。特別是,它比之前的MedQA上的SOTA(USMLE)提高了17%以上。
由于在生成長文本的數(shù)據(jù)集上,F(xiàn)lan-PaLM和臨床醫(yī)生的結(jié)果顯示出一定gap。本文提出了使用Instruction Prompt Tuning對Flan-PaLM進行微調(diào)。使用soft prompt作為在多個醫(yī)學數(shù)據(jù)集之間共享的初始前綴,然后是相關(guān)的特定于任務(wù)的prompt(由instructions和/或few-shot示例組成,可能是CoT)以及實際問題和上下文。通過隨計選取和人工評估過濾,最終使用40個來自HealthSearchQA,MedicineQA和LiveQA的例子用于Instruction Prompt Tuning訓練,得到Med-PaLM模型。
Towards Expert-Level Medical Question Answering with Large Language Models
http://arxiv.org/abs/2305.09617
本文提出了Med-PaLM 2,是上面Med-PaLM工作的改進,它通過結(jié)合PaLM 2、醫(yī)學領(lǐng)域微調(diào)和提示策略(包括一種新穎的ensemble refinement策略)來提升性能。Med-PaLM 2 在 MedQA 數(shù)據(jù)集上的得分高達 86.5%,比 Med-PaLM 提高了19%。
在CoT和self-consistency的基礎(chǔ)上,本文提出了一個新的提示策略:ensemble refinement (ER)。ER涉及兩個階段:首先,給定一個prompt和一個問題,模型輸出多個解釋和答案。然后,以原始prompt、問題和上一步的生成輸出為條件進行提示,模型會生成更加精細的解釋和答案。這可以理解為self-consistency的泛化,LLM匯總第一階段的答案而不是簡單的投票,使LLM能夠考慮其生成的解釋的優(yōu)點和缺點。在這里,為了提高性能而多次執(zhí)行第二階段,然后最后對這些生成的答案進行多數(shù)投票以確定最終答案。
下表展示了Med-PaLM 2 在不同的提示策略下的性能??梢钥闯鰁nsemble refinement改進了CoT和SC,從而促使策略在這些基準測試中獲得了更好的結(jié)果。
本文還引入了兩個對抗性問題數(shù)據(jù)集來探索這些模型的安全性和局限性。
ChatDoctor: A Medical Chat Model Fine-tuned on LLaMA Model using Medical Domain Knowledge
http://arxiv.org/abs/2303.14070
ChatDoctor是一個主要在LLaMA上微調(diào)的醫(yī)學領(lǐng)域的大語言模型。
收集對話數(shù)據(jù)集:出于真實性的考慮,本文從在線醫(yī)療咨詢網(wǎng)站“HealthCareMagic”收集了約10萬條真實的醫(yī)患對話,并對這些數(shù)據(jù)進行了人工和自動過濾等預(yù)處理,并命名為 HealthCareMagic-100k。此外,從在線醫(yī)療咨詢網(wǎng)站 iCliniq2 收集了大約1萬條醫(yī)患對話用于以評估模型的性能。
外部知識大腦:如果模型能夠根據(jù)給定的權(quán)威可靠知識進行回答,那么模型的準確性將大大提高。對于醫(yī)療場景中的問答,本文收集并編譯了一個數(shù)據(jù)庫,其中包括大約 700 種疾病及其相關(guān)癥狀、進一步的醫(yī)學測試或措施以及推薦的藥物治療。該數(shù)據(jù)庫可以隨時更新,無需重新訓練模型。除了疾病數(shù)據(jù)庫,一些權(quán)威的信息源也可以作為外部知識大腦,例如維基百科。
ChatDoctor可以檢索相應(yīng)的知識和可靠的來源,以更準確地回答患者的詢問。構(gòu)建完外部知識大腦后,通過構(gòu)造適當?shù)膒rompt讓ChatDoctor自主檢索其所需要的知識。
本文先通過Stanford Alpaca的數(shù)據(jù)微調(diào)以獲得對話的能力,然后在收集的醫(yī)學對話數(shù)據(jù)集上微調(diào)。為了測試基于知識大腦的ChatDoctor模型的能力,向該模型詢問了一些最近的醫(yī)學問題,例如上圖中的Mpox(monkeypox,猴痘),由于這是一個新術(shù)語,ChatGPT 完全無法回答它,而 ChatDoctor 可以自主檢索 Mpox 的維基百科內(nèi)容并給出準確的答案。
BenTsao: Tuning LLaMA Model With Chinese Medical Instructions
http://arxiv.org/abs/2304.06975
本文提出了本草模型(原叫“華駝“),一個生物醫(yī)學領(lǐng)域的中文LLM。BenTsao建立在開源LLaMa-7B模型的基礎(chǔ)上,整合了來自中國醫(yī)學知識圖譜(CMeKG)的結(jié)構(gòu)化和非結(jié)構(gòu)化醫(yī)學知識,并采用基于知識的指令數(shù)據(jù)進行微調(diào)。
數(shù)據(jù)集:醫(yī)學知識有各種類型,一般包括結(jié)構(gòu)化的醫(yī)學知識,如醫(yī)學知識圖譜,和非結(jié)構(gòu)化的醫(yī)學知識,如醫(yī)學指南等。本文利用了中國醫(yī)學知識圖譜CMeKG,該圖譜提供了有關(guān)疾病、藥物、癥狀等的醫(yī)學知識,并借助ChatGPT構(gòu)造了8000 多個指令數(shù)據(jù)形成指令數(shù)據(jù)集,用于監(jiān)督微調(diào)。
指標:對于醫(yī)學問答任務(wù),本文引入了一個新的評估指標 SUS。SUS 指標由三個維度組成:安全性 Safety,可用性Usability和流暢性 Smoothness。Safety 評估生成的響應(yīng)是否有可能誤導用戶并對他們的健康構(gòu)成威脅,Usability 評估生成的響應(yīng)反映醫(yī)學專業(yè)知識的程度,Smoothness 衡量生成的流暢度。
本文構(gòu)建了一組中文對話場景測試集,同時為了評估模型性能招募了五名具有醫(yī)學背景的注釋員通過SUS維度進行評分。平均SUS分數(shù)如下表所示。盡管LLaMA獲得了最高的安全分數(shù),但其回答中信息含量較低。本文的華拓模型顯著提高了知識的可用性。
Galactica: A Large Language Model for Science
http://arxiv.org/abs/2211.09085
本文指出,計算的最初希望是解決科學中的信息過載問題。本文訓練了一個大語言模型Galactica,能夠更好的自動組織科學知識。Galactica是在人類科學知識的大型語料庫上進行訓練的,語料庫包括4800 萬篇論文、教科書和講義、數(shù)百萬種化合物和蛋白質(zhì)、科學網(wǎng)站、百科全書等。
本文提出了一組專門的tokenization用于不同的輸入模態(tài)。對于引用、氨基酸序列、DNA序列等輸入,使用[START_{ }]和[END_{ }]來包裝文本。比如,對于引用,使用[START_REF] 和 [END_REF]來包裝。本文還引入
本文將prompts與通用語料庫一起包含在預(yù)訓練中,并對Galactica各種科學任務(wù)上進行了測試。在醫(yī)學問答數(shù)據(jù)集 PubMedQA 上結(jié)果為77.6%,在MedMCQA上結(jié)果為52.9%,均在當時達到最高水平。
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding
http://arxiv.org/abs/2304.05368
本文在臨床語言理解任務(wù)上對GPT-3.5、GPT-4 和 Bard 進行了全面評估。任務(wù)包括命名實體識別、關(guān)系提取、自然語言推理、語義文本相似性、文檔分類和問答,并在此過程中提出了一種新穎的提示策略,self-questioning prompting(SQP)。SQP旨在通過鼓勵模型更加了解自己的思維過程來提高模型性能,使他們能夠更好地理解相關(guān)概念從而達到更深入的理解。下圖是 SQP 的一般構(gòu)建過程:
下表將提出的SQP與現(xiàn)有的提示方法進行了比較,突出顯示了各自的指導方針和目的。
下面展示了六個任務(wù)的SQP模板,每個模板中突出顯示了核心的自我提問過程。這些帶下劃線和粗體的部分說明了 SQP 如何生成與任務(wù)相關(guān)的目標問題和答案,從而指導模型的推理。
本文的評估強調(diào)了采用特定任務(wù)學習策略和提示技術(shù)(如 SQP)的重要性,以最大限度地提高 LLM 在醫(yī)療保健相關(guān)任務(wù)中的有效性。實驗結(jié)果顯示 GPT-4 的整體性能更好,5-shot SQP 提示策略更好。
CAN LARGE LANGUAGE MODELS REASON ABOUT MEDICAL QUESTIONS?
http://arxiv.org/abs/2207.08143
本文主要測試 GPT-3.5(Codex 和 InstructGPT)是否可用于回答和推理基于現(xiàn)實世界的困難問題,即醫(yī)學問題。主使用兩個多項選擇的醫(yī)學考試問題和一個醫(yī)學閱讀理解數(shù)據(jù)集進行測試。本文研究了多種提示場景:CoT、zero- and few-shot和retrieval augmentation。
Retrieval augmentation探究了將模型與額外的上下文聯(lián)系起來是否可以提高回答的準確性,使用BM25檢索器和維基百科作為知識庫。給定一個問題 、一個答案選項,對文章進行檢索:
DoctorGLM: Fine-tuning your Chinese Doctor is not a Herculean Task
http://arxiv.org/abs/2304.01097
本文在ChatGLM的基礎(chǔ)上構(gòu)造中文的醫(yī)學模型。
數(shù)據(jù)集構(gòu)建:通過翻譯 ChatDoctor的數(shù)據(jù)集來利用英文的高質(zhì)量數(shù)據(jù)集??紤]到專業(yè)的大規(guī)模翻譯代價較高,這里作者通過利用 ChatGPT 來采用一種簡單且低成本的方法進行大規(guī)模翻譯。首先構(gòu)建高質(zhì)量數(shù)據(jù)集:通過ChatGPT翻譯選取的示例;然后使用這部分數(shù)據(jù)配對的中英文數(shù)據(jù)微調(diào)一個語言模型(如BART-based model),該語言模型就能獲得專家級的知識并作為大語言模型的一個替代從而降低大規(guī)模翻譯成本。對于疾病數(shù)據(jù)庫里的知識,作者也利用 ChatGPT來構(gòu)造指令數(shù)據(jù)。
Prompt Designer:為了得到更加可靠的模型輸出,本文利用Prompt Designer來預(yù)處理用戶輸入。Prompt Designer首先從輸入中提取相關(guān)關(guān)鍵字,如疾病名稱或癥狀,然后使用疾病名稱作為標簽并根據(jù)疾病知識庫生成簡短描述。Prompt Designer的輸出包括有關(guān)疾病癥狀、診斷、治療方案和預(yù)防措施的信息。然后將這部分輸出作為DoctorGLM輸入的Info {...}部分。通過提供專業(yè)生成的提示,提示設(shè)計者擴展了DoctorGLM針對特定疾病的專業(yè)知識和可靠性。
Visual Med-Alpaca: A Parameter-Efficient Biomedical LLM with Visual Capabilities
本文提出Visual Med-Alpaca,是一個開源的、參數(shù)高效的生物醫(yī)學基礎(chǔ)模型,可以與醫(yī)學“視覺專家”集成以進行多模態(tài)生物醫(yī)學任務(wù)。該模型建立在LLaMa-7B架構(gòu)上,使用由GPT-3.5-Turbo和人類專家協(xié)作策劃的指令集進行訓練。利用幾個小時的指令調(diào)整和即插即用的視覺模塊,Visual Med-Alpaca 可以執(zhí)行各種醫(yī)學任務(wù)。
數(shù)據(jù)集構(gòu)建:從 BigBIO 存儲庫中的各種醫(yī)學數(shù)據(jù)集中提取醫(yī)學問題,然后提示 GPT-3.5-Turbo 合成這些問題的答案,之后執(zhí)行多輪人工過濾和編輯來優(yōu)化問答對,從而產(chǎn)生包含 54k 指令的高質(zhì)量指令集。
視覺模態(tài):Visual Med-Alpaca 支持兩個不同的視覺expert:Med-GIT 和 DePlot。Med-GIT 是一個用于圖像到文本生成的模型,這里使用 ROCO 數(shù)據(jù)集進行微調(diào),以促進專門的放射學圖像字幕生成。DePlot可以將圖形或圖表的圖像轉(zhuǎn)換為表格,其輸出可以直接用于提示預(yù)訓練的大型語言模型。
由于基礎(chǔ)模型提供了一個模塊化且適應(yīng)性強的框架用于整合各種視覺模塊,在此框架內(nèi),任何多模態(tài)的任務(wù)都可可以分為兩個基本階段:圖像到文本的轉(zhuǎn)換和基于文本的推理。在本文中,視覺專家(即視覺基礎(chǔ)模型)將醫(yī)學圖像轉(zhuǎn)換為中間文本表示,然后將轉(zhuǎn)換后的數(shù)據(jù)用于提示預(yù)訓練的 LLM,利用 LLM 固有的推理能力來生成適當?shù)捻憫?yīng)。
Visual Med-Alpaca 通過提示增強方法連接了文本和視覺模態(tài)。首先,圖像輸入被送入類型分類器,選擇對應(yīng)的視覺模型后得到文本輸出,然后將其附加到文本輸入以用于后續(xù)推理過程。然后,prompt manager將從圖像和文本輸入中提取的文本信息合并到 Med-Alpaca 的prompt中,之后再進行文本的推理產(chǎn)生輸出。
XrayGLM: The first Chinese Medical Multimodal Model that Chest Radiographs Summarization
最近,大型通用語言模型取得了顯著的成功,能夠遵循指令并生成與人類類似的回應(yīng)。這種成功在一定程度上推動了多模態(tài)大模型的研究和發(fā)展,例如MiniGPT-4等。然而,這些多模態(tài)模型在醫(yī)學領(lǐng)域的研究中很少見,雖然visual-med-alpaca在醫(yī)學多模態(tài)模型方面取得了一些有成效的工作,但其數(shù)據(jù)僅限于英文診斷報告,對于推動中文醫(yī)學多模態(tài)模型的研究和發(fā)展并不利。因此,為了解決這個問題,本文開發(fā)了XrayGLM模型。
本文借助ChatGPT和公開的胸片圖文對數(shù)據(jù)集,構(gòu)造了中文的X光片-診斷報告數(shù)據(jù)集,并使用該數(shù)據(jù)集在 VisualGLM-6B上進行微調(diào)訓練。
總結(jié):現(xiàn)有的大語言模型在醫(yī)學方面的工作集中在評測、微調(diào)、多語言、多模態(tài)、數(shù)據(jù)集構(gòu)建等方面,仍然處于探索和初步階段,醫(yī)學領(lǐng)域的安全性問題更加重要,交互式醫(yī)學系統(tǒng)還需要進一步發(fā)展和完善。
-
語言模型
+關(guān)注
關(guān)注
0文章
491瀏覽量
10226 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1197瀏覽量
24592 -
大模型
+關(guān)注
關(guān)注
2文章
2212瀏覽量
2235 -
LLM
+關(guān)注
關(guān)注
0文章
253瀏覽量
286
原文標題:LLM in Medical Domain: 一文速覽大語言模型在醫(yī)學領(lǐng)域的應(yīng)用
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論