電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)近日,斯坦福大學(xué)AI團(tuán)隊(duì)主導(dǎo)的Llama3-V開源模型被證實(shí)套殼抄襲國內(nèi)清華與面壁智能的開源模型“小鋼炮”MiniCPM-Llama3-V 2.5。該事件引起了業(yè)界的廣泛關(guān)注,也讓大家對于開源大模型的規(guī)范使用更加擔(dān)憂。
斯坦福Llama3V模型被證實(shí)抄襲
5月29日,斯坦福大學(xué)的一個(gè)AI團(tuán)隊(duì)在Github等平臺(tái)發(fā)布了一款大模型,名為Llama3V,該模型的亮點(diǎn)是據(jù)稱只需要500美元就可以訓(xùn)練出一個(gè) SOTA多模態(tài)模型,模型效果可比肩GPT-4V、Gemini Ultra等大模型。
由于模型團(tuán)隊(duì)來自斯坦福,且效果描述非常吸引眼球,因此該模型很快在社交平臺(tái)發(fā)酵,推特上相關(guān)話題的瀏覽量超過了30萬,迅速?zèng)_到了Hugging Face首頁。
不過,有用戶很快發(fā)現(xiàn),Llama3-V大模型實(shí)際上是套殼面壁智能的MiniCPM-Llama3-V 2.5,但Llama3-V在發(fā)布信息中并沒有體現(xiàn)這一點(diǎn),且稱只是使用了MiniCPM-Llama3-V 2.5的tokenizer。但這一說法讓用戶很難認(rèn)同,隨后有用戶在Github頁面上指出了套殼的問題,但相關(guān)言論很快被斯坦福團(tuán)隊(duì)刪除。
該用戶非常不滿隨后到MiniCPM-Llama3-V 2.5頁面下重述了這一問題,并提醒面壁智能重視此事。面壁團(tuán)隊(duì)通過測試發(fā)現(xiàn),Llama3V與MiniCPM-Llama3-V 2.5在“胎記”般案例上的表現(xiàn)100%雷同,做實(shí)了斯坦福團(tuán)隊(duì)的抄襲行為。隨后,這一事件在國外媒體迅速發(fā)酵。
隨后不久,斯坦福Llama3-V團(tuán)隊(duì)承認(rèn)抄襲,斯坦福本科生Siddharth Sharma和Aksh Garg發(fā)布了道歉聲明,不過據(jù)稱是主要責(zé)任人的Mustafa Aljadery并沒有出現(xiàn)在道歉聲明中,這名學(xué)生來自南加利福尼亞大學(xué),目前處于失蹤的狀態(tài),是這一事件的主要過錯(cuò)方。
Aksh Garg在道歉聲明中表示,“首先,我們要向MiniCPM原作者道歉。我、Siddharth Sharma,以及Mustafa一起發(fā)布了Llama3-V,Mustafa為這個(gè)項(xiàng)目編寫了代碼,但從昨天起就無法聯(lián)系他。我與Siddharth Sharma主要負(fù)責(zé)幫助Mustafa進(jìn)行模型推廣。我們倆查看了最新的論文,以驗(yàn)證這項(xiàng)工作的新穎性,但并未被告知或意識到OpenBMB(清華團(tuán)隊(duì)支持發(fā)起的大規(guī)模預(yù)訓(xùn)練語言模型庫與相關(guān)工具)之前的任何工作。我們向作者道歉,并對自己沒有努力驗(yàn)證這項(xiàng)工作的原創(chuàng)性感到失望。我們對所發(fā)生的事情承擔(dān)全部責(zé)任,并已撤下Llama3-V,再次致歉?!?br />
6月3日,面壁智能CEO李大海與聯(lián)合創(chuàng)始人劉知遠(yuǎn)先后發(fā)文,回應(yīng)開源模型被斯坦福大學(xué)AI團(tuán)隊(duì)抄襲一事。李大海表示:“我們對這件事深表遺憾。一方面感慨這也是一種受到國際團(tuán)隊(duì)認(rèn)可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境?!薄拔覀兿M麍F(tuán)隊(duì)的好工作被更多人關(guān)注與認(rèn)可,但不是以這種方式?!?br />
據(jù)介紹,MiniCPM-Llama3-V 2.5是MiniCPM-V系列的最新版本模型,基于SigLip-400M和Llama3-8B-Instruct構(gòu)建,共參數(shù)規(guī)模為8B,相較于MiniCPM-V 2.0性能取得較大幅度提升。MiniCPM-Llama3-V 2.5在綜合了11個(gè)主流多模態(tài)大模型評測基準(zhǔn)的OpenCompass榜單上平均得分65.1的成績,超越了GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max等商用閉源模型。
開源大模型規(guī)范使用值得關(guān)注
開源大模型是指一種基于開源技術(shù)和大規(guī)模數(shù)據(jù)集構(gòu)建的人工智能模型,具有開放性和可擴(kuò)展性的特點(diǎn)。開源大模型與傳統(tǒng)的商業(yè)人工智能模型不同,其最大的特點(diǎn)在于開放性和可擴(kuò)展性。這種模型的構(gòu)建需要利用大量的開源工具和資源,包括開源的深度學(xué)習(xí)框架、開源的數(shù)據(jù)集和開源的算法等。
開源大模型是AI大模型發(fā)展的重要分支,擁有LLaMA、Grok-1、Stable Code Instruct-3B、Mistral 8x7B和零一萬物的Yi-34B等代表產(chǎn)品,這些大模型的發(fā)布和發(fā)展,不僅顯著增強(qiáng)了數(shù)據(jù)的安全性和隱私保護(hù),更為用戶節(jié)省了大量成本,減少了對外部依賴的需求。
不過,由于是開源的,因此開源大模型一直以來都面臨著被抄襲的風(fēng)險(xiǎn)。實(shí)際上,上述提到的零一萬物的Yi-34B在去年也是深陷抄襲的漩渦里。2023年11月14日,一位國外開發(fā)者在Hugging Face開源主頁上評論稱,創(chuàng)新工場董事長兼CEO、零一萬物CEO李開復(fù)旗下 AI 公司“零一萬物”開源大模型Yi-34B,完全使用Meta研發(fā)的LIama開源模型架構(gòu),而只對兩個(gè)張量(Tensor)名稱進(jìn)行修改。
根據(jù)零一萬物的說明,零一萬物在訓(xùn)練模型過程中,沿用了GPT/LLaMA的基本架構(gòu),由于LLaMA社區(qū)的開源貢獻(xiàn),讓零一萬物可以快速起步。零一萬物還在聲明中稱,模型結(jié)構(gòu)僅是模型訓(xùn)練其中一部分。Yi 開源模型在其他方面的精力,比如數(shù)據(jù)工程、訓(xùn)練方法、baby sitting(訓(xùn)練過程監(jiān)測)的技巧、hyperparameter設(shè)置、評估方法以及對評估指標(biāo)的本質(zhì)理解深度、對模型泛化能力的原理的研究深度、行業(yè)頂尖的AI infra能力等。
實(shí)際上,在更早的2022年,智源研究院的大模型研究中心就被爆出了抄襲的問題,一篇擁有100位作者署名的綜述研究《A Roadmap for Big Model》被質(zhì)疑抄襲了多篇論文內(nèi)容,引發(fā)國內(nèi)外學(xué)者和社區(qū)的廣泛關(guān)注與討論。另外,商湯、谷歌等公司都曾被指出存在抄襲問題。
目前,AI大模型在防止抄襲、版權(quán)歸屬等問題方面還存在很大的漏洞,行業(yè)法規(guī)明顯不健全,關(guān)于大模型使用已有作品進(jìn)行訓(xùn)練是否構(gòu)成侵權(quán),以及大模型生成物是否可以享有版權(quán),這類事件也已經(jīng)有案件發(fā)生。相信隨著行業(yè)的進(jìn)一步發(fā)展,杜絕抄襲和版權(quán)歸屬將逐漸有法可依,這樣會(huì)更有利于大模型的發(fā)展。
結(jié)語
斯坦福團(tuán)隊(duì)開源大模型抄襲事件暴露了開源大模型的濫用和監(jiān)管問題,同時(shí)AI大模型也還有更深層次的數(shù)據(jù)和作品版權(quán)歸屬問題,因此不難看出AI大模型尚處于野蠻生長的階段,未來還需要逐步健全行業(yè)法規(guī)。
-
大模型
+關(guān)注
關(guān)注
2文章
2204瀏覽量
2227
發(fā)布評論請先 登錄
相關(guān)推薦
評論