0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT總設(shè)計師:大型語言模型的未來

AI智勝未來 ? 來源:Stanford eCorner ? 2023-06-12 16:38 ? 次閱讀

回頭來看,ChatGPT的橫空出世驗證了Ilya Sutskever此前預(yù)想的AI發(fā)展方向。

在OpenAI成立早期,強(qiáng)化學(xué)習(xí)大牛Pieter Abbeel曾與Ilya共事,在他看來,Ilya對AI的思考總是走在他人的前面,而為了驗證自己的想法,他總是在恰當(dāng)?shù)臅r間更換自己的工作處境,并做出了領(lǐng)域內(nèi)最具開創(chuàng)性的工作。

Ilya出生于俄羅斯,五歲隨家人搬到以色列讀書、生活,本科時轉(zhuǎn)學(xué)至多倫多大學(xué),攻讀數(shù)學(xué)學(xué)士學(xué)位,并在此取得了計算機(jī)科學(xué)博士學(xué)位,師從深度學(xué)習(xí)“教父”Geoffrey Hinton。2012年,在Hinton的指導(dǎo)下,他與Alex krizhevsky提出了AlexNet網(wǎng)絡(luò),開啟了新一輪深度學(xué)習(xí)革命。隨后,Ilya加入Hinton的三人組公司DNN-research,并在2013年被Google收購,Ilya也隨即入職。2015年,Ilya離開Google,與馬斯克、Sam Altman、Greg Brockman等人創(chuàng)立了OpenAI,至今,他一直擔(dān)任公司首席科學(xué)家。

從AlexNet開始,AlphaGo、GPT、CLIP、DALL-E和Codex這些業(yè)內(nèi)開山之作都有他的身影。不過,將這位科學(xué)家推到世界舞臺中央的是2022年11月發(fā)布的ChatGPT,而他正是GPT系列模型背后的奠基人和總設(shè)計師。

以ChatGPT為代表的大型語言模型在全世界范圍內(nèi)產(chǎn)生了巨大影響,被視為科技領(lǐng)域的革命性進(jìn)展。

不過,面向未來,當(dāng)前的大型語言模型發(fā)展不會是AI進(jìn)步的全部。Ilya對此有一個比喻:如果把AI看作是身體,那還需要肌肉、骨骼和神經(jīng)系統(tǒng),你只擁有其中一個部件也不錯,但那不會是真正的進(jìn)展,你需要集齊所有的部件。

AI的發(fā)展還將繼續(xù)。近期,在與斯坦福大學(xué)客座講師Ravi Belani的線上對話中,Ilya分享了關(guān)于大型語言模型、深度學(xué)習(xí)以及OpenAI的未來發(fā)展的思考。

他預(yù)計,深度學(xué)習(xí)和大型語言模型會繼續(xù)發(fā)展:這個領(lǐng)域的未來可能會有一小部分重大突破,加之許多細(xì)微改進(jìn),所有這些都將融入到一個龐大而復(fù)雜的工程體系。他還給出了一些有趣、可執(zhí)行的思想實驗。

1、大型語言模型與人類智能

Ravi Belani:大型語言模型是生成式AI的關(guān)鍵技術(shù),OpenAI目前正處于這一技術(shù)的最前沿,對這一技術(shù)有什么是你未曾預(yù)料到的?

Ilya Sutskever:大型語言模型的工作原理簡單且迷人。眾所周知,人腦由大量神經(jīng)元組成,是世界上智能程度最高的東西。幾十年來,神經(jīng)科學(xué)家們一直在研究神經(jīng)元,試圖弄清它的工作原理,雖然生物神經(jīng)元的工作之謎仍待揭開,但在上世紀(jì)四十年代早期,通過仔細(xì)觀察,深度學(xué)習(xí)研究人員們做了一個大膽設(shè)想:人工神經(jīng)網(wǎng)絡(luò)中的人工神經(jīng)元其實和生物神經(jīng)元有點相似。我們可以在這一設(shè)想的基礎(chǔ)上進(jìn)行研究。

相比生物神經(jīng)元,人工神經(jīng)元要簡單得多,并且我們可以對其進(jìn)行數(shù)學(xué)研究。在這一領(lǐng)域被命名為深度學(xué)習(xí)之前,早期,深度學(xué)習(xí)先驅(qū)們?nèi)〉昧艘粋€非常重要的突破——反向傳播算法。這個算法是關(guān)于人工神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)的數(shù)學(xué)方程,提供了一種在計算機(jī)中實現(xiàn)這個神經(jīng)網(wǎng)絡(luò)并編寫代碼的方法,并告訴我們神經(jīng)網(wǎng)絡(luò)應(yīng)該如何根據(jù)經(jīng)驗來調(diào)整連接。

對學(xué)習(xí)過程以及學(xué)習(xí)過程運行條件的了解關(guān)系到我們所能取得的進(jìn)一步進(jìn)展。雖然我們用的是計算機(jī)去操作學(xué)習(xí)過程,但這卻更像是實驗科學(xué)或生物實驗。大多數(shù)深度學(xué)習(xí)進(jìn)展都可以歸結(jié)為:在大型計算機(jī)中建構(gòu)神經(jīng)網(wǎng)絡(luò),然后用數(shù)據(jù)對其進(jìn)行訓(xùn)練,讓這些神經(jīng)網(wǎng)絡(luò)完成訓(xùn)練數(shù)據(jù)要求它們完成的任務(wù)。

大型語言模型的理念是:如果有一個大型神經(jīng)網(wǎng)絡(luò),我們可以對其進(jìn)行訓(xùn)練,讓它根據(jù)前面的文本內(nèi)容預(yù)測下一個單詞。再看最初的猜想:也許生物神經(jīng)元和人工神經(jīng)元極為類似,沒有太大區(qū)別。那么,如果有一個可以準(zhǔn)確預(yù)測下一個單詞的大型神經(jīng)網(wǎng)絡(luò),它的運轉(zhuǎn)方式也許類似于人們談話時生物神經(jīng)元的運轉(zhuǎn)方式。如果我們和這樣的神經(jīng)網(wǎng)絡(luò)對話,因為它能夠準(zhǔn)確預(yù)測下一個單詞,所以可以在理解對話的基礎(chǔ)上,準(zhǔn)確地縮小生成對話的可能性范圍。

精確猜測下一個單詞需要進(jìn)行預(yù)測,這也是理解的方式。我們很難清楚定義神經(jīng)網(wǎng)絡(luò)的“理解“,但我們可以輕易測量和優(yōu)化網(wǎng)絡(luò)對下一個單詞的預(yù)測誤差。

我們想要神經(jīng)網(wǎng)絡(luò)擁有“理解”能力,但能做的是優(yōu)化預(yù)測,而這也正是我們目前在做的事。通過優(yōu)化預(yù)測得到了目前的大型語言模型,它們都是用強(qiáng)大的反向傳播算法訓(xùn)練的神經(jīng)網(wǎng)絡(luò),由此可以想象,人工神經(jīng)元和生物神經(jīng)元并沒有太大區(qū)別,如果留心觀察,我們會發(fā)現(xiàn)人腦很擅長猜測下一個單詞。

Ravi Belani:此前,我們認(rèn)為機(jī)器是無法進(jìn)行學(xué)習(xí)的,但現(xiàn)在發(fā)現(xiàn)機(jī)器可以學(xué)習(xí),對即將發(fā)生的結(jié)果進(jìn)行預(yù)測。如果人類處于1X學(xué)習(xí)階段,那么與人類相比,ChatGPT等模型處于何種階段?

Ilya Sutskever:我們很難在人工神經(jīng)網(wǎng)絡(luò)和人類之間做直接對比,因為人類可以從較少的數(shù)據(jù)中學(xué)習(xí)很多知識,但大型語言模型卻無法做到這點,所以ChatGPT等模型才需要用更多的數(shù)據(jù)進(jìn)行訓(xùn)練,以彌補(bǔ)它們在學(xué)習(xí)方面的先天不足。隨著不斷進(jìn)行訓(xùn)練,這些神經(jīng)網(wǎng)絡(luò)會變得越來越優(yōu)秀,學(xué)習(xí)速度也越來越快。

總體上看,神經(jīng)網(wǎng)絡(luò)和人腦還是有很大差異,學(xué)習(xí)方式大有不同。神經(jīng)網(wǎng)絡(luò)十分擅長數(shù)學(xué)和編程,為了掌握數(shù)學(xué)或編程等能力,它們需要學(xué)習(xí)吸收大量數(shù)學(xué)書籍,但對人類而言,做同樣的事情,可能只需要看一兩本數(shù)學(xué)書,再做一兩百道練習(xí)題就夠了。

Ravi Belani:如果不考慮數(shù)據(jù)方面的限制,讓模型吸收盡可能多的數(shù)據(jù),那它現(xiàn)在的學(xué)習(xí)能力是否達(dá)到了人類的十分之一?

Ilya Sutskever:這個問題給任何回答都具有誤導(dǎo)性。顯然,目前神經(jīng)網(wǎng)絡(luò)所儲備的知識量以及所掌握的技術(shù)都遠(yuǎn)超人類水平,比如這些模型十分擅長詩歌創(chuàng)作,它們可以就任何話題發(fā)表長篇大論,還可以談?wù)摎v史等等。但從另一角度,人類可以對這些問題進(jìn)行更深層次的探討,比如人類專家可以在只讀了少量文獻(xiàn)的基礎(chǔ)上,對某個話題發(fā)表深入見解。

Ravi Belani:機(jī)器的學(xué)習(xí)和適應(yīng)速度是否會超過人類?這樣的奇點是否存在?

Ilya Sutskever:會的。在這方面我們還會取得進(jìn)展,但距離奇點的發(fā)生還要很久,我不能給出一個確切時間。

Ravi Belani:現(xiàn)在,有人對AI的發(fā)展表示擔(dān)憂,特別是蘋果的聯(lián)合創(chuàng)始人Steve Wozniak和埃隆·馬斯克,兩人曾公開簽署過一份請愿書,聲稱人類已經(jīng)接近甚至可能越過了技術(shù)發(fā)展紅線,如果現(xiàn)在不中止AI的發(fā)展,將無法控制其帶來的后果。不過,Sam Altman(OpenAI CEO)對此基本持反對意見,在你看來,AI發(fā)展是否應(yīng)該受到一些監(jiān)管或監(jiān)督的限制?

Ilya Sutskever:人工智能將變得非常強(qiáng)大,并具備真正的變革力量,我們確實需要朝著一個制定政府監(jiān)管的世界前進(jìn),其中有以下幾個方面需要考慮。

首先,我們希望生活在一個制定明確規(guī)則的世界,例如對訓(xùn)練更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)制定規(guī)范。其次,我們需要對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行謹(jǐn)慎評估,預(yù)測其當(dāng)前和未來能夠?qū)崿F(xiàn)的能力,比如在一年之后或者訓(xùn)練完成時達(dá)到的能力。這些措施必不可少,以確保人工智能的發(fā)展合理并可靠。

我們追求的是一個每一步都經(jīng)過充分準(zhǔn)備、驗證和認(rèn)證的世界。我相信,這是我們應(yīng)該致力于發(fā)展的正確方向。

2、機(jī)器“意識”的思想實驗

Ravi Belani:你小時候曾困惑于“意識”這個概念,你是否認(rèn)為“意識”、“感覺”或“自我意識”等是學(xué)習(xí)的延伸?“意識”是否無可避免,注定會產(chǎn)生?

Ilya Sutskever:小時候,看著自己的雙手,我會好奇為什么眼前這個東西是我的手呢?“意識”仿佛是自然而然產(chǎn)生的,我不知道該如何更好地對“意識”進(jìn)行解釋。

眾所周知,“意識”是很棘手的問題,它沒有明確的定義,并且我們也沒有“意識”檢測系統(tǒng)。有時對于完美運行的系統(tǒng),我們會猜測它也許具有“意識”,但出于某些原因,這個系統(tǒng)其實并沒有“意識”。

將來,當(dāng)AI系統(tǒng)能夠快速從少量數(shù)據(jù)中學(xué)習(xí)時,我們也許可以用一種簡單的方式在AI系統(tǒng)上做實驗:在實驗中,我們要非常謹(jǐn)慎地整理數(shù)據(jù),確保數(shù)據(jù)未包含任何與“意識”有關(guān)的內(nèi)容。這些訓(xùn)練數(shù)據(jù)只陳述客觀事實,比如這里有一個球,那里有一座城堡,另一邊有一個玩具等等,這類數(shù)據(jù)具有高度可控性。接下來幾年,我們就用這類數(shù)據(jù)對模型進(jìn)行訓(xùn)練。

或者,我們還可以讓模型與許多不同的老師進(jìn)行互動,讓老師幫助它們學(xué)習(xí),但在整個訓(xùn)練過程中,我們要十分小心,不能提及任何與“意識”相關(guān)的內(nèi)容,只告訴模型最表層的概念。當(dāng)訓(xùn)練達(dá)到一定程度時,我們再告訴AI與“意識”相關(guān)的內(nèi)容。

試想一下,AI會有何種反應(yīng),它們會不會早就感受到了“意識”,然后說“天啦,我早就有這種感覺了,只是不知道該如何形容”,AI的這種反應(yīng)是可以接受和預(yù)料的。

如果AI只有一些非常單調(diào)狹窄的訓(xùn)練數(shù)據(jù),那么它可能永遠(yuǎn)不會有意識,但如果AI能以人類可理解的方式,正確且頭頭是道地談?wù)摗耙庾R”,那么它可能真的有“意識”了。

Ravi Belani:“意識”是程度問題還是二元問題?

Ilya Sutskever:“意識”是分程度的。比如當(dāng)一個人非常累或者喝醉了,他的“意識”可能會在某種程度降低。在我看來,不同的動物擁有不同的“意識”程度,比如從狗到貓到老鼠再到昆蟲的“意識”程度應(yīng)該呈連續(xù)的下降趨勢。

3、開源與閉源,營利與非營利

Ravi Belani:眾所周知,OpenAI的使命是確保通用人工智能造福全人類。最初,馬斯克招募你加入OpenAI,并捐贈了1億美元,當(dāng)時OpenAI還是一個非營利性的開源機(jī)構(gòu)。馬斯克表示,創(chuàng)辦OpenAI最初的愿景是創(chuàng)建一股與谷歌和業(yè)界相抗衡的研究力量,考慮到AI對人類可能存在的潛在威脅,他不希望AI行業(yè)完全由企業(yè)和營利性組織掌控。如今,OpenAI卻成為營利性的閉源組織,與微軟關(guān)系密切,似乎正朝著微軟和谷歌兩家獨大的壟斷方向發(fā)展。

作為OpenAI的首席科學(xué)家,你如何看待這一轉(zhuǎn)變?在做出這一決策時,你是否考慮了道德因素?還是說道德準(zhǔn)則是其他人的責(zé)任,你的主要任務(wù)是推動技術(shù)發(fā)展?

Ilya Sutskever:我對OpenAI的一切事務(wù)都負(fù)有直接責(zé)任,即便我的角色主要是推動技術(shù)進(jìn)步,但作為公司創(chuàng)始人之一,我十分關(guān)心OpenAI的整體影響。在這一背景下,再來討論開源與閉源、非營利與營利。

AI的挑戰(zhàn)在于它能夠包羅萬象,因而面臨眾多不同的挑戰(zhàn)和利益沖突。開源與閉源之爭就是一個很好的例子,為什么提倡AI開源?首先,開源AI能夠防止權(quán)力過度集中于構(gòu)建AI的人手中,如果只有少數(shù)幾家公司掌控這項強(qiáng)大的技術(shù),顯然是不合理的,AI應(yīng)當(dāng)是開源的,任何人都可以使用。以上是支持AI開源的論點。

但顯然,短期來看,出于商業(yè)利益,有人會反對AI開源。同時,長遠(yuǎn)來看,若有人相信最終AI將變得十分強(qiáng)大,如果未來某天你僅僅是告訴AI:“嘿!你能自主創(chuàng)建一個生物研究實驗室嗎?”它就能夠自行處理所有的文書工作,找到合適的場所,雇傭技術(shù)人員,整合實驗等,一切就開始變得難以置信。在這種情況下,AI是否也應(yīng)該開源?

因此,關(guān)于開源問題,可能存在一種層級,來根據(jù)神經(jīng)網(wǎng)絡(luò)的能力、智能程度和可執(zhí)行任務(wù)的范圍來衡量其能力。當(dāng)AI能力處于較低水平時,開源是一件好事,但在某一時刻(關(guān)于何時達(dá)到這一時刻可能會引發(fā)爭論),AI的能力將變得無比強(qiáng)大,這時公開源代碼顯然是不負(fù)責(zé)任的行為。

我認(rèn)為,目前AI的能力水平還不夠高,不足以成為推動閉源模式的安全考慮因素。換句話說,這個問題可以分階段來看。當(dāng)前,我們正處于競爭階段,但隨著模型能力的不斷增強(qiáng),總有一天安全會成為一個顯著而緊迫的因素,促使我們不再開源這些模型。

Ravi Belani:這是否是OpenAI后來選擇閉源的決策動機(jī),還是出于某種契約或商業(yè)上的考量,以獲得來自微軟或其他公司的資金支持,來支撐業(yè)務(wù)的發(fā)展,或是另有原因?

Ilya Sutskever:在某種意義上,如果OpenAI能夠成為一個非營利組織,并一直保持這種狀態(tài)直到完成使命,這種方式十分可取。然而,值得強(qiáng)調(diào)的是,這些數(shù)據(jù)中心成本十分昂貴,其中絕大部分都流向了云服務(wù)提供商。

為什么會出現(xiàn)這種局面?之所以需要這么多資金,是因為大型神經(jīng)網(wǎng)絡(luò)的性質(zhì)決定了它們需要大量的計算資源,再無其他。

可以發(fā)現(xiàn),學(xué)術(shù)界和人工智能公司之間正發(fā)生分化。幾十年來,人工智能的前沿研究一直由大學(xué)的學(xué)術(shù)部門推進(jìn)。直到2010年代中期,這種情況一直存在。但在某個時刻,當(dāng)一個項目的復(fù)雜性提升,成本增加時,大學(xué)就失去了競爭力,如今,大學(xué)進(jìn)行人工智能方面的研究需要尋求其他的方式,與過去和當(dāng)前企業(yè)進(jìn)行的方式截然不同。

基于以上原因,非營利組織的運轉(zhuǎn)會出現(xiàn)問題,因為組織資助者難以從中獲取回報,這就成了一場徹頭徹尾的捐贈,而且很難說服人們?yōu)榉菭I利組織籌集資金。

那么,有沒有解決辦法或行動方針?我們想到了一個方法,據(jù)我所知,OpenAI的這種開放式企業(yè)架構(gòu)在世界上獨一無二。

OpenAI不是營利性公司,而是一家有限營利公司,這意味著,OpenAI的股權(quán)更像是債券,而不是普通公司的股份。債券的主要特點是一旦支付完畢,整個流程就結(jié)束了。換句話說,與普通公司相比,OpenAI對投資者負(fù)有限責(zé)任。

Ravi Belani:創(chuàng)始人是否持有OpenAI的股份?

Ilya Sutskever:除了Sam Altman(OpenAI首席執(zhí)行官)沒有股份,其他創(chuàng)始人持有有限股份。

Ravi Belani:股份是如何設(shè)定上限的(capped)?我推測創(chuàng)始人不會購買OpenAI的股份,除非股份上限設(shè)定為名義股價(nominal share value)。

Ilya Sutskever:OpenAI這一機(jī)制與普通的初創(chuàng)公司股份制確實不同,但也存在一些相似之處,即加入公司的時間越早,股份上限就越高,因為需要更高的上限來吸引最初投資者。隨著公司業(yè)務(wù)持續(xù)取得成功,上限會逐漸降低。這一點十分重要,這意味著,一旦向投資者和員工了卻全部義務(wù),OpenAI將再次成為一個非營利組織。

你可能會覺得這一機(jī)制不知所云,好像并沒有改變什么,但還需要考慮人工智能未來的發(fā)展預(yù)期。我認(rèn)為,OpenAI完全有可能在履行對投資者和員工的義務(wù)之后,成為一個非營利組織。當(dāng)計算機(jī)變得十分強(qiáng)大,帶來的經(jīng)濟(jì)破壞十分嚴(yán)重時,這一轉(zhuǎn)變將大有裨益。

Ravi Belani:怎么看待OpenAI與微軟的關(guān)系?

Ilya Sutskever:幸運的是,微軟對這些問題的考慮方式十分正確,他們真正理解了人工智能的潛力及其重要性。

舉個例子,微軟是OpenAI的投資者,和谷歌與DeepMind之間的關(guān)系截然不同。所有投資OpenAI的人都簽署了一份投資文件,在這個文件的頂部有一個紫色的方框,里面寫著OpenAI的首要責(zé)任是履行自身的使命。

這意味著,如果出現(xiàn)該使命與其他利益發(fā)生沖突的情況,投資者有可能損失所有的投資。由此證明,微軟和其他投資者都同意將OpenAI的使命置于首位。

4、專業(yè)化訓(xùn)練 vs 通用訓(xùn)練

Ravi Belani:在特定領(lǐng)域,比如法律或醫(yī)學(xué),使用專業(yè)的數(shù)據(jù)集進(jìn)行訓(xùn)練能夠獲得更好性能,還是使用所有可用數(shù)據(jù)進(jìn)行通用訓(xùn)練更加有益?

Ilya Sutskever:在某些情況下,專業(yè)化訓(xùn)練肯定能發(fā)揮巨大作用。我們進(jìn)行通用化訓(xùn)練的原因僅僅是為了讓神經(jīng)網(wǎng)絡(luò)能夠理解我們所提出的問題。只有當(dāng)它具有非常強(qiáng)大的理解能力時,我們才能進(jìn)行專業(yè)化訓(xùn)練,并真正從中受益。所以,這兩種訓(xùn)練方向都有前景。

Ravi Belani:什么時候會達(dá)到需要重點進(jìn)行專業(yè)化訓(xùn)練的階段?

Ilya Sutskever:在開源領(lǐng)域,人們已經(jīng)開始進(jìn)行專業(yè)化訓(xùn)練,因為他們使用的模型性能較弱,所以要盡可能地提升模型的性能。所以,需要專業(yè)化訓(xùn)練的階段已經(jīng)到來,不過這種趨勢是循序漸進(jìn)的,而不是絕對的選擇。

我們可以將AI看成是由多個元素組成的集合,每個元素都能對其性能作出貢獻(xiàn)。在特定任務(wù)中,專業(yè)數(shù)據(jù)集可以使AI表現(xiàn)得更好;從所有任務(wù)角度出發(fā),性能更強(qiáng)的基礎(chǔ)模型無疑也更有用。所以答案就是:我們不必非要二選一,也可以將兩者結(jié)合起來。

5、OpenAI與深度學(xué)習(xí)的未來

Ravi Belani:OpenAI的重要發(fā)展指標(biāo)是什么?衡量公司發(fā)展?fàn)顩r的KPI(關(guān)鍵績效指標(biāo))有哪些?

Ilya Sutskever:對于KPI,這也是一個見仁見智的問題,每人衡量OpenAI是否成功的標(biāo)準(zhǔn)可能都有所不同,不過技術(shù)進(jìn)步無疑是指標(biāo)之一。但簡單來說,針對重要問題,我們主要有以下KPI:

我們的研究做得如何?能否很好地了解自己的系統(tǒng)?有沒有能力將其訓(xùn)練得更好?能否很好對其進(jìn)行控制?研究計劃執(zhí)行得怎樣?安全計劃施行得好嗎?我們對此的滿意程度如何?這些問題都是衡量技術(shù)發(fā)展的重要KPI。雖然我們的產(chǎn)品本身也很酷,但核心技術(shù)和對技術(shù)的控制與引導(dǎo)才是OpenAI的重心所在。

Ravi Belani:即使在科研界,人們也很想獲取OpenAI在技術(shù)方面的資料,包括模型的性能、規(guī)格及其訓(xùn)練方式的詳細(xì)信息,同時希望能不受限制地與模型互動、訪問訓(xùn)練參數(shù)。你們是否準(zhǔn)備將其開放給研究人員或其他初創(chuàng)企業(yè),以鼓勵競爭和創(chuàng)新?

Ilya Sutskever:我認(rèn)為,可以采取一些折中的方法。神經(jīng)網(wǎng)絡(luò)的行為空間非常廣闊且復(fù)雜,所以模型訪問(model access)及其各種組合可能非常有生產(chǎn)力。如果研究者在學(xué)術(shù)方面遇到問題,我們可以提供各種形式的模型訪問,這也是許多學(xué)術(shù)研究實驗室采用的方法。

Ravi Belani:有沒有不為他人所知但你個人非常喜歡的ChatGPT功能或用例嗎?

Ilya Sutskever:我個人非常喜歡它的作詩能力,但不能確定別人是否知道這個功能。它可以作詩、唱rap,非常有意思。

Ravi Belani:你們團(tuán)隊工作也會使用ChatGPT嗎?當(dāng)AI深度融合到人類團(tuán)隊中時,你們的工作動態(tài)會發(fā)生怎樣的變化?這種融合會不會帶來什么外界不知道但將會出現(xiàn)的情況?

Ilya Sutskever:ChatGPT提升了每個人的工作效率。我不能說對團(tuán)隊的工作動態(tài)有翻天覆地的影響,但確實有所變化。

Ravi Belani:Sam Altman曾表示,我們可能無法繼續(xù)通過擴(kuò)大語言模型規(guī)模獲得進(jìn)一步發(fā)展。你是否同意該觀點?如果贊同,你們關(guān)注的下一個創(chuàng)新點是什么?

Ilya Sutskever:我不太清楚他具體談了些什么,可能他的意思類似于“易于擴(kuò)展的時代已經(jīng)結(jié)束”。神經(jīng)網(wǎng)絡(luò)當(dāng)然是越大越好,但構(gòu)建神經(jīng)網(wǎng)絡(luò)需要很大精力和成本。

我認(rèn)為,深度學(xué)習(xí)中有很多不同的前沿領(lǐng)域可供探索,而識別出這樣的前沿領(lǐng)域也是為深度學(xué)習(xí)做貢獻(xiàn)的一種方式。也許,在某個被他人所忽視的前沿領(lǐng)域中就會產(chǎn)出非常重要的成果。

Ravi Belani:你如何看待深度學(xué)習(xí)在未來五到十年的發(fā)展?

Ilya Sutskever:我預(yù)計,深度學(xué)習(xí)將得到進(jìn)一步發(fā)展。在過去的一段時間里,大規(guī)模擴(kuò)展帶來了巨大進(jìn)步,這在GPT-1到GPT-3的迭代中表現(xiàn)得尤為明顯,但將來這種情況會有所改變。

規(guī)模化之所以能取得如此迅猛的進(jìn)展,是因為此前有許多閑置的數(shù)據(jù)中心資源,可以通過重新分配這些資源實現(xiàn)快速進(jìn)展。但今后的情況將會有所不同,一方面,建設(shè)數(shù)據(jù)中心需要時間,另一方面,模型訓(xùn)練所需的計算規(guī)模和資源變得非常龐大,通過規(guī)?;瘉砣〉贸晒粫褚郧澳敲纯臁?/p>

如果非要預(yù)測的話,我認(rèn)為,可能會發(fā)現(xiàn)一些目前尚未知曉的深度學(xué)習(xí)新屬性,并加以利用。我堅信,五到十年后,我們將擁有比目前更先進(jìn)的系統(tǒng),具體形態(tài)將如何演變還未可知,因為未來可能會有一小部分重大突破,加之許多細(xì)微改進(jìn),所有這些都將融入到一個龐大而復(fù)雜的工程體系中。

Ravi Belani:在此期間,OpenAI的定位是成為像谷歌那樣人們主動尋求的平臺或服務(wù)提供商?還是會作為后端基礎(chǔ)架構(gòu)的一部分,為其他應(yīng)用程序提供技術(shù)支持?

Ilya Sutskever:事物發(fā)展變換得太快了,現(xiàn)在這些技術(shù)還很新,或許你說的這兩種形態(tài)都有可能,具體還有待觀察。

6、給學(xué)生的建議

Ravi Belani:假如你是一位對AI感興趣的斯坦福大學(xué)學(xué)生,目標(biāo)是成為像你一樣的人,那么你會把時間和精力放在什么事情上?如果你同時也對創(chuàng)業(yè)感興趣,又會做些什么?

Ilya Sutskever:首先,通常情況下,無論你選擇哪個方向,結(jié)合自己的個人獨特傾向、技能或天賦總是個好主意。

其次,在AI研究方面,要探索自己的靈感。問問自己有沒有什么對你來說顯而易見,但其他人沒有意識到的東西。如果有,則繼續(xù)在這個方向追尋,看看你的直覺是否準(zhǔn)確。雖然有時可能會有誤,但我的導(dǎo)師Geoffrey Hinton曾說過:你應(yīng)該相信自己的直覺,因為如果直覺準(zhǔn)確,你就會取得巨大成功;即使不準(zhǔn)確,你也無能為力。

最后是創(chuàng)業(yè)。相比于研究領(lǐng)域,個人的獨特觀點在創(chuàng)業(yè)時更具價值,因為你需要從自己獨特的生活經(jīng)歷中汲取靈感。你可能會發(fā)現(xiàn)很多可能性,但需要在廣闊的選擇里聚焦一個方向,并采取行動為之努力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    491

    瀏覽量

    10226
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5437

    瀏覽量

    120794
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1014

    瀏覽量

    6347

原文標(biāo)題:GPT總設(shè)計師:大型語言模型的未來

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    了解大型語言模型 (LLM) 領(lǐng)域中的25個關(guān)鍵術(shù)語

    1.LLM(大語言模型大型語言模型(LLMs)是先進(jìn)的人工智能系統(tǒng),經(jīng)過大量文本數(shù)據(jù)集的訓(xùn)練,可以理解和生成類似人類的文本。他們使用深度學(xué)
    的頭像 發(fā)表于 05-10 08:27 ?1173次閱讀
    了解<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b> (LLM) 領(lǐng)域中的25個關(guān)鍵術(shù)語

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    了如BERT和GPT等劃時代的模型。BERT通過雙向訓(xùn)練增強(qiáng)了文本理解能力,而GPT則展示了強(qiáng)大的文本生成能力。 大語言模型,擁有數(shù)百億甚
    發(fā)表于 05-04 23:55

    【大語言模型:原理與工程實踐】大語言模型的基礎(chǔ)技術(shù)

    之后,成為文本建模領(lǐng)域的熱門架構(gòu)。不僅如此,它還對自然語言處理領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。基于Transformer的預(yù)訓(xùn)練模型,如GPT系列和BERT系列,已在多種任務(wù)上取得了卓越的成績。目前的
    發(fā)表于 05-05 12:17

    中國火星探測計劃設(shè)計師

    中國火星探測計劃設(shè)計師張榮橋,1988年本科畢業(yè)于西安電子科技大學(xué)電磁場與微波技術(shù)專業(yè),1990年畢業(yè)于西安電子科技大學(xué)獲碩士學(xué)位,曾任國家探月工程副設(shè)計師,現(xiàn)任中國首次火星探測任務(wù)
    的頭像 發(fā)表于 07-23 15:11 ?4458次閱讀

    大型語言模型有哪些用途?

    大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語言模型的幫助下,可
    的頭像 發(fā)表于 02-23 19:50 ?5044次閱讀

    大型語言模型有哪些用途?大型語言模型如何運作呢?

    大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。
    的頭像 發(fā)表于 03-08 13:57 ?7753次閱讀

    最新、最強(qiáng)大的模型GPT-4將向美國政府機(jī)構(gòu)開放

    最新、最強(qiáng)大的模型GPT-4將向美國政府機(jī)構(gòu)開放 此前微軟已向其商業(yè)客戶提供了OpenAI模型,現(xiàn)在微軟宣布將向azure government云計算客戶開放openai的人工智能模型
    的頭像 發(fā)表于 06-08 20:15 ?1452次閱讀

    淺析AI大型語言模型研究的發(fā)展歷程

    大型語言模型研究的發(fā)展有三條技術(shù)路線:Bert 模式、GPT 模式、混合模式。其中國內(nèi)大多采用混合模式, 多數(shù)主流大型
    發(fā)表于 06-09 12:34 ?4960次閱讀
    淺析AI<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>研究的發(fā)展歷程

    大型語言模型(LLM)的自定義訓(xùn)練:包含代碼示例的詳細(xì)指南

    近年來,像 GPT-4 這樣的大型語言模型 (LLM) 因其在自然語言理解和生成方面的驚人能力而受到廣泛關(guān)注。但是,要根據(jù)特定任務(wù)或領(lǐng)域定制
    發(fā)表于 06-12 09:35 ?2480次閱讀

    基于Transformer的大型語言模型(LLM)的內(nèi)部機(jī)制

    本文旨在更好地理解基于 Transformer 的大型語言模型(LLM)的內(nèi)部機(jī)制,以提高它們的可靠性和可解釋性。 隨著大型語言
    的頭像 發(fā)表于 06-25 15:08 ?1355次閱讀
    基于Transformer的<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>(LLM)的內(nèi)部機(jī)制

    大型語言模型的應(yīng)用

    ?? 大型語言模型(LLM) 是一種深度學(xué)習(xí)算法,可以通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。大語言模型(LL
    的頭像 發(fā)表于 07-05 10:27 ?1993次閱讀

    華為盤古大模型GPT的區(qū)別

    華為盤古大模型GPT的區(qū)別? 隨著人工智能技術(shù)的不斷進(jìn)步,機(jī)器學(xué)習(xí)領(lǐng)域的研究也越來越深入。在這其中,以自然語言處理技術(shù)為主要研究方向的人工智能算法受到了廣泛關(guān)注。在這個領(lǐng)域中,華為盤古大模型
    的頭像 發(fā)表于 08-30 17:38 ?4426次閱讀

    盤古大模型GPT3有哪些不同

    幾個方面來探討盤古大模型GPT-3的不同之處。 一、概念定義差異 盤古大模型,簡稱PGM,是中國科學(xué)院計算機(jī)網(wǎng)絡(luò)信息中心所研發(fā)的一種大規(guī)模中文自然語言處理預(yù)訓(xùn)練
    的頭像 發(fā)表于 08-30 18:28 ?1804次閱讀

    模型數(shù)據(jù)集:突破邊界,探索未來

    隨著人工智能技術(shù)的快速發(fā)展,大型預(yù)訓(xùn)練模型GPT-4、BERT等在自然語言處理領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集
    的頭像 發(fā)表于 12-06 16:10 ?564次閱讀

    全球最強(qiáng)大模型易主,GPT-4被超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面全面超越了包括GPT-4在內(nèi)的所
    的頭像 發(fā)表于 03-05 09:58 ?575次閱讀