人類語(yǔ)言與蛋白質(zhì)有很多共同點(diǎn),至少在計(jì)算建模方面。這使得研究團(tuán)隊(duì)將自然語(yǔ)言處理(NLP)的新方法應(yīng)用于蛋白質(zhì)設(shè)計(jì)。其中,德國(guó)Bayreuth大學(xué)Birte H?cker的蛋白質(zhì)設(shè)計(jì)實(shí)驗(yàn)室,描述了基于OpenAI的GPT-2的語(yǔ)言模型ProtGPT2,以基于自然序列的原理生成新的蛋白質(zhì)序列。
正如字母表中的字母組成單詞和句子一樣,天然氨基酸以不同的方式結(jié)合形成蛋白質(zhì)。和自然語(yǔ)言一樣,蛋白質(zhì)序列以極高的效率將結(jié)構(gòu)和功能存儲(chǔ)在氨基酸序列中。
ProtGPT2是一個(gè)深度的、無(wú)監(jiān)督的模型,它利用了變壓器架構(gòu)的進(jìn)步,而變壓器架構(gòu)也導(dǎo)致了NLP技術(shù)的快速發(fā)展。該體系結(jié)構(gòu)有兩個(gè)模塊,Noelia Ferruz解釋說(shuō),她是論文的合著者,也是培訓(xùn)ProtGPT2的人:一個(gè)模塊理解輸入文本,另一個(gè)模塊處理或生成新文本。第二個(gè)是生成新文本的解碼器模塊,幫助了ProtGPT2的開(kāi)發(fā)。
Researchers have used GPT-2 to train a model to learn the protein “l(fā)anguage,” generate stable proteins, and explore “dark” regions of protein space.
“在我們創(chuàng)建這個(gè)模型的時(shí)候,還有許多其他人在使用第一個(gè)模塊,”Noelia Ferruz說(shuō),“例如ESM、ProtTrans和ProteinBERT。我們的是當(dāng)時(shí)第一個(gè)公開(kāi)發(fā)布的解碼器,這也是第一次有人直接應(yīng)用GPT-2?!?/p>
Ferruz本人是GPT-2的忠實(shí)粉絲?!拔野l(fā)現(xiàn)有一個(gè)能寫英語(yǔ)的模型給我留下了深刻印象,”她說(shuō)。這是一個(gè)著名的transformer模型,以無(wú)監(jiān)督的方式對(duì)40千兆字節(jié)的英語(yǔ)互聯(lián)網(wǎng)文本進(jìn)行預(yù)訓(xùn)練,即使用沒(méi)有人類標(biāo)記的原始文本生成句子中的下一個(gè)單詞。GPT-x系列已被證明能夠有效地生成長(zhǎng)而連貫的文本,通常與人類書(shū)寫的文本無(wú)法區(qū)分,因此潛在的誤用是一個(gè)令人擔(dān)憂的問(wèn)題。
鑒于GPT-2的能力,Bayreuth的研究人員對(duì)使用它訓(xùn)練模型學(xué)習(xí)蛋白質(zhì)語(yǔ)言、生成穩(wěn)定的蛋白質(zhì)以及探索蛋白質(zhì)空間的“暗”區(qū)域持樂(lè)觀態(tài)度。Ferruz在整個(gè)蛋白質(zhì)空間中約5000萬(wàn)個(gè)無(wú)注釋序列的數(shù)據(jù)集上訓(xùn)練了ProtGPT2。為了評(píng)估該模型,研究人員將由ProtGPT2生成的10000個(gè)序列的數(shù)據(jù)集與來(lái)自訓(xùn)練數(shù)據(jù)集的10000個(gè)隨機(jī)序列集進(jìn)行了比較。
他們發(fā)現(xiàn)該模型預(yù)測(cè)的序列在二級(jí)結(jié)構(gòu)上與天然蛋白質(zhì)相似。ProtGPT2可以預(yù)測(cè)穩(wěn)定和功能性的蛋白質(zhì),不過(guò),F(xiàn)erruz說(shuō),這將在未來(lái)幾個(gè)月內(nèi)通過(guò)對(duì)一組大約30種蛋白質(zhì)的實(shí)驗(yàn)室實(shí)驗(yàn)來(lái)驗(yàn)證。ProtGPT2還模擬了自然界中不存在的蛋白質(zhì),在蛋白質(zhì)設(shè)計(jì)領(lǐng)域開(kāi)辟了可能性。
UNIVERSITY OF BAYREUTH/NATURE COMMUNICATIONS
Ferruz說(shuō),該模型可以在幾分鐘內(nèi)產(chǎn)生數(shù)百萬(wàn)種蛋白質(zhì)?!叭绻麤](méi)有進(jìn)一步的改進(jìn),人們可以采用免費(fèi)提供的模型,并對(duì)一組序列進(jìn)行微調(diào),以在該區(qū)域產(chǎn)生更多的序列,例如抗生素或疫苗?!钡牵a(bǔ)充說(shuō),通過(guò)對(duì)訓(xùn)練過(guò)程進(jìn)行小的修改,“我們可以添加標(biāo)簽,并有可能在未來(lái)開(kāi)始生成具有特定功能的序列?!边@反過(guò)來(lái)不僅在醫(yī)療和生物醫(yī)學(xué)領(lǐng)域,而且在環(huán)境科學(xué)等領(lǐng)域有潛在的應(yīng)用。
Ferruz承認(rèn)NLP領(lǐng)域的快速發(fā)展為ProtGPT2的成功做出了貢獻(xiàn),但同時(shí)也指出,這是一個(gè)不斷變化的領(lǐng)域 —— “過(guò)去12個(gè)月發(fā)生的所有事情都太瘋狂了。”目前,她和她的同事已經(jīng)在寫一篇關(guān)于他們工作的評(píng)論?!拔以?021圣誕節(jié)訓(xùn)練了這個(gè)模型,”她說(shuō),“當(dāng)時(shí),有另一個(gè)模型已經(jīng)被描述過(guò)了……但它不可用?!辈贿^(guò)她表示,到今年春天,其他模型已經(jīng)發(fā)布。
ProtGPT2的預(yù)測(cè)序列跨越了新的、很少探索的蛋白質(zhì)結(jié)構(gòu)和功能區(qū)域。然而,幾周前,DeepMind發(fā)布了超過(guò)2億種蛋白質(zhì)的結(jié)構(gòu)?!八晕蚁胛覀円呀?jīng)沒(méi)有那么多的暗蛋白質(zhì)組了,”Ferruz說(shuō),“但仍有一些地區(qū)……尚未被探索。”
不過(guò),前面還有很多準(zhǔn)備工作要做?!拔蚁肟刂圃O(shè)計(jì)過(guò)程,”Ferruz補(bǔ)充道,“我們將需要獲取序列,預(yù)測(cè)結(jié)構(gòu),并可能預(yù)測(cè)功能(如果有的話)……這將是非常具有挑戰(zhàn)性的。”ProtGPT2是面向高效蛋白質(zhì)設(shè)計(jì)和生成邁出的一大步,為探索設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu)和功能的參數(shù)及其后續(xù)實(shí)際應(yīng)用的實(shí)驗(yàn)研究奠定了基礎(chǔ)。
-
解碼器
+關(guān)注
關(guān)注
9文章
1128瀏覽量
40586 -
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
491瀏覽量
10226 -
nlp
+關(guān)注
關(guān)注
1文章
483瀏覽量
21972 -
OpenAI
+關(guān)注
關(guān)注
9文章
1014瀏覽量
6347
原文標(biāo)題:研究人員開(kāi)發(fā)用于蛋白質(zhì)設(shè)計(jì)的深度無(wú)監(jiān)督語(yǔ)言模型ProtGPT2
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論