亚洲男人天堂无码2021,免费精品国产自产拍在线观看图片

人類語(yǔ)言與蛋白質(zhì)有很多共同點(diǎn)，至少在計(jì)算建模方面。這使得研究團(tuán)隊(duì)將自然語(yǔ)言處理（NLP）的新方法應(yīng)用于蛋白質(zhì)設(shè)計(jì)。其中，德國(guó)Bayreuth大學(xué)Birte H?cker的蛋白質(zhì)設(shè)計(jì)實(shí)驗(yàn)室，描述了基于OpenAI的GPT-2的語(yǔ)言模型ProtGPT2，以基于自然序列的原理生成新的蛋白質(zhì)序列。

正如字母表中的字母組成單詞和句子一樣，天然氨基酸以不同的方式結(jié)合形成蛋白質(zhì)。和自然語(yǔ)言一樣，蛋白質(zhì)序列以極高的效率將結(jié)構(gòu)和功能存儲(chǔ)在氨基酸序列中。

ProtGPT2是一個(gè)深度的、無(wú)監(jiān)督的模型，它利用了變壓器架構(gòu)的進(jìn)步，而變壓器架構(gòu)也導(dǎo)致了NLP技術(shù)的快速發(fā)展。該體系結(jié)構(gòu)有兩個(gè)模塊，Noelia Ferruz解釋說(shuō)，她是論文的合著者，也是培訓(xùn)ProtGPT2的人：一個(gè)模塊理解輸入文本，另一個(gè)模塊處理或生成新文本。第二個(gè)是生成新文本的解碼器模塊，幫助了ProtGPT2的開(kāi)發(fā)。

Researchers have used GPT-2 to train a model to learn the protein “l(fā)anguage，” generate stable proteins， and explore “dark” regions of protein space.

“在我們創(chuàng)建這個(gè)模型的時(shí)候，還有許多其他人在使用第一個(gè)模塊，”Noelia Ferruz說(shuō)，“例如ESM、ProtTrans和ProteinBERT。我們的是當(dāng)時(shí)第一個(gè)公開(kāi)發(fā)布的解碼器，這也是第一次有人直接應(yīng)用GPT-2?！?/p>

Ferruz本人是GPT-2的忠實(shí)粉絲?！拔野l(fā)現(xiàn)有一個(gè)能寫英語(yǔ)的模型給我留下了深刻印象，”她說(shuō)。這是一個(gè)著名的transformer模型，以無(wú)監(jiān)督的方式對(duì)40千兆字節(jié)的英語(yǔ)互聯(lián)網(wǎng)文本進(jìn)行預(yù)訓(xùn)練，即使用沒(méi)有人類標(biāo)記的原始文本生成句子中的下一個(gè)單詞。GPT-x系列已被證明能夠有效地生成長(zhǎng)而連貫的文本，通常與人類書(shū)寫的文本無(wú)法區(qū)分，因此潛在的誤用是一個(gè)令人擔(dān)憂的問(wèn)題。

鑒于GPT-2的能力，Bayreuth的研究人員對(duì)使用它訓(xùn)練模型學(xué)習(xí)蛋白質(zhì)語(yǔ)言、生成穩(wěn)定的蛋白質(zhì)以及探索蛋白質(zhì)空間的“暗”區(qū)域持樂(lè)觀態(tài)度。Ferruz在整個(gè)蛋白質(zhì)空間中約5000萬(wàn)個(gè)無(wú)注釋序列的數(shù)據(jù)集上訓(xùn)練了ProtGPT2。為了評(píng)估該模型，研究人員將由ProtGPT2生成的10000個(gè)序列的數(shù)據(jù)集與來(lái)自訓(xùn)練數(shù)據(jù)集的10000個(gè)隨機(jī)序列集進(jìn)行了比較。

他們發(fā)現(xiàn)該模型預(yù)測(cè)的序列在二級(jí)結(jié)構(gòu)上與天然蛋白質(zhì)相似。ProtGPT2可以預(yù)測(cè)穩(wěn)定和功能性的蛋白質(zhì)，不過(guò)，F(xiàn)erruz說(shuō)，這將在未來(lái)幾個(gè)月內(nèi)通過(guò)對(duì)一組大約30種蛋白質(zhì)的實(shí)驗(yàn)室實(shí)驗(yàn)來(lái)驗(yàn)證。ProtGPT2還模擬了自然界中不存在的蛋白質(zhì)，在蛋白質(zhì)設(shè)計(jì)領(lǐng)域開(kāi)辟了可能性。

UNIVERSITY OF BAYREUTH/NATURE COMMUNICATIONS

Ferruz說(shuō)，該模型可以在幾分鐘內(nèi)產(chǎn)生數(shù)百萬(wàn)種蛋白質(zhì)?！叭绻麤](méi)有進(jìn)一步的改進(jìn)，人們可以采用免費(fèi)提供的模型，并對(duì)一組序列進(jìn)行微調(diào)，以在該區(qū)域產(chǎn)生更多的序列，例如抗生素或疫苗?！钡牵a(bǔ)充說(shuō)，通過(guò)對(duì)訓(xùn)練過(guò)程進(jìn)行小的修改，“我們可以添加標(biāo)簽，并有可能在未來(lái)開(kāi)始生成具有特定功能的序列?！边@反過(guò)來(lái)不僅在醫(yī)療和生物醫(yī)學(xué)領(lǐng)域，而且在環(huán)境科學(xué)等領(lǐng)域有潛在的應(yīng)用。

Ferruz承認(rèn)NLP領(lǐng)域的快速發(fā)展為ProtGPT2的成功做出了貢獻(xiàn)，但同時(shí)也指出，這是一個(gè)不斷變化的領(lǐng)域 —— “過(guò)去12個(gè)月發(fā)生的所有事情都太瘋狂了。”目前，她和她的同事已經(jīng)在寫一篇關(guān)于他們工作的評(píng)論?！拔以?021圣誕節(jié)訓(xùn)練了這個(gè)模型，”她說(shuō)，“當(dāng)時(shí)，有另一個(gè)模型已經(jīng)被描述過(guò)了……但它不可用?！辈贿^(guò)她表示，到今年春天，其他模型已經(jīng)發(fā)布。

ProtGPT2的預(yù)測(cè)序列跨越了新的、很少探索的蛋白質(zhì)結(jié)構(gòu)和功能區(qū)域。然而，幾周前，DeepMind發(fā)布了超過(guò)2億種蛋白質(zhì)的結(jié)構(gòu)?！八晕蚁胛覀円呀?jīng)沒(méi)有那么多的暗蛋白質(zhì)組了，”Ferruz說(shuō)，“但仍有一些地區(qū)……尚未被探索。”

不過(guò)，前面還有很多準(zhǔn)備工作要做?！拔蚁肟刂圃O(shè)計(jì)過(guò)程，”Ferruz補(bǔ)充道，“我們將需要獲取序列，預(yù)測(cè)結(jié)構(gòu)，并可能預(yù)測(cè)功能（如果有的話）……這將是非常具有挑戰(zhàn)性的。”ProtGPT2是面向高效蛋白質(zhì)設(shè)計(jì)和生成邁出的一大步，為探索設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu)和功能的參數(shù)及其后續(xù)實(shí)際應(yīng)用的實(shí)驗(yàn)研究奠定了基礎(chǔ)。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

解碼器

解碼器

+關(guān)注

關(guān)注
9

文章
1128

瀏覽量
40586
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
491

瀏覽量
10226
nlp

nlp

+關(guān)注

關(guān)注
1

文章
483

瀏覽量
21972
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1014

瀏覽量
6347

原文標(biāo)題：研究人員開(kāi)發(fā)用于蛋白質(zhì)設(shè)計(jì)的深度無(wú)監(jiān)督語(yǔ)言模型ProtGPT2

文章出處：【微信號(hào)：IEEE_China，微信公眾號(hào)：IEEE電氣電子工程師】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

以色列面向生物傳感器和電路的蛋白質(zhì)納米線

銀納米線被用于生物傳感器和電路中。該所大學(xué)化學(xué)系的Ehud Gazit研究了聚集在Alzheimer病人大腦內(nèi)的淀粉蛋白質(zhì)纖維。這種蛋白質(zhì)還聚集在人體的其它部位，可引發(fā)二類糖尿病和朊病毒病。他

發(fā)表于 11-20 15:53

面向生物傳感器和電路的蛋白質(zhì)納米線

納米線被用于生物傳感器和電路中。該所大學(xué)化學(xué)系的EhudGazit研究了聚集在Alzheimer病人大腦內(nèi)的淀粉蛋白質(zhì)纖維。這種蛋白質(zhì)還聚集在人體的其它部位，可引發(fā)二類糖尿病和朊病毒病。他的研究

發(fā)表于 12-03 10:47

蛋白質(zhì)組學(xué)技術(shù)與藥物作用新靶點(diǎn)研究進(jìn)展精選資料分享

，成為制約新藥開(kāi)發(fā)速度的瓶頸?；蚪M學(xué)研究表明，人體中全部藥靶蛋白為1萬(wàn)～2萬(wàn)種，而在過(guò)去100年中發(fā)現(xiàn)的靶點(diǎn)，僅約有 500種。因此，自1994年Wilkins等提出蛋白質(zhì)組（pro- teome

發(fā)表于 07-26 07:48

點(diǎn)成分享 | 蛋白質(zhì)濃度測(cè)定之BCA法

蛋白質(zhì)濃度的測(cè)定是常見(jiàn)的生物實(shí)驗(yàn)之一。本文介紹的是使用BCA法（二辛可酸法或二喹啉甲酸法）進(jìn)行蛋白質(zhì)濃度的測(cè)定。BCA分子式1實(shí)驗(yàn)原理BCA是一種穩(wěn)定的堿性水溶性復(fù)合物。在堿性條件下，蛋白質(zhì)

發(fā)表于 12-20 17:17

基于PPI網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測(cè)方法

蛋白質(zhì)是執(zhí)行生物體內(nèi)各種重要生物活動(dòng)的大分子，認(rèn)識(shí)其功能對(duì)推動(dòng)生命科學(xué)、農(nóng)業(yè)、醫(yī)療等領(lǐng)域的發(fā)展意義重大。1961年，Anfinsen等提出蛋白質(zhì)一級(jí)序列決定其三維結(jié)構(gòu)、蛋白質(zhì)三維結(jié)構(gòu)決

發(fā)表于 04-17 14:39 ?0次下載

OpenAI發(fā)布一款令人印象深刻的語(yǔ)言模型GPT-2

今年2月，OpenAI發(fā)布了一款令人印象深刻的語(yǔ)言模型GPT-2，它可以寫短篇小說(shuō)、詩(shī)歌，甚至輕松辨別《哈利波特》和《指環(huán)王》中的角色。最近

發(fā)表于 05-17 18:48 ?4398次閱讀

OpenAI宣布，發(fā)布了7.74億參數(shù)GPT-2語(yǔ)言模型

就在本周，OpenAI宣布，發(fā)布了7.74億參數(shù)GPT-2語(yǔ)言模型，15.58億的完整模型也有望于幾個(gè)月內(nèi)發(fā)布，并將

發(fā)表于 09-01 09:10 ?2939次閱讀

基于衰減系數(shù)的動(dòng)態(tài)蛋白質(zhì)預(yù)測(cè)網(wǎng)絡(luò)模型

在生物系統(tǒng)的轉(zhuǎn)變過(guò)程中，蛋白質(zhì)的演化過(guò)程并非一成不變，而是動(dòng)態(tài)變化的。通過(guò)構(gòu)造模型的方法來(lái)研究蛋白質(zhì)相互作用網(wǎng)絡(luò)，可以較好地刻畫(huà)蛋白質(zhì)相互作用的演化機(jī)制。但是，利用構(gòu)造

發(fā)表于 06-15 16:50 ?10次下載

食品蛋白質(zhì)測(cè)定儀的特點(diǎn)及功能

食品蛋白質(zhì)測(cè)定儀【恒美 HM-Z12】可快速檢測(cè)奶粉、牛奶及乳制品中的蛋白質(zhì)，儀器預(yù)留其他項(xiàng)目檢測(cè)程序和端口，根據(jù)日后需求可方便的自主增加檢測(cè)項(xiàng)目。

發(fā)表于 07-27 11:47 ?448次閱讀

蛋白質(zhì)測(cè)定儀的特點(diǎn)、功能及參數(shù)

蛋白質(zhì)測(cè)定儀【恒美 HM-Z12】可快速檢測(cè)奶粉、牛奶及乳制品中的蛋白質(zhì)，儀器預(yù)留其他項(xiàng)目檢測(cè)程序和端口，根據(jù)日后需求可方便的自主增加檢測(cè)項(xiàng)目。

發(fā)表于 08-17 10:26 ?647次閱讀

蛋白質(zhì)快速檢測(cè)儀的特點(diǎn)及功能

蛋白質(zhì)快速檢測(cè)儀【恒美 HM-Z12】可快速檢測(cè)奶粉、牛奶及乳制品中的蛋白質(zhì)，儀器預(yù)留其他項(xiàng)目檢測(cè)程序和端口，根據(jù)日后需求可方便的自主增加檢測(cè)項(xiàng)目。

發(fā)表于 09-02 10:54 ?996次閱讀

蛋白質(zhì)測(cè)定儀工作原理是怎樣的

蛋白質(zhì)測(cè)定儀的工作原理，蛋白質(zhì)測(cè)定儀【HM-Z12】可快速檢測(cè)奶粉、牛奶及乳制品中的蛋白質(zhì)，我們都知道蛋白質(zhì)在我們的生命中占據(jù)很重要的位置，

發(fā)表于 11-15 14:47 ?2732次閱讀

使用AlphaFold2進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

前言 AlphaFold 2，是DeepMind公司的一個(gè)人工智能程序。2020年11月30日，該人工智能程序在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)大賽CASP 14中，對(duì)大部分蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)與真實(shí)結(jié)構(gòu)只差一個(gè)原子

發(fā)表于 11-07 16:09 ?2531次閱讀

NVIDIA 和 Evozyne 創(chuàng)建用于生成蛋白質(zhì)的生成式 AI 模型

科學(xué)家使用 NVIDIA BioNeMo 創(chuàng)建出能夠生成高質(zhì)量蛋白質(zhì)的大型語(yǔ)言模型，以此加快藥物研發(fā)并助力創(chuàng)造更具可持續(xù)性的環(huán)境。初創(chuàng)企業(yè) Evozyne 使用 NVIDIA 提供的

發(fā)表于 01-13 23:15 ?543次閱讀

EvolutionaryScale推出基于NVIDIA GPU模型的新型蛋白質(zhì)研究方案

EvolutionaryScale 于 6 月 25 日發(fā)布了第三代 ESM 模型 ESM3，該模型可同時(shí)對(duì)蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理

發(fā)表于 08-23 16:45 ?566次閱讀

搜索歷史

基于OpenAI的GPT-2的語(yǔ)言模型ProtGPT2可生成新的蛋白質(zhì)序列

評(píng)論

以色列面向生物傳感器和電路的蛋白質(zhì)納米線

面向生物傳感器和電路的蛋白質(zhì)納米線

蛋白質(zhì)組學(xué)技術(shù)與藥物作用新靶點(diǎn)研究進(jìn)展精選資料分享

點(diǎn)成分享 | 蛋白質(zhì)濃度測(cè)定之BCA法

基于PPI網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)的蛋白質(zhì)功能預(yù)測(cè)方法

OpenAI發(fā)布一款令人印象深刻的語(yǔ)言模型GPT-2

OpenAI宣布，發(fā)布了7.74億參數(shù)GPT-2語(yǔ)言模型

基于衰減系數(shù)的動(dòng)態(tài)蛋白質(zhì)預(yù)測(cè)網(wǎng)絡(luò)模型

食品蛋白質(zhì)測(cè)定儀的特點(diǎn)及功能

蛋白質(zhì)測(cè)定儀的特點(diǎn)、功能及參數(shù)

蛋白質(zhì)快速檢測(cè)儀的特點(diǎn)及功能

蛋白質(zhì)測(cè)定儀工作原理是怎樣的

使用AlphaFold2進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)

NVIDIA 和 Evozyne 創(chuàng)建用于生成蛋白質(zhì)的生成式 AI 模型

EvolutionaryScale推出基于NVIDIA GPU模型的新型蛋白質(zhì)研究方案