亚洲字幕成人中文在线观看,日韩久久网,欧美日韩一,操日本女人逼视频,国产欧美123,久久久久av,欧美久久久久久久久中文字幕

產(chǎn)品分類導(dǎo)航
CPHI制藥在線 資訊 Science:用AI模擬5億年的進(jìn)化,創(chuàng)造出全新熒光蛋白,重新點亮生物學(xué)

Science:用AI模擬5億年的進(jìn)化,創(chuàng)造出全新熒光蛋白,重新點亮生物學(xué)

作者:王聰  來源:生物世界
  2025-02-25
AI 初創(chuàng)公司 EvolutionaryScale 團(tuán)隊在《Science》發(fā)文,開發(fā)人工智能語言模型 ESM3,其在思維鏈提示下模擬 5 億年進(jìn)化生成新型綠色熒光蛋白 esmGFP,還能對蛋白質(zhì)序列、結(jié)構(gòu)和功能聯(lián)合推理,有望用于藥物設(shè)計等領(lǐng)域。

大約 35 億年前,地球從化學(xué)反應(yīng)中誕生了最初的生命。大自然發(fā)明了 RNA、蛋白質(zhì)和 DNA 這些生命的核心分子,并創(chuàng)造了核糖體這一分子工廠,它能根據(jù)基因組中的指令合成蛋白質(zhì)。

蛋白質(zhì)是奇妙的動態(tài)分子,具有令人難以置信的功能——從驅(qū)動運(yùn)動的分子引擎,到捕獲光并將其轉(zhuǎn)化為能量的光合作用機(jī)器,構(gòu)建細(xì)胞內(nèi)部骨架的支架,與環(huán)境相互作用的復(fù)雜傳感器,以及運(yùn)行生命程序和操作系統(tǒng)的信息處理系統(tǒng)等等,蛋白質(zhì)關(guān)乎疾病與健康,許多救命藥物本身就是蛋白質(zhì)。

生物學(xué)是用一種人類尚未理解的“語言”所書寫。如果我們能夠?qū)W會利用生物學(xué)的“語言”來讀寫,那么,生物學(xué)將變得可編程,反復(fù)試驗將被邏輯取代,費(fèi)力的實驗將被模擬所替代。

2024年諾貝爾化學(xué)獎授予了 AI 蛋白質(zhì)設(shè)計先驅(qū) David Baker 教授以及 AI 蛋白質(zhì)結(jié)構(gòu)預(yù)測工具 AlphaFold 的開發(fā)者 Demis Hassabis 和 John Jumpe,他們的研究為我們利用 AI 來理解、想象和創(chuàng)造蛋白質(zhì)奠定了基礎(chǔ)。

近日,AI 初創(chuàng)公司 EvolutionaryScale 的研究團(tuán)隊在國際頂尖學(xué)術(shù)期刊 Science 上發(fā)表了題為:Simulating 500 million years of evolution with a language model 的研究論文。論文標(biāo)題非常簡單直接,甚至是夸張——用語言模型模擬 5 億年的進(jìn)化。

該研究開發(fā)了一種人工智能語言模型——ESM3,ESM3 在思維鏈(Chain of Thought)的提示下生成了一種全新的綠色熒光蛋白——esmGFP,其在進(jìn)化上與天然的綠色熒光蛋白(GFP)差異巨大,與已知的最接近的熒光蛋白只有 58% 的序列同源性,大自然需要 5 億年時間才能進(jìn)化出這種新型綠色熒光蛋白,也就是說,ESM3 模擬了 5 億年進(jìn)化,創(chuàng)造了一種新型綠色熒光蛋白。

研究團(tuán)隊表示,ESM3 是一款向生命科學(xué)領(lǐng)域的前沿人工智能語言模型,也是第一個同時對蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理的生成式人工智能模型,它提升了我們利用生命密碼進(jìn)行編程和創(chuàng)造的能力,讓我們能夠像設(shè)計建筑、制造機(jī)器和微芯片以及編寫計算機(jī)程序一樣,從底層原理出發(fā)來改造生物學(xué)。

ESM3

2023 年 3 月, Alexander Rives 領(lǐng)導(dǎo)的 Meta 蛋白質(zhì)折疊團(tuán)隊在 Science 期刊發(fā)表了題為:Evolutionary-scale prediction of atomic-level protein structure with a language model 的研究論文【2】。

該研究開發(fā)了一種名為 ESMFold 的蛋白質(zhì)語言模型,能夠快速、準(zhǔn)確、大規(guī)模預(yù)測蛋白質(zhì)結(jié)構(gòu),僅花費(fèi)兩周時間就預(yù)測了超過 6.17 億個蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)來自細(xì)菌、病毒和其他尚未被表征的微生物。

ESMFold

然而,Meta 公司不久后解散了蛋白質(zhì)折疊團(tuán)隊,Alexander Rives 與團(tuán)隊成員創(chuàng)立了 EvolutionaryScale,2024 年 6 月,EvolutionaryScale 完成了高達(dá) 1.42 億美元的種子輪融資,致力于開發(fā) AI 工具以深化對生物學(xué)的理解,進(jìn)而造福人類健康和社會。

EvolutionaryScale

這項新研究所展示的 ESM3 模型,訓(xùn)練自地球上多達(dá)數(shù)十億的天然蛋白質(zhì),ESM3 也是當(dāng)今世界上訓(xùn)練于最高通量 GPU 集群之一的前沿生物學(xué)生成式人工智能模型,它處于參數(shù)、算力和數(shù)據(jù)的最前沿,訓(xùn)練時使用了超過 1×1024 次浮點運(yùn)算和 980 億參數(shù)。

對蛋白質(zhì)的序列、結(jié)構(gòu)和功能進(jìn)行推理

語言模型是基于離散單元或標(biāo)記進(jìn)行操作的。為了創(chuàng)建一個能夠?qū)Φ鞍踪|(zhì)的三個基本生物學(xué)特性——序列、結(jié)構(gòu)和功能——進(jìn)行推理的模型,必須將三維結(jié)構(gòu)和功能轉(zhuǎn)化為離散的字母表,并構(gòu)建一種將每個三維結(jié)構(gòu)都寫成字母序列的方法。這使得 ESM3 能夠大規(guī)模訓(xùn)練,從而釋放出新興的生成能力。ESM3 的詞匯表在同一個語言模型中將序列、結(jié)構(gòu)和功能聯(lián)系起來。

ESM3 是通過一個簡單的目標(biāo)進(jìn)行訓(xùn)練的。對于每種蛋白質(zhì),提取其序列、結(jié)構(gòu)和功能,進(jìn)行標(biāo)記化處理,并部分屏蔽。ESM3 的任務(wù)是利用受自然語言處理模型啟發(fā)的掩碼語言建模目標(biāo)來預(yù)測掩碼位置。為了完成這項任務(wù),ESM3 必須從進(jìn)化規(guī)模的數(shù)據(jù)中深入理解序列、結(jié)構(gòu)和功能之間的聯(lián)系。當(dāng)在數(shù)十億種蛋白質(zhì)和數(shù)百億個參數(shù)的規(guī)模上進(jìn)行擴(kuò)展時,ESM3 學(xué)會了模擬進(jìn)化(simulate evolution)。

鑒于通過實驗確定的結(jié)構(gòu)和功能注釋的蛋白質(zhì)的數(shù)量有限,研究團(tuán)隊通過添加數(shù)億個合成數(shù)據(jù)點來擴(kuò)充 ESM3 的多模態(tài)訓(xùn)練數(shù)據(jù)集,這些合成數(shù)據(jù)點包括對各種序列的預(yù)測結(jié)構(gòu)和功能。

ESM3

ESM3 是一個多軌道 Transformer,可以對蛋白質(zhì)序列、結(jié)構(gòu)和功能進(jìn)行聯(lián)合推理

編程生物學(xué)

ESM3 作為一個生成式模型,它使生物學(xué)可編程,可以根據(jù)提示生成新的蛋白質(zhì)??茖W(xué)家可以與 ESM3 互動,引導(dǎo)它進(jìn)行各種應(yīng)用創(chuàng)造。ESM3 可以通過從一組完全掩碼的 tokens 開始生成蛋白質(zhì),并迭代解掩,直到所有位置都被填充。由于序列、結(jié)構(gòu)和功能都在訓(xùn)練過程中被掩碼和預(yù)測,ESM3 可以在所有三種模態(tài)中生成。這個生成過程也可以由序列、結(jié)構(gòu)和功能的部分或全部規(guī)范的任何組合來指導(dǎo)。

ESM3 的多模態(tài)推理能力使科學(xué)家能夠以前所未有的控制程度產(chǎn)生新的蛋白質(zhì)。例如,可以提示該模型結(jié)合結(jié)構(gòu)、序列和功能,為 PETase 的活性位點提出潛在框架,PETase 是一種降解聚對苯二甲酸乙二醇酯(PET)塑料的酶。

規(guī)模帶來的能力涌現(xiàn)

ESM3 在規(guī)模擴(kuò)大時展現(xiàn)出解決復(fù)雜蛋白質(zhì)設(shè)計任務(wù)的能力。其中一項任務(wù)是原子協(xié)調(diào),即根據(jù)指定氨基酸在序列中相距甚遠(yuǎn)但在結(jié)構(gòu)中彼此靠近的原子位置的提示來設(shè)計蛋白質(zhì)。這衡量了模型在結(jié)構(gòu)生成時達(dá)到原子級精度的能力,對于設(shè)計功能性蛋白質(zhì)至關(guān)重要。

ESM3 解決這些任務(wù)的能力會隨著規(guī)模的擴(kuò)大而提升,也就是說,ESM3 解決更難的生成問題的能力取決于其規(guī)模。

ESM3 進(jìn)一步通過使用類似于在大語言模型(LLM)中應(yīng)用的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)的對齊方法進(jìn)行反饋改進(jìn)。ESM3 能夠自我改進(jìn),而非從人類那里獲得反饋,它能對自身生成的內(nèi)容質(zhì)量進(jìn)行評估。來自實驗室實驗或現(xiàn)有實驗數(shù)據(jù)的反饋也可用提升其生成能力。

ESM3 模型生成蛋白質(zhì)的能力隨著規(guī)模的擴(kuò)大而提升

ESM3 模型生成蛋白質(zhì)的能力隨著規(guī)模的擴(kuò)大而提升

模擬 5 億年的進(jìn)化過程

綠色熒光蛋白(GFP)及其熒光蛋白家族,是自然界中最美麗的蛋白質(zhì)之一。下村修、Martin Chalfie 和錢永健因發(fā)現(xiàn)和應(yīng)用 GFP 而獲得了 2008 年諾貝爾化學(xué)獎。

GFP 是生物學(xué)中應(yīng)用最廣泛的工具之一,被譽(yù)為“照亮了生命科學(xué)”。GFP 含有一種熒光發(fā)色團(tuán),其能吸收一個短波長的單色光子,捕獲其中部分能量,并以不同顏色、更長波長的新光子形式釋放其余能量。天然的 GFP 能夠吸收藍(lán)光并發(fā)出綠光。

GFP 是一種能自我轉(zhuǎn)變的蛋白質(zhì),其結(jié)構(gòu)是一個由 11 條鏈組成的桶狀結(jié)構(gòu),中間有一條螺旋貫穿其中,在 GFP 折疊完成后,會自發(fā)地發(fā)生反應(yīng)。在 GFP 的中心,構(gòu)成蛋白質(zhì)鏈的原子重新排列成新的結(jié)構(gòu),形成一個熒光發(fā)色團(tuán)。這種機(jī)制是獨(dú)一無二的,沒有其他已知的蛋白質(zhì)能自發(fā)地從自身結(jié)構(gòu)中形成熒光發(fā)色團(tuán),這表明即使對大自然來說,產(chǎn)生熒光也并非易事。

科學(xué)家們在自然界中發(fā)現(xiàn)了許多 GFP 的變體,并在實驗室中對這些天然蛋白質(zhì)進(jìn)行了改造,創(chuàng)造出了新的 GFP 變體。最早的人工 GFP 變體是通過制造少量能增強(qiáng)亮度或改變顏色的基因突變而發(fā)現(xiàn)的。借助更先進(jìn)的實驗室技術(shù)和機(jī)器學(xué)習(xí)方法,如今已能夠?qū)⑦@種搜索范圍擴(kuò)大,從而找到與原始序列差異高達(dá) 20% 的 GFP 變體。但大多數(shù)功能性 GFP 突變并非來自蛋白質(zhì)工程,而是通過探索自然界獲得的。

產(chǎn)生新的熒光蛋白的進(jìn)化過程需要漫長的歲月,在遙遠(yuǎn)的過去,大自然無意中發(fā)明了第一種熒光蛋白。天然熒光蛋白從遠(yuǎn)古時期的祖先序列歷經(jīng)數(shù)億年的演化,才變成了如今的模樣。

基于天然 GFP 核心區(qū)域幾個氨基酸殘基的結(jié)構(gòu),ESM3 通過一系列推理生成了新型 GFP 的候選結(jié)構(gòu)。研究團(tuán)隊在首次實驗中測試了生成的 96 種 GFP,發(fā)現(xiàn)其中一些會發(fā)出熒光,包括一種與自然界中的任何蛋白質(zhì)都相去甚遠(yuǎn)的蛋白質(zhì)——B8,但其亮度只有天然 GFP 的五十分之一,而且其發(fā)色團(tuán)成熟需要一周時間,而不是一天之內(nèi),但它在序列空間的一個未被探索的區(qū)域中呈現(xiàn)出功能信號。在 B8 的基礎(chǔ)上進(jìn)行思維鏈推理,ESM3 又生成了一組 96 種蛋白質(zhì),其中有幾個熒光強(qiáng)度與天然 GFP 相似,最亮的一個位于 C10 孔中,研究團(tuán)隊將其命名為——esmGFP。

esmGFP

esmGFP 與自然界中發(fā)現(xiàn)的最接近的熒光蛋白相比存在 96 處突變(在 229 個氨基酸中,序列相似度為 58%)。通過類似于對自然界中新發(fā)現(xiàn)的蛋白質(zhì)進(jìn)行的分析,研究團(tuán)隊估計 esmGFP 相當(dāng)于由進(jìn)化模擬器完成的超過 5 億年的自然演化。

esmGFP

由ESM3模型生成的新的綠色熒光蛋白——esmGFP

據(jù)悉,EvolutionaryScale 公司正在開發(fā) ESM3 的專用版本,以解鎖前沿藥物設(shè)計領(lǐng)域的應(yīng)用,助力科學(xué)家創(chuàng)造新型藥物。

EvolutionaryScale 公司表示,相信未來的人工智能將幫助我們在最基礎(chǔ)的層面上理解生命的復(fù)雜系統(tǒng),做出改變我們對生物學(xué)認(rèn)知的新發(fā)現(xiàn),助力我們找到疾病治療方法,并構(gòu)建一個更可持續(xù)的世界。

參考鏈接:

https://www.science.org/doi/10.1126/science.ads0018
https://www.science.org/doi/10.1126/science.ade2574
https://www.evolutionaryscale.ai/blog/esm3-release

相關(guān)文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號-57
东丰县| 石首市| 曲阜市| 台南县| 章丘市| 沿河| 张家港市| 邻水| 西盟| 沈丘县| 德格县| 伊宁市| 开远市| 阿坝| 丹寨县| 石林| 鲁甸县| 江城| 隆回县| 那曲县| 台州市| 巴彦县| 海淀区| 双峰县| 冷水江市| 寿光市| 清水河县| 巴彦淖尔市| 通山县| 扬州市| 新化县| 上虞市| 博乐市| 万年县| 高雄县| 永安市| 泽普县| 静安区| 城固县| 常宁市| 中阳县|