蛋白質(zhì)是生命活動(dòng)的核心執(zhí)行者,而通過(guò)計(jì)算設(shè)計(jì)新型蛋白質(zhì)(例如酶、藥物結(jié)合蛋白)是蛋白質(zhì)設(shè)計(jì)領(lǐng)域的“圣杯”。傳統(tǒng)設(shè)計(jì)方法(例如Rosetta)依賴物理模型,耗時(shí)且無(wú)法精準(zhǔn)處理蛋白質(zhì)與金屬離子、小分子等非蛋白成分的相互作用。而目前最先進(jìn)的基于深度學(xué)習(xí)的蛋白質(zhì)序列設(shè)計(jì)方法(例如ProteinMPNN)雖高效,卻“看不見(jiàn)”這些關(guān)鍵元素,無(wú)法對(duì)其建模,限制了其在藥物設(shè)計(jì)等場(chǎng)景的應(yīng)用。
那么,如何讓 AI 既懂蛋白質(zhì)結(jié)構(gòu),又能感知周圍化學(xué)環(huán)境呢?
2025年3月28日,諾獎(jiǎng)得主、蛋白質(zhì)設(shè)計(jì)先驅(qū) David Baker 教授在 Nature Methods 期刊發(fā)表了題為:Atomic context-conditioned protein sequence design using LigandMPNN 的研究論文。
該研究開(kāi)發(fā)了一種新型深度學(xué)習(xí)方法——LigandMPNN,該方法明確地對(duì)生物分子系統(tǒng)中的所有非蛋白質(zhì)成分進(jìn)行了建模,預(yù)計(jì) LigandMPNN 將在設(shè)計(jì)新的結(jié)合蛋白、傳感器和酶方面得到廣泛應(yīng)用。
蛋白質(zhì)的從頭設(shè)計(jì),能夠創(chuàng)造出具有新功能的新型蛋白質(zhì),例如催化作用、與 DNA、小分子和金屬的結(jié)合以及蛋白質(zhì)間的相互作用。
從頭設(shè)計(jì)通常分三步進(jìn)行:第一步,生成預(yù)測(cè)為執(zhí)行新所需功能接近最優(yōu)的蛋白質(zhì)骨架;第二部,為每個(gè)骨架設(shè)計(jì)氨基酸序列,以驅(qū)動(dòng)折疊成目標(biāo)結(jié)構(gòu),并形成實(shí)現(xiàn)功能所需的特定相互作用(例如,酶活性位點(diǎn));第三部,使用結(jié)構(gòu)預(yù)測(cè)方法進(jìn)行序列 - 結(jié)構(gòu)兼容性篩選。
對(duì)于其中關(guān)鍵的第二部,即蛋白質(zhì)序列設(shè)計(jì),可以通過(guò)基于物理的方法(例如 Rosetta)以及基于深度學(xué)習(xí)的模型(例如 ProteinMPNN、IF-ESM 等)來(lái)進(jìn)行。基于深度學(xué)習(xí)的方法在設(shè)計(jì)蛋白質(zhì)主鏈序列方面優(yōu)于基于物理的方法,但目前可用的深度學(xué)習(xí)模型均無(wú)法納入非蛋白的原子和分子。例如,ProteinMPNN 明確只考慮蛋白質(zhì)主鏈的坐標(biāo),而忽略任何其他原子環(huán)境,這導(dǎo)致其在設(shè)計(jì)酶、核酸結(jié)合蛋白、傳感器以及所有涉及與非蛋白原子相互作用的其他蛋白質(zhì)功能時(shí)面臨困難。
為了實(shí)現(xiàn)上述廣泛的蛋白質(zhì)功能的設(shè)計(jì),研究團(tuán)隊(duì)開(kāi)發(fā)了一種新型深度學(xué)習(xí)方法——LigandMPNN,該方法明確地對(duì)生物分子系統(tǒng)中的所有非蛋白質(zhì)成分進(jìn)行了建模。
LigandMPNN 的三大創(chuàng)新
1、全局感知的分子圖譜
蛋白質(zhì)-配體交互網(wǎng)絡(luò):將蛋白質(zhì)殘基與配體原子(小分子、金屬等)構(gòu)建為圖結(jié)構(gòu),通過(guò)距離和化學(xué)元素編碼相互作用,模擬真實(shí)生物環(huán)境。
動(dòng)態(tài)信息傳遞:引入兩層神經(jīng)網(wǎng)絡(luò),分別在配體內(nèi)部原子間、蛋白質(zhì)與配體間傳遞信息,捕捉氫鍵、疏水作用等關(guān)鍵細(xì)節(jié)。
2、高效側(cè)鏈建模
一步到位設(shè)計(jì):傳統(tǒng)方法需分步優(yōu)化序列和構(gòu)象,而 LigandMPNN 同步預(yù)測(cè)氨基酸序列及側(cè)鏈扭轉(zhuǎn)角,生成可直接評(píng)估結(jié)合力的 3D 模型。
混合分布預(yù)測(cè):采用環(huán)形正態(tài)分布模擬側(cè)鏈自由度,提升組氨酸(金屬結(jié)合的關(guān)鍵)等殘基的構(gòu)象準(zhǔn)確性。
3、數(shù)據(jù)增強(qiáng)與泛化能力
側(cè)鏈原子模擬配體:在訓(xùn)練中隨機(jī)將 2%-4% 的蛋白質(zhì)側(cè)鏈視為“假配體”,增強(qiáng)模型對(duì)結(jié)合位點(diǎn)的敏感度。
噪聲抗干擾訓(xùn)練:對(duì)輸入坐標(biāo)添加高斯噪聲(0.1Å),防止模型死記硬背晶體結(jié)構(gòu),提升對(duì)新骨架的適應(yīng)力。
性能碾壓:用實(shí)驗(yàn)數(shù)據(jù)說(shuō)話
在與小分子、金屬以及核苷酸相互作用的氨基酸殘基的天然主鏈序列恢復(fù)方面,LigandMPNN 全面優(yōu)于 Rosetta 和 ProteinMPNN:
與小分子相互作用:LigandMPNN(63.3%)vs. Rosetta(50.4%)vs. ProteinMPNN(50.5%);
與金屬離子相互作用:LigandMPNN(77.5%) vs. Rosetta(36.0%)vs. ProteinMPNN(40.6%);
與核苷酸相互作用:LigandMPNN(50.5%) vs. Rosetta(35.2%)vs. ProteinMPNN(34.0%);
此外,LigandMPNN 不僅生成主鏈序列,還能更精準(zhǔn)地生成側(cè)鏈構(gòu)象,從而能夠?qū)Y(jié)合相互作用進(jìn)行詳細(xì)評(píng)估。
實(shí)驗(yàn)驗(yàn)證成功案例:
LigandMPNN 已被用于設(shè)計(jì)超過(guò) 100 種經(jīng)實(shí)驗(yàn)驗(yàn)證的小分子和 DNA 結(jié)合蛋白,這些蛋白具有高親和力和高結(jié)構(gòu)準(zhǔn)確性(由四個(gè) X 射線晶體結(jié)構(gòu)所表明),并且對(duì) Rosetta 小分子結(jié)合劑設(shè)計(jì)的重新設(shè)計(jì)使結(jié)合親和力提高了多達(dá) 100 倍。
應(yīng)用前景
藥物開(kāi)發(fā):設(shè)計(jì)高親和力抗體或酶,加速靶向療法。
生物傳感器:定制結(jié)合金屬/毒素的蛋白,用于環(huán)境監(jiān)測(cè)。
合成生物學(xué):構(gòu)建人工代謝通路中的關(guān)鍵酶元件。
值得一提的是,研究團(tuán)隊(duì)已在 GitHub 上開(kāi)源了 LigandMPNN 代碼,鏈接:https://github.com/dauparas/LigandMPNN 。
總的來(lái)說(shuō),LigandMPNN 不僅是一次技術(shù)迭代,更是蛋白質(zhì)設(shè)計(jì)范式的革新。當(dāng) AI 開(kāi)始“看見(jiàn)”生命的化學(xué)細(xì)節(jié),我們距離定制化生物解決方案的時(shí)代又近了一步。
論文鏈接:
https://www.nature.com/articles/s41592-025-02626-1
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com