多細(xì)胞生物中的不同細(xì)胞類型擁有相同的基因組,但由于基因表達(dá)的差異調(diào)控,它們表現(xiàn)出高度特化的功能特征。調(diào)控序列通過以細(xì)胞類型特異性的方式招募序列特異性轉(zhuǎn)錄因子(TF)來決定基因表達(dá)模式。染色質(zhì)可及性是調(diào)控 DNA 的通用標(biāo)志,可通過 DNA 酶 I 超敏感性測序(DNase-seq)和基于轉(zhuǎn)座酶可及染色質(zhì)測序(ATAC-seq)進(jìn)行測量。利用這些檢測方法,已經(jīng)在哺乳動物中開展了多項(xiàng)大規(guī)模工作以繪制全基因組范圍內(nèi)的調(diào)控序列。然而,對于大多數(shù)物種而言,全面的細(xì)胞類型解析調(diào)控序列圖譜仍不可用。
利用深度學(xué)習(xí)(Deep Learning)模型直接從 DNA 序列中預(yù)測調(diào)控和表達(dá)信號,是現(xiàn)代基因組學(xué)領(lǐng)域的一個里程碑。最近,深度學(xué)習(xí)模型已被用于預(yù)測單細(xì)胞水平的染色質(zhì)可及性和基因表達(dá)。此前,郭國驥教授團(tuán)隊(duì)開發(fā)了女媧(Nvwa)模型,實(shí)現(xiàn)了細(xì)胞類型特異性基因表達(dá)的圖譜規(guī)模單細(xì)胞分辨率預(yù)測,還開發(fā)了華佗(Huatuo)模型,有助于在幾乎所有細(xì)胞類型中以單核苷酸水平解碼與疾病相關(guān)的調(diào)控序列。但遺憾的是,目前大多數(shù)細(xì)胞圖譜數(shù)據(jù)在靈敏度或通量方面存在局限性,這阻礙了高精度預(yù)測模型的生成。
以 AlphaFold 為代表的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型已經(jīng)取得了巨大成功,而基因組學(xué)領(lǐng)域的預(yù)測模型仍有待實(shí)質(zhì)性突破。
2025 年 7 月 8 日,浙江大學(xué)醫(yī)學(xué)院/良渚實(shí)驗(yàn)室郭國驥教授團(tuán)隊(duì)在國際頂尖學(xué)術(shù)期刊 Cell 上發(fā)表了題為:Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning 的研究論文。
該研究建立了超高通量、超靈敏的單核 ATAC 測序技術(shù)(UUATAC-seq),可在一天內(nèi)高效率高質(zhì)量的完成一個物種的染色質(zhì)可及性圖譜。基于該技術(shù),研究團(tuán)隊(duì)為五大代表性脊椎動物中繪制候選順式調(diào)控元件圖譜,開發(fā)了多任務(wù)深度學(xué)習(xí)模型--女媧CE(Nvwa cis-regulatory element),并實(shí)現(xiàn)了從基因組序列到單細(xì)胞水平調(diào)控元件圖譜的直接預(yù)測。
研究團(tuán)隊(duì)發(fā)現(xiàn),脊椎動物調(diào)控語法的保守性明顯強(qiáng)于核苷酸序列本身,且該語法將脊椎動物調(diào)控原件序列在高維分類為不同的功能模塊,由此揭示細(xì)胞類型特異性基因表達(dá)的序列基礎(chǔ)。另外,女媧CE 模型在多項(xiàng)指標(biāo)上,超越現(xiàn)有的基因組 AI 模型,并能精準(zhǔn)預(yù)測合成突變對譜系特異性調(diào)控元件功能的影響。最后,團(tuán)隊(duì)利用基因編輯實(shí)驗(yàn),首次驗(yàn)證了完全由人工智能(AI)設(shè)計的人類疾病治愈性位點(diǎn)。這項(xiàng)研究為全面解讀基因組語言和建立數(shù)字生命模型奠定了堅實(shí)基礎(chǔ)。
脊椎動物基因組中的調(diào)控序列仍未被完全理解。為解決這一問題,研究團(tuán)隊(duì)開發(fā)了一種超高通量、超靈敏的單核 ATAC 測序技術(shù)(UUATAC-seq),能夠在一天內(nèi)構(gòu)建出一個物種的染色質(zhì)可及性圖譜。
利用 UUATAC-seq 技術(shù),研究團(tuán)隊(duì)在五個具有代表性的脊椎動物物種(哺乳類-小鼠、鳥類-雞、爬行類-守宮、兩棲類-蠑螈、水生類-斑馬魚)中繪制了候選順式調(diào)控元件(cis-regulatory element,cCRE)的圖譜。
分析結(jié)果表明,不同物種間基因組大小的差異會影響順式調(diào)控元件(cCRE)的數(shù)量,但不會影響其大小。
研究團(tuán)隊(duì)進(jìn)一步推出一種大型任務(wù)深度學(xué)習(xí)模型--女媧CE(Nvwa cis-regulatory element,簡稱 NvwaCE),旨在解讀順式調(diào)控"語法",并能直接從基因組序列中高精度地預(yù)測 cCRE 景觀。女媧CE 證明了調(diào)控"語法"比核苷酸序列更具保守性,并且這種"語法"將 cCRE 組織成不同的功能模塊。
此外,女媧CE 還能準(zhǔn)確預(yù)測合成突變對譜系特異性 cCRE 功能的影響,這與因果數(shù)量性狀位點(diǎn)(QTL)和基因組編輯結(jié)果相一致。具體來說,女媧CE 預(yù)測出了一個鐮狀細(xì)胞病的治愈性基因突變位點(diǎn)(HBG1-68:A>G),這一突變位點(diǎn)從未在單核苷酸多態(tài)性數(shù)據(jù)庫(dbSNP)或任何已發(fā)表的論文中被記錄過。進(jìn)一步驗(yàn)證實(shí)驗(yàn)顯示,該位點(diǎn)在基因編輯后能夠?qū)崿F(xiàn)胎兒血紅蛋白表達(dá)量的顯著提升,這也是首次在人類細(xì)胞中證明了基因組 AI 模型精準(zhǔn)預(yù)測功能性位點(diǎn)的性能。
總的來說,該研究開發(fā)了能夠高效構(gòu)建染色質(zhì)可及性圖譜的 UUATAC-seq 技術(shù),以及用于脊椎動物染色質(zhì)圖譜預(yù)測的基因組 AI 模型--女媧CE(NvwaCE),這些成果為進(jìn)一步破譯脊椎動物基因組的調(diào)控語言提供了寶貴資源。
論文鏈接:
https://www.cell.com/cell/fulltext/S0092-8674(25)00686-5
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com