近期,生物科技領(lǐng)域迎來(lái)了一項(xiàng)重大突破。隨著生物測(cè)序技術(shù)的飛速發(fā)展,全球天然基因庫(kù)中已積累了數(shù)十億級(jí)別的序列數(shù)據(jù),其中隱藏著無(wú)數(shù)具有極高價(jià)值的功能基因。然而,遺憾的是,目前僅有少數(shù)幾個(gè)“明星基因”得到了深入的研究和開(kāi)發(fā),絕大多數(shù)基因仍然處于未被發(fā)掘的狀態(tài)。
為了改變這一現(xiàn)狀,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院定量合成生物學(xué)全國(guó)重點(diǎn)實(shí)驗(yàn)室的合成生物學(xué)研究所婁春波團(tuán)隊(duì),攜手北京大學(xué)定量生物學(xué)中心的錢(qián)瓏團(tuán)隊(duì),在國(guó)際權(quán)威學(xué)術(shù)期刊 Science Advances 上發(fā)表了一項(xiàng)開(kāi)創(chuàng)性研究。他們成功開(kāi)發(fā)出了全球首個(gè)專(zhuān)為合成生物學(xué)元件挖掘和生物制造應(yīng)用設(shè)計(jì)的大語(yǔ)言模型——“SYMPLEX”。
SYMPLEX 模型通過(guò)結(jié)合領(lǐng)域大語(yǔ)言模型的訓(xùn)練、合成生物學(xué)專(zhuān)家知識(shí)的對(duì)齊以及大規(guī)模生物信息分析,實(shí)現(xiàn)了從海量生物學(xué)文獻(xiàn)中自動(dòng)化挖掘功能基因元件,并精準(zhǔn)評(píng)估這些元件在工程化應(yīng)用中的潛力。這一突破性的進(jìn)展,展示了大型語(yǔ)言模型在生物制造領(lǐng)域的巨大應(yīng)用潛力。
研究團(tuán)隊(duì)將 SYMPLEX 應(yīng)用于挖掘 mRNA 疫苗生物制造中的關(guān)鍵酶——加帽酶。通過(guò)這一模型,他們成功發(fā)現(xiàn)了多種高性能的新型加帽酶。經(jīng)過(guò)第三方公司的實(shí)驗(yàn)驗(yàn)證,這些新型加帽酶的催化效率遠(yuǎn)超國(guó)際知名生物科技公司 New England Biolabs(NEB)的商業(yè)化加帽酶,催化效率提高了兩倍以上,從而顯著提升了 mRNA 疫苗的生產(chǎn)效率和成本效益。
研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們將大型語(yǔ)言模型(LLM)與結(jié)構(gòu)化的生物知識(shí)庫(kù)進(jìn)行了深度融合,開(kāi)發(fā)出 SYMPLEX 智能基因挖掘平臺(tái)。這一平臺(tái)能夠自動(dòng)化閱讀和理解海量的生物學(xué)文獻(xiàn),從基因、功能和知識(shí)三個(gè)層面對(duì)文獻(xiàn)內(nèi)容進(jìn)行提取和分析。通過(guò)與專(zhuān)家數(shù)據(jù)庫(kù)進(jìn)行概念對(duì)齊和交互,以及基于先進(jìn)生物信息技術(shù)的統(tǒng)計(jì)模式生成,SYMPLEX 能夠提供具有完整證據(jù)鏈的高質(zhì)量候選基因集合。
SYMPLEX 不僅有效避免了大型語(yǔ)言模型可能出現(xiàn)的幻覺(jué)問(wèn)題,還能夠自動(dòng)生成與基因功能相關(guān)的細(xì)粒度知識(shí)樹(shù)。這一功能為科學(xué)家提供了寶貴的工具,引導(dǎo)他們深入探索廣泛的生物機(jī)制和分子過(guò)程。
與傳統(tǒng)基因挖掘流程相比,SYMPLEX 大模型在挖掘基因的深度、數(shù)量和多樣性方面都表現(xiàn)出顯著的優(yōu)勢(shì)。其挖掘的基因多樣性甚至超越了現(xiàn)有蛋白質(zhì)功能預(yù)測(cè)模型的邊界。這一突破性的進(jìn)展,無(wú)疑為生物科技領(lǐng)域帶來(lái)了新的希望和機(jī)遇。
目前,SYMPLEX 在線(xiàn)交互式平臺(tái)已經(jīng)正式上線(xiàn),供研究人員使用。該平臺(tái)采用模塊化設(shè)計(jì),提供了三個(gè)核心功能:文獻(xiàn)智能提取引擎 PubEngine,支持高通量的文獻(xiàn)智能檢索分析與可視化交互;基因功能標(biāo)注系統(tǒng) GeneTagger,實(shí)現(xiàn)從分子機(jī)制到生物過(guò)程的細(xì)粒度自動(dòng)化基因與功能提取;以及標(biāo)準(zhǔn)化知識(shí)中樞 GeneNorm,實(shí)現(xiàn)與專(zhuān)家知識(shí)庫(kù)的概念對(duì)齊與標(biāo)準(zhǔn)化,支持知識(shí)樹(shù)構(gòu)建和功能模式識(shí)別。