“燧人”亮相,“女媧”上新!上智院在2025浦江創(chuàng)新論壇發(fā)布系列科學(xué)智能新成果
發(fā)布時(shí)間:2025-09-22

9月21日, 在2025浦江創(chuàng)新論壇(第十八屆)人工智能賦能科學(xué)研究專題論壇上,“2025人工智能賦能科學(xué)研究共創(chuàng)成果”重磅發(fā)布,集中展示了我國(guó)在科學(xué)智能領(lǐng)域取得的突破性進(jìn)展。上海科學(xué)智能研究院(下稱上智院)牽頭研發(fā)的燧人催化大模型、女媧RNA大模型和女媧蛋白狀態(tài)遷移大模型集中入選。

具體而言,燧人催化大模型統(tǒng)一催化合成預(yù)測(cè)框架,在實(shí)際反應(yīng)中將反應(yīng)選擇性提升3倍,推動(dòng)有機(jī)合成研發(fā)與化工生產(chǎn)向智能化升級(jí)。作為領(lǐng)域內(nèi)首個(gè)生成式原生的多模態(tài)RNA大模型,女媧RNA大模型整合十億級(jí)多模態(tài)數(shù)據(jù),在數(shù)十項(xiàng)基準(zhǔn)測(cè)試中取得最優(yōu)結(jié)果,助力核酸藥研發(fā)。女媧蛋白狀態(tài)遷移大模型實(shí)現(xiàn)亞微秒級(jí)別蛋白質(zhì)動(dòng)態(tài)過渡路徑預(yù)測(cè),并構(gòu)建行業(yè)最大的全原子精度蛋白質(zhì)構(gòu)象采樣數(shù)據(jù)集,為蛋白質(zhì)動(dòng)態(tài)機(jī)制研究與藥物設(shè)計(jì)提供強(qiáng)大支持。

三大模型及相關(guān)高質(zhì)量數(shù)據(jù)集將于近期在星河啟智科學(xué)智能開放平臺(tái)上線,向科研和產(chǎn)業(yè)界及廣大開發(fā)者開放使用。

微信圖片_2025-09-22_150535_676
(上智院科研副院長(zhǎng)、復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院副院長(zhǎng)程遠(yuǎn)出席“2025 年度人工智能賦能科學(xué)研究十大代表性案例成果”發(fā)布儀式)


燧人催化大模型:革新AI算法框架,開啟分子合成“智駕”新時(shí)代

基于人工智能的精準(zhǔn)合成長(zhǎng)期面臨一個(gè)根本挑戰(zhàn):合成路線規(guī)劃(即序列生成)與反應(yīng)性能預(yù)測(cè)(即數(shù)值回歸)在方法與模型上相互割裂,這嚴(yán)重阻礙了高效、統(tǒng)一的深度學(xué)習(xí)框架的建立。突破這一瓶頸,已成為推動(dòng)化學(xué)研究從“經(jīng)驗(yàn)試錯(cuò)”向“智能設(shè)計(jì)”范式變革的關(guān)鍵。

燧人催化大模型應(yīng)需而生。由上智院、復(fù)旦大學(xué)、浙江大學(xué)聯(lián)合研發(fā),模型可同時(shí)實(shí)現(xiàn)對(duì)反應(yīng)活性、選擇性及單步正向與逆向合成的精準(zhǔn)預(yù)測(cè),如同為化學(xué)家配備了一位精通合成設(shè)計(jì)與效果優(yōu)化的“AI科研伙伴”,極大提升了催化研究的整體性與智能化水平,助力重塑化工與制藥產(chǎn)業(yè)創(chuàng)新格局。

團(tuán)隊(duì)基于超過1300萬條反應(yīng)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使模型能夠自發(fā)學(xué)習(xí)化學(xué)鍵的變化規(guī)律、提取深層次認(rèn)知,從而在反應(yīng)活性、選擇性的15個(gè)指標(biāo)中有13個(gè)指標(biāo)達(dá)到領(lǐng)先水平,在反應(yīng)正向與逆向合成預(yù)測(cè)任務(wù)的16個(gè)指標(biāo)中有14個(gè)達(dá)到領(lǐng)先水平,相關(guān)工作將作為Nature Machine Intelligence九月刊封面文章發(fā)布。

此外,學(xué)術(shù)層面,該模型已與中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所合作,在實(shí)際反應(yīng)中實(shí)現(xiàn)選擇性提升3倍,大幅提高了有效生成目標(biāo)產(chǎn)物的效率,顯著減少了項(xiàng)目的濕實(shí)驗(yàn)次數(shù)、原料浪費(fèi)和副產(chǎn)物;產(chǎn)業(yè)層面,模型已通過大型化工企業(yè)應(yīng)用測(cè)試,有望在實(shí)際工業(yè)化生產(chǎn)環(huán)境中落地。

值得一提的是,本次大會(huì)發(fā)布是上智院物質(zhì)科學(xué)領(lǐng)域大模型的首度公開亮相。燧人氏作為鉆木取火的發(fā)明者,曾引領(lǐng)華夏民族實(shí)現(xiàn)從自然物質(zhì)到能源利用的重大跨越,以此命名彰顯了該模型在物質(zhì)轉(zhuǎn)化與使用的開拓性使命。

5c8dfa0b1a7b9f490b126b756aae21c7

女媧RNA大模型:涌現(xiàn)深層認(rèn)知,掌握RNA的語言語法

RNA作為生命體內(nèi)的“精密軟件”,影響著遺傳信息傳遞、基因調(diào)控、催化等核心生物過程,這使得其作為一種全新的藥物模態(tài),在解決傳統(tǒng)藥物難以應(yīng)對(duì)的“不可成藥”靶點(diǎn)方面擁有獨(dú)特優(yōu)勢(shì)。然而,由于其功能受到序列、結(jié)構(gòu)、修飾等多維度因素的復(fù)雜影響,理性設(shè)計(jì)功能性RNA分子一直是科學(xué)領(lǐng)域內(nèi)的重要問題。

基于星河啟智科學(xué)智能開放平臺(tái),由上智院和復(fù)旦大學(xué)聯(lián)合攻關(guān)的女媧RNA大模型,整合了10億級(jí)RNA序列、結(jié)構(gòu)、修飾、RNA結(jié)合蛋白等多模態(tài)數(shù)據(jù),涵蓋mRNA、ncRNA等大多數(shù)RNA種類,開創(chuàng)性將多種與RNA設(shè)計(jì)息息相關(guān)的模態(tài)融合于一個(gè)大模型范式之下,構(gòu)建了領(lǐng)域首個(gè)生成式原生的多模態(tài)RNA大模型,將有力賦能創(chuàng)新核酸藥設(shè)計(jì)場(chǎng)景。

該模型通過學(xué)習(xí)海量序列數(shù)據(jù),涌現(xiàn)出對(duì)RNA折疊物理、調(diào)控語法等關(guān)鍵生物學(xué)特征的深層認(rèn)知,有效克服了RNA自身的高度多樣性與復(fù)雜性,如同一臺(tái)“RNA生物學(xué)模擬器”,為理解其功能、掌握RNA的“語言語法”提供了前所未有的工具。

這些深層認(rèn)知進(jìn)而轉(zhuǎn)化為超30項(xiàng)國(guó)際基準(zhǔn)測(cè)試中的頂尖表現(xiàn),在RNA結(jié)構(gòu)預(yù)測(cè)、逆折疊、轉(zhuǎn)錄豐度預(yù)測(cè)等數(shù)十個(gè)基準(zhǔn)任務(wù)中取得最優(yōu)結(jié)果,優(yōu)于Evo2等基因領(lǐng)域?qū)S心P停瑢⑾嚓P(guān)研究從“實(shí)驗(yàn)試錯(cuò)”推向“計(jì)算引領(lǐng)”,大大加速生命科學(xué)領(lǐng)域?qū)NA的深度研究。

5c8dfa0b1a7b9f490b126b756aae21c7

女媧蛋白狀態(tài)遷移大模型:讓蛋白質(zhì)動(dòng)起來,助推AI藥物設(shè)計(jì)落地

在生命活動(dòng)中,蛋白質(zhì)并非靜態(tài)的“照片”,而是時(shí)刻處于動(dòng)態(tài)變化的“影片”,其功能奧秘正藏于運(yùn)動(dòng)之中。盡管靜態(tài)結(jié)構(gòu)為學(xué)術(shù)研究和傳統(tǒng)方法提供了基礎(chǔ),但唯有啃下動(dòng)態(tài)變化這一“硬骨頭”,才能真正推動(dòng)AI模型在藥物設(shè)計(jì)等實(shí)際場(chǎng)景中落地應(yīng)用。

為此,上智院和復(fù)旦大學(xué)聯(lián)合構(gòu)建了全球最大規(guī)模、最長(zhǎng)時(shí)間尺度的蛋白質(zhì) 4D 動(dòng)態(tài)數(shù)據(jù)庫——dynamicPDB,系統(tǒng)收錄了 1.26 萬條微秒級(jí)全原子構(gòu)象演化軌跡,覆蓋上百種典型折疊類型與功能家族,呈現(xiàn)從亞納秒局部震蕩到微秒級(jí)大尺度轉(zhuǎn)變的完整過程。所有軌跡均基于高精度分子動(dòng)力學(xué)模擬生成,并經(jīng)過統(tǒng)一清洗、拓?fù)渥⑨尯蜁r(shí)空對(duì)齊處理,可直接支持構(gòu)象轉(zhuǎn)變機(jī)制解析、自由能面重建、AI 生成模型訓(xùn)練等研究。發(fā)布不到一年,dynamicPDB 已在開源社區(qū)獲得超過 760 顆Star、近百名關(guān)注者和 130 余個(gè)分支,迅速成長(zhǎng)為全球蛋白質(zhì)動(dòng)力學(xué)研究的重要基礎(chǔ)設(shè)施之一。

在此基礎(chǔ)上,團(tuán)隊(duì)創(chuàng)新開發(fā)出4D diffusion 模型——女媧蛋白狀態(tài)遷移大模型,首次實(shí)現(xiàn)了從蛋白質(zhì)序列與首幀結(jié)構(gòu)出發(fā),生成未來 32 幀全原子構(gòu)象演化軌跡和未來4個(gè)結(jié)構(gòu)狀態(tài)遷移的能力。該模型通過空間模塊與運(yùn)動(dòng)對(duì)齊模塊聯(lián)合建模構(gòu)象間的時(shí)空依賴,能夠生成在低維動(dòng)力學(xué)空間上與真實(shí)分子動(dòng)力學(xué)仿真高度一致的軌跡,其準(zhǔn)確性已可與領(lǐng)域知名模型 AlphaFlow 比肩,同時(shí)展現(xiàn)出更高的采樣多樣性,能夠捕捉更多潛在中間態(tài)與構(gòu)象分支。

dynamicPDB 與 4D diffusion 模型的結(jié)合,標(biāo)志著蛋白質(zhì)研究正從靜態(tài)結(jié)構(gòu)解析邁向動(dòng)態(tài)演化生成的全新范式,為結(jié)構(gòu)預(yù)測(cè)、功能推斷與藥物設(shè)計(jì)等領(lǐng)域打開巨大想象空間。

5c8dfa0b1a7b9f490b126b756aae21c7

快訊訂閱
請(qǐng)?zhí)顚懴盗行畔⒁垣@得浦江創(chuàng)新論壇最新鮮的內(nèi)容推送
姓名
單位
郵箱
巴楚县| 道孚县| 梁河县| 昌吉市| 渑池县| 佛学| 荃湾区| 宣城市| 玛曲县| 潮安县| 响水县| 达拉特旗| 英山县| 镇安县| 大埔区| 儋州市| 徐汇区| 邹城市| 安阳市| 阳高县| 达拉特旗| 乐至县| 大厂| 宕昌县| 舞阳县| 新野县| 洞头县| 扎赉特旗| 连城县| 南阳市| 房产| 含山县| 山东| 都匀市| 平远县| 临海市| 永春县| 金门县| 盈江县| 高台县| 长泰县|