原文來(lái)源:量子位
圖片來(lái)源:由無(wú)界 AI生成
用擴(kuò)散模型預(yù)測(cè)化學(xué)反應(yīng),速度直接暴漲1000倍,!
原本需要用計(jì)算機(jī)硬算幾小時(shí)甚至一天,,現(xiàn)在單個(gè)GPU用6秒鐘就能搞定。
這是MIT和康奈爾大學(xué)聯(lián)合搞出來(lái)的一項(xiàng)新研究,,用擴(kuò)散模型來(lái)預(yù)測(cè)化學(xué)反應(yīng)中最關(guān)鍵的過(guò)渡態(tài)結(jié)構(gòu),,不僅計(jì)算速度提升1000倍,結(jié)果也竟然意想不到得準(zhǔn)確,,相關(guān)研究工作發(fā)表在Nature Computational Science上:
其中,,麻省理工學(xué)院的段辰儒博士是第一加通訊作者,。此外,康奈爾大學(xué)博士生杜沅豈,、麻省理工學(xué)院博士生賈皓鈞以及麻省理工學(xué)院Heather Kulik教授為該論文的共同作者,,目前研究已經(jīng)被MIT News報(bào)道。
要知道,預(yù)測(cè)反應(yīng)中的過(guò)渡態(tài)結(jié)構(gòu)遠(yuǎn)非想象中簡(jiǎn)單——
由于能量較高,,它存在的時(shí)間往往只有飛秒級(jí),,即秒的千萬(wàn)億分之一,。
因此,目前還沒(méi)有一臺(tái)實(shí)驗(yàn)設(shè)備能直接觀察它,,只能通過(guò)量子化學(xué)計(jì)算的方式來(lái)預(yù)測(cè),,計(jì)算量少則幾小時(shí),多則數(shù)天,。
如今用擴(kuò)散模型就能得到幾乎一樣的預(yù)測(cè)結(jié)果,,這究竟是怎么做到的,?
進(jìn)一步地,用AI預(yù)測(cè)化學(xué)反應(yīng),,又究竟可以被應(yīng)用在哪些領(lǐng)域、起到哪些作用,?
我們和論文的其中兩位作者,,來(lái)自MIT的段辰儒和康奈爾大學(xué)的杜沅豈聊了聊,探討了一下這項(xiàng)研究具體的原理,、背后潛在的應(yīng)用方向以及關(guān)于AI for Science的一些思考,。
如何用擴(kuò)散模型預(yù)測(cè)化學(xué)反應(yīng)?
首先,,需要理解為啥過(guò)渡態(tài)是研究化學(xué)反應(yīng)的關(guān)鍵,。
自遠(yuǎn)古的“煉金術(shù)”以來(lái),化學(xué)一直是一門(mén)了解和控制物質(zhì)之間相互作用的學(xué)科,,化學(xué)反應(yīng)又是其中非常核心的概念,。
通常來(lái)說(shuō),,一個(gè)化學(xué)反應(yīng)由三個(gè)東西組成:反應(yīng)物、生成物和過(guò)渡態(tài)結(jié)構(gòu),。
反應(yīng)物和生成物大家都很熟悉了(如氫氧生成水),,但實(shí)際上,,二者之間的過(guò)渡態(tài)才是解釋化學(xué)反應(yīng)的關(guān)鍵——
作為化學(xué)反應(yīng)過(guò)程中能量最高的狀態(tài),過(guò)渡態(tài)既能用來(lái)理解化學(xué)反應(yīng)的機(jī)理,、也能估算反應(yīng)速率和能量,。
一言以蔽之,要想真正搞懂,、設(shè)計(jì),、優(yōu)化并調(diào)控一個(gè)化學(xué)反應(yīng),就必須從過(guò)渡態(tài)結(jié)構(gòu)下手。
所以,,過(guò)渡態(tài)結(jié)構(gòu)究竟要如何研究,,又為什么需要用AI來(lái)做預(yù)測(cè)?
研究過(guò)渡態(tài)結(jié)構(gòu),,不能只用分子結(jié)構(gòu)來(lái)分析,,而要更進(jìn)一步研究它的3D構(gòu)象。
分子結(jié)構(gòu),,指為了便于理解化學(xué)反應(yīng),,會(huì)人為構(gòu)造出單雙鍵這樣的概念,并用鍵合關(guān)系,、原子種類(lèi)和數(shù)量來(lái)表示化學(xué)反應(yīng),。
但要想真正精確計(jì)算化學(xué)反應(yīng)的速率和能量,就必須要研究原子在3D空間中的位置關(guān)系(用3D坐標(biāo)表示),,即3D構(gòu)象,。只有對(duì)比原子在3D空間中的位置關(guān)系,才能進(jìn)行量化分析,,從而預(yù)測(cè)反應(yīng)發(fā)生的過(guò)程,。
然而,,相比反應(yīng)物和生成物,過(guò)渡態(tài)存在的時(shí)間非常短,,甚至只有飛秒量級(jí),。
受限于實(shí)驗(yàn)設(shè)備精度,過(guò)渡態(tài)結(jié)構(gòu)無(wú)法用肉眼直接觀察,,此前只能通過(guò)量子力學(xué)方法——薛定諤方程來(lái)計(jì)算,。
薛定諤方程,量子力學(xué)中的基本方程,,描述粒子在某段時(shí)間內(nèi)的狀態(tài)如何變化,。
BUT,手搓薛定諤方程計(jì)算量巨大,,一個(gè)苯環(huán)的化學(xué)反應(yīng)可能都需要算上一周時(shí)間,,尤其隨著體系增大(原子數(shù)量變多等),計(jì)算量更是呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的趨勢(shì),。
雖然后來(lái)出現(xiàn)了密度泛函理論(DFT)等近似方法加速計(jì)算,,但算起來(lái)還是很慢、有時(shí)候甚至因?yàn)槭諗啃缘膯?wèn)題導(dǎo)致計(jì)算不出來(lái),,“成本很昂貴,,出錯(cuò)率還高”,。
為此,,來(lái)自MIT和康奈爾大學(xué)的研究人員,想到用AI的方法來(lái)直接預(yù)測(cè)過(guò)渡態(tài)結(jié)構(gòu),,以節(jié)省計(jì)算量,。
之所以選用擴(kuò)散模型,據(jù)杜沅豈介紹,,主要有三點(diǎn)原因:
其一,,生成效果好。相比GAN,,VAE等模型,,擴(kuò)散模型算是生成模型中效果較好的架構(gòu)。
其二,,更適合3D構(gòu)象,。相比分子結(jié)構(gòu)是離散的數(shù)據(jù),3D構(gòu)象是一個(gè)連續(xù)的數(shù)據(jù),,且結(jié)構(gòu)上涉及(平移,、旋轉(zhuǎn)和置換)對(duì)稱(chēng)性,。
對(duì)于離散數(shù)據(jù)而言,,基于機(jī)器學(xué)習(xí)+搜索的模型會(huì)比現(xiàn)有的(離散)擴(kuò)散模型效果更好;但對(duì)于3D構(gòu)象而言,,無(wú)論是其對(duì)稱(chēng)性還是用連續(xù)數(shù)據(jù)表示,,反而更適合用擴(kuò)散模型生成。
其三,,擴(kuò)散模型自身的靈活性,,使得它可以在生成時(shí),保留一部分原有設(shè)計(jì),、填補(bǔ)剩余的部分,,也使得它對(duì)于設(shè)計(jì)新的化學(xué)反應(yīng)更有幫助。
具體到架構(gòu)設(shè)計(jì)上,,作者們將等變GNN融入到擴(kuò)散模型中,,設(shè)計(jì)了一種名叫OA-ReactDiff的結(jié)構(gòu),其中等變GNN能很好地處理并保留數(shù)據(jù)的對(duì)稱(chēng)性,。
所以,,OA-ReactDiff的效果究竟如何,或者說(shuō)相比其他AI最大的亮點(diǎn)究竟是,?
段辰儒表示,,這項(xiàng)研究最核心的亮點(diǎn)主要有兩個(gè)。
一個(gè)是預(yù)測(cè)準(zhǔn)確性上,,OA-ReactDiff的準(zhǔn)確性超過(guò)了之前的一系列AI模型,。
作者們選用了Transition1x作為數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含10073個(gè)化學(xué)反應(yīng),,每個(gè)化學(xué)反應(yīng)分別包含反應(yīng)物,、生成物和經(jīng)過(guò)量子化學(xué)計(jì)算的過(guò)渡態(tài)結(jié)構(gòu),整個(gè)體系不超過(guò)23個(gè)原子,。
這其中的9000個(gè)化學(xué)反應(yīng)用作模型訓(xùn)練,,1073個(gè)作為測(cè)試集,最終實(shí)現(xiàn)了0.183?(1?=0.1納米)的平均均方根偏差和0.076?的中位數(shù)均方根偏差,。
相比于其他機(jī)器學(xué)習(xí)方法如PSI-based和NeuralNEB,,OA-ReactDiff準(zhǔn)確性都要更高,。
與此同時(shí),在沒(méi)有刻意訓(xùn)練的情況下,,OA-ReactDiff在更大的體系上也表現(xiàn)出了良好的預(yù)測(cè)能力,。
另一個(gè)是預(yù)測(cè)速度上,OA-ReactDiff相比現(xiàn)有的計(jì)算方法,,至少能快上1000倍,。
這是因?yàn)椋久芏确汉碚撍惴ǖ臅r(shí)間復(fù)雜度在O(N3)級(jí)別,,但現(xiàn)在基于OA-ReactDiff的方法,,直接將時(shí)間復(fù)雜度降低到O(N2)。
反映到現(xiàn)有數(shù)據(jù)集上,,原本需要計(jì)算幾小時(shí)甚至一天的化學(xué)反應(yīng),,現(xiàn)在用OA-ReactDiff,只需要6秒鐘就可以搞定,。
進(jìn)一步地,,體系越大的化學(xué)反應(yīng),用擴(kuò)散模型做預(yù)測(cè)的提速效果還會(huì)越好,。
不過(guò),,這項(xiàng)研究究竟能被用在哪些地方呢?
我們也問(wèn)了問(wèn)兩位作者關(guān)于這項(xiàng)研究潛在的應(yīng)用,、以及對(duì)于“用AI搞科學(xué)研究”這件事本身的看法,。
可用于燃料藥物輔助設(shè)計(jì)
對(duì)于研究本身,,段辰儒認(rèn)為主要有三個(gè)方面的作用。
最直觀的一方面,,自然是催化劑的設(shè)計(jì)了,。
這也是研究人員接下來(lái)想要繼續(xù)探索的方向,即繼續(xù)擴(kuò)展模型本身,,加入催化劑等條件,,并用AI來(lái)預(yù)測(cè)過(guò)渡態(tài)。
而在研究催化劑的基礎(chǔ)上,,又能進(jìn)一步輔助燃料設(shè)計(jì)和新藥開(kāi)發(fā),。
以燃料為例,雖然涉及的燃燒反應(yīng)體系往往不大,,但發(fā)生反應(yīng)的過(guò)程卻極易被環(huán)境和條件影響,。
因此,如果用AI來(lái)輔助預(yù)測(cè)化學(xué)反應(yīng)的過(guò)程,,或許能更快基于不同燃料發(fā)生反應(yīng)的環(huán)境條件來(lái)預(yù)測(cè)效果,。
這樣一來(lái),對(duì)于能源行業(yè)甚至航天行業(yè)也會(huì)產(chǎn)生進(jìn)一步的影響,。
最后,,就是模擬自然界化學(xué)反應(yīng),,來(lái)幫助開(kāi)發(fā)新的理論研究。
像是模擬地球生命早期可能發(fā)生的反應(yīng),、或是探索行星氣體之間的相互作用等,,通過(guò)用AI預(yù)測(cè)過(guò)渡態(tài),,也可能更快發(fā)現(xiàn)或驗(yàn)證新的理論,,探究生命起源的意義。
聽(tīng)起來(lái),,AI似乎已經(jīng)給化學(xué)研究帶來(lái)了不少新的突破,。
結(jié)合這段時(shí)間AI在生物制藥(AlphaFold2)、以及材料學(xué)(GNoME)上取得的種種突破,,對(duì)于生化環(huán)材這一系列理論學(xué)科而言,,AI是否已經(jīng)成為了新的技術(shù)主流路線(xiàn)?
更激進(jìn)一點(diǎn)來(lái)說(shuō),,對(duì)化學(xué)本身而言,,未來(lái)AI是否會(huì)取代一部分現(xiàn)有的量子化學(xué)研究?
對(duì)此,,兩位作者均持有相同的觀點(diǎn),,即AI(至少就監(jiān)督模型而言),,現(xiàn)階段對(duì)于這些學(xué)科的影響力依舊是一種工具,而并非一條全新的技術(shù)路徑,。
這是因?yàn)?,目前生化環(huán)材任何一個(gè)學(xué)科借助AI輔助研究的前提,依舊是已經(jīng)有了一定的理論,,而AI作為工具起到的是“錦上添花”的作用,。
換言之,AI與這些學(xué)科的其他研究方法依舊是共存關(guān)系,,并不會(huì)出現(xiàn)“替代”的情況,。段辰儒對(duì)此做了一個(gè)有意思的比喻:
如果化學(xué)學(xué)科好比一個(gè)夾饃,機(jī)器學(xué)習(xí)方法和各種現(xiàn)有的化學(xué)方法,,就是不同的食材,。那夾饃里面可以?shī)A肉,也可以?shī)A其他的菜,。
以近期大火的Google Deepmind研究GNoME為例,,就是一個(gè)很好的“AI當(dāng)工具人”的例子。
杜沅豈認(rèn)為,,如果從ML專(zhuān)業(yè)的角度去看待GNoME中涉及的AI方法,,會(huì)發(fā)現(xiàn)它其實(shí)并不是最新的東西,像是其中涉及的幾何深度學(xué)習(xí),,已經(jīng)是這幾年比較流行的研究方向,。
但如果從材料學(xué)科的角度去看,這樣大規(guī)模,、高通量的穩(wěn)定材料搜索,,肯定還是有相當(dāng)?shù)目茖W(xué)意義在其中:
AI for Science本身,其實(shí)更側(cè)重的是“Scientific Discovery”,,它更大的意義在于科學(xué)發(fā)現(xiàn),。
而段辰儒認(rèn)為,從應(yīng)用的角度而言,,無(wú)論是材料發(fā)現(xiàn),,還是預(yù)測(cè)化學(xué)反應(yīng),最終用AI去加速落地的宗旨依舊是“有用”二字:
正如這屆NeurIPS AI4Science的workshop主題一樣,,“從理論到實(shí)踐“,。我認(rèn)為這是AI4Science后面十年的必經(jīng)之路,也是AI4Science的中期使命,。
像OA-ReactDiff接下來(lái)的目標(biāo)是找到一個(gè)可以應(yīng)用的路徑一樣,,GNoME發(fā)現(xiàn)220萬(wàn)穩(wěn)定材料也只是應(yīng)用的一個(gè)起點(diǎn),接下來(lái)還需要很多的標(biāo)準(zhǔn)(如導(dǎo)熱,、導(dǎo)電等),,才能讓化學(xué)和材料真正在某一行業(yè)“發(fā)光發(fā)熱”,。
文章鏈接:C. Duan*, Y. Du, H. Jia, and H. J. Kulik, “Accurate transition state generation with an object-aware equivariant elementary reaction diffusion model”, Nat. Comput. Sci., ASAP, https://rdcu.be/dtGSF;?https://www.nature.com/articles/s43588-023-00563-7
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1083725.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。