中國科學院上海藥物研究所研究員鄭明月團隊,報道了一種名為ReactSeq反應描述語言,該語言可以編碼化學反應中的分子編輯操作,使自然語言處理模型(NLP)在逆合成預測、反應表征檢索、交互問答等方面表現得更為出色。5月13日,相關研究發表于《自然-機器智能》。
以大語言模型為代表的人工智能(AI)技術在自然語言處理方面取得了前所未有的突破,正在深刻改變科學研究的范式。近年來,在化學與藥物研發領域,處理化學分子與反應的化學語言模型(CLMs)逐漸興起。由于化學分子缺乏固有的順序表示,CLM利用化學家定義的分子線性編碼來學習和生成分子結構,目前最常用的分子線性編碼是簡化分子輸入線輸入系統(SMILES)。
為了提升CLMs在特定任務中的表現,學界設計了一些新的分子線性編碼語言,用于描述化學分子的靜態結構。然而,這些語言無法明確描述化學反應過程中分子中原子和鍵的變化過程,嚴重限制了語言模型在化學反應預測和表示中的應用。
為了克服上述挑戰,研究團隊設計了一種新的化學反應描述語言ReactSeq。ReactSeq定義了從產物結構出發,將其轉化為反應物分子所需的一系列分子編輯操作(MEO),包括化學鍵的斷裂和變化、原子電荷的改變以及離去基團的附著。在基于ReactSeq的逆合成模型中,反應物通過這些MEO從產物分子轉化而來,確保了預測反應物和產物之間的精確原子映射,增強了模型的可解釋性。
利用ReactSeq,在不改變基本變換器(Transformer)架構的情況下便能在逆合成預測中實現最先進的性能。同時,ReactSeq具有表示MEO的顯式令牌,可以對人類指令進行編碼和上下文提示。測試結果表明,人類專家的提示可以顯著提高模型的性能,甚至指導語言模型探索新的反應,這些MEO令牌也有利于提取反應表示,且可以產生更加精準且具有內在化學意義的反應表示。
基于該策略并結合自監督學習,研究團隊構建了一種通用且可靠的反應表示方法,能夠自然地區分反應類型并評估其相似性,從而提升相似反應檢索、實驗流程推薦以及反應收率預測等一系列下游任務上的表現。
研究團隊表示,這項研究為垂直領域的大語言模型賦予了多項涌現的新能力,顯著提升了自然語言處理模型應對復雜化學問題的能力,為化學領域的人工智能基礎模型開發提供了新的思路。
化學是一門研究物質組成、結構、性質與變化規律的學科,其發展史是人類突破自然表象、揭示物質本質的歷史。從古代煉金術士對“點石成金”的癡迷,到現代科學家操控原子合成新物質,在好奇心的驅動下,人類正不斷向著......
在終年不見陽光的海洋深處,無法進行光合作用的生命體如何獲得能量?中國科學院深海科學與工程研究所(深海所)科研人員領銜的國際合作團隊最新在太平洋西北部最深9533米處的海溝底部,發現能從化學反應中獲得能......
中國科學院上海藥物研究所研究員鄭明月團隊,報道了一種名為ReactSeq反應描述語言,該語言可以編碼化學反應中的分子編輯操作,使自然語言處理模型(NLP)在逆合成預測、反應表征檢索、交互問答等方面表現......
中國科學院上海藥物研究所研究員鄭明月團隊,報道了一種名為ReactSeq反應描述語言,該語言可以編碼化學反應中的分子編輯操作,使自然語言處理模型(NLP)在逆合成預測、反應表征檢索、交互問答等方面表現......
生命起源是科學界迄今無法破解的謎團。其中一個關鍵問題是,地球上生命的歷史有多少被“遺忘”了?某個物種通過生化反應逐漸消失很常見,如果這種情況發生很多物種中,那么生命化學史上可能會充斥著缺失的反應。現在......
生命起源是科學界迄今無法破解的謎團。其中一個關鍵問題是,地球上生命的歷史有多少被“遺忘”了?某個物種通過生化反應逐漸消失很常見,如果這種情況發生很多物種中,那么生命化學史上可能會充斥著缺失的反應。現在......
美國麻省理工學院科研團隊開發出一種基于機器學習的方法,可以更快的計算化學反應過程中的過渡態,幫助化學家設計新的化學反應和催化劑。新計算方法使用“擴散模型”來表示兩種相對于彼此任意方向的反應物,該模型可......
激光粒度儀行業正經歷著快速的發展。隨著科技的進步,激光粒度儀在各個領域的應用越來越廣泛,下面一起來看看吧!隨著醫藥行業的快速發展,藥物粒子的粒徑和粒度分布對藥物的療效和安全性有著至關重要的影響。激光粒......
據28日《自然·化學》雜志報道,澳大利亞悉尼大學的科學家首次使用量子計算機直接觀察到一個對化學反應至關重要的過程,實現這一突破的關鍵是將原過程速度從飛秒尺度減慢至毫秒尺度。研究人員表示,了解分子內部和......
化學反應無處不在。如何精確調控化學反應是化學科學研究的核心目標之一。在化工生產過程中,工程師通過添加催化劑、改變化學過程的溫度與壓力等宏觀參數,可以在一定程度上控制化學反應,得到所需的化學反應產物。隨......