2021年11月15日,中國醫(yī)學(xué)科學(xué)院藥物研究所天然藥物活性物質(zhì)與功能國家重點實驗室汪小澗課題組聯(lián)合奇虎360人工智能研究院的鄧亞峰團隊在分析化學(xué)領(lǐng)域權(quán)威期刊Analytical Chemistry上以封面文章在線發(fā)表了題為“Cross-Modal Retrieval between 13C NMR Spectra and Structures for Compound Identification Using Deep Contrastive Learning”的論文,報道了基于人工智能跨模態(tài)深度對比學(xué)習(xí)方法建立的分子結(jié)構(gòu)識別的CReSS系統(tǒng),該研究對于未知分子結(jié)構(gòu),特別是天然產(chǎn)物分子的結(jié)構(gòu)識別與糾錯具有重要意義。
分子結(jié)構(gòu)識別是有機化學(xué)及天然產(chǎn)物化學(xué)的重要研究內(nèi)容,通過核磁碳譜數(shù)據(jù)庫搜索獲得分子結(jié)構(gòu)是分子結(jié)構(gòu)識別研究的經(jīng)典方法。但是,現(xiàn)有核磁碳譜數(shù)據(jù)庫的容量有限,通過傳統(tǒng)人工添加擴充碳譜數(shù)據(jù)庫耗時耗力,限制了分子結(jié)構(gòu)識別研究的準確率和效率。本研究團隊通過前期基于圖像識別的圖譜信息提取系統(tǒng)SRCV,實現(xiàn)了從碳譜和氫譜中準確快速地提取數(shù)據(jù),相關(guān)研究成果作為封面文章于2020年11月10日發(fā)表在計算化學(xué)領(lǐng)域權(quán)威雜志Journal of Chemical Information and Modeling。
本團隊基于前期研究從文獻中提取收集了大量核磁碳譜數(shù)據(jù),并進一步創(chuàng)造性地采用人工智能跨模態(tài)深度對比學(xué)習(xí)方法建立核磁碳譜和分子結(jié)構(gòu)式的跨模態(tài)表示模型,并基于向量檢索,在行業(yè)內(nèi)首次建立了用于分子結(jié)構(gòu)識別的CReSS系統(tǒng)。該系統(tǒng)基于計算生成的數(shù)據(jù)做大規(guī)模預(yù)訓(xùn)練,并結(jié)合真實數(shù)據(jù)精調(diào),可自主學(xué)習(xí)到核磁碳譜數(shù)據(jù)與分子結(jié)構(gòu)之間的內(nèi)在關(guān)系。對于千萬規(guī)模的分子結(jié)構(gòu)底庫,采用四萬條碳譜數(shù)據(jù)進行識別測試,CReSS的平均準確率約為91.64%,平均耗時僅為0.114s。增加分子量過濾器可進一步提升CReSS的識別準確率,當分子量的容差范圍設(shè)置為5Da時,準確率達98.39%。目前,CReSS已支持在上億級的分子庫中進行化合物識別,且在分子結(jié)構(gòu)識別與解析以及結(jié)構(gòu)糾錯等研究領(lǐng)域具有廣泛的應(yīng)用潛力。目前,CReSS系統(tǒng)已開放輔助分子結(jié)構(gòu)解析研究。
該研究工作得到了國家重點研發(fā)計劃項目(No.2018AAA0100400)、中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)與健康科技創(chuàng)新工程(2021-1-I2M-028)和學(xué)科建設(shè)項目(201920200802)的資助。藥物所汪小澗副研究員和奇虎360人工智能研究院院長鄧亞峰為本文的共同通訊作者。汪小澗課題組楊卓碩士,楊敏健博士和鄧亞峰團隊的宋劍飛為共同第一作者。鄧亞峰團隊的么琳在模型構(gòu)建及算法優(yōu)化作出突出貢獻。
CReSS鏈接:http://cnmr.ai.360.cn/。
論文鏈接:https://pubs.acs.org/doi/10.1021/acs.analchem.1c04307
論文鏈接:https://pubs.acs.org/doi/10.1021/acs.jcim.0c01046