01 ChemGPT的研究緣起及有機合成化學發展歷程
何曉首先介紹了華東師范大學開展研究化學大模型ChemGPT的政策背景。他指出,生物醫藥是事關國家重大戰略的核心競爭領域,“美國生物法案”對眾多國際前沿問題和卡脖子難題進行打壓,包括人工智能、芯片等領域。《上海市生物醫藥產業發展“十四五”規劃》指出,2025年生物醫藥產業規模會達到一萬億元以上。而生物醫藥與集成電路、人工智能同為上海市重點發展的三大產業。圍繞國家及上海市戰略需求,華東師大圍繞生物醫藥和人工智能重點領域開展研究。
在介紹研究背景時,何曉指出,分子改變世界,合成創造價值。2020年,我國化學原料和化學制品制造業主營業務收入6.31萬億元,原料要出口357億美元。從1828年人工合成尿素作為首例人工合成的化合物分子,到2010年鈀催化的交叉偶聯方法,新的研究方法和研究院范式的變革不斷推動有機合成化學的發展。
何曉講述了合成化學經歷了從分子制造到分子“智”造的發展歷程。指出分子智造以高質量數據收集為基礎,結合機器學習,利用自動化合成平臺,實現區別于傳統合成模式的分子高校精準創制。通過理論計算+大數據+機器學習,以智能設計提高合成路線的精準度,進行綠色高效的自動合成提高功能分子(小分子藥物)研發效率。
接下來,何曉講述了分子智造、有機合成化學新的變革以及國際分子化學的進展情況及我國相關研究存在的問題。分子智造是有機合成化學國際競爭的新的主戰場,實際上,我國在分子智造領域研究剛剛開始,與國際高水平研究有差距,目前存在的關鍵問題包括:首先,重要反應的特色數據庫確實,缺乏自主知識產權,深度數據分析背景噪音大;第二,缺乏化學邏輯算法,理性設計和智能設計缺乏有機結合,模型與結果的可解釋性不足;第三,模型砌塊較為基礎,缺乏結果反饋訓練,解放雙手卻無法解放大腦。
何曉介紹了華東師范大學分子智造主要研究內容。2021年,在上海市教委的支持下,華東師范大學成立了分子智造前沿科學研究基地。主要研究內容包括:第一,分子智造基礎科學研究體系的建立,主要包括新算法的開發,特色數據的構建;第二,合成化學智能設計體系的構建,進行智能設計與理性設計的融合,基于智能設計的合成路線分析與優化,面向制藥行業的分子智造軟件開發;第三,智能合成化學平臺的建立,基于智能設計的功能分子智造,分子智造與超限智造的結合,智能設計與自動合成的聯用;第四,AI導向數字化智能平臺建設,此平臺基于分子智造的理念,通過對不同合成領域實驗過程數字化,實現利用單一平臺解決合成化學中多個學科的重要科學問題。此外,作為拓展,與智能加、智能教育、科普等結合建設分子智造社會拓展平臺。
02 華東師大ChemGPT 1.0模型及技術亮點 何曉概述了ChemGPT的設計路徑。通過高質量數據庫的構建,與逆合成模型預測,將化學反應用計算機可識別的方式表達,然后利用深度模型學習化合物之間的反應規則,預測化合物的單步反應,再基于單步模型的預測結果,利用機器學習算法自動構建多步反應路徑。通過構建精確且多樣的化學性質數據庫,引入新的物理描述符,對分子體系全面化學性質的監督學習,發展了對各類分子體系普遍使用的全新泛函CF22D,為理論與計算化學提供新工具。何曉指出,基于大數據和機器學習訓練新的密碼泛函方法CF22D對弱相互作用的預測最為準確。通過發展新的物理描述符,運用人工智能方法,高精度預測化學反應機理,相關的研究發表在Nature和Science等主流期刊上。 何曉對華東師范大學ChemGPT 1.0的架構進行介紹。通過化學知識收集、化學合成反應,基于LLM模式進行預訓練,通過接口開發最終進行網頁、公眾號、小程序等部署。ChemGPT可以進行針對化學的專業知識問答、實時查詢和GPT逆合成。其數據集包含了化學、生物等自然科學的豐富數據,包含化學性質問答類數據734種,科學類(涵蓋化學)問答類數據11679種,化學類問答類數據658種,包括生活常識、化學知識問答等。此外,包含維基百科詞條一萬多條,轉換成200多萬的問答數據。同時,進行反應數據庫的構建,從化學反應數據庫中學習潛在的反應規則,并對單步反應進行預測。當前數據庫面臨的挑戰包括:一是數據量有限,泛化能力受限;二是標注數據的質量較低,影響模型訓練和評估;三是數據偏差和樣本不平衡,預測能力不足。目前采取數據集融合方式作為解決方案。 何曉分析了ChemGPT模型和技術上的亮點。第一,制作了高質量化學對話數據集,由問答類和專業背景類兩部分組成;第二,針對化學領域中化合物逆合成的難題,通過數據拼接、數據疊加、數據加權和數據合成方式構建了逆合成數據庫。更大規模的數據提高了反應性,高質量的標注數據提高模型的準確性和可靠性,解決數據平衡問題,提高功能分子研發效率;第三,創新對話模型和逆合成模型,多模型多模塊融合技術進行集成。對話模型和逆合成模型分別基于ChatGLM和llama基座模型進行改進,使用全量微調,在A800的GPU集群上使用2個月的時間完成對模型進行微調。提出并使用了多模型多模塊融合技術進行集成,但無需安裝插件,能同時支持化學專業知識領域、化學逆合成、生物醫療、通用領域的知識問答,支持自動上網查資料幫助模型返回高質量實時問答、繪畫功能等。 何曉還介紹了目前的一些工作進展。基于LLM的多部逆合成路線搜索,將路徑搜索問題建模為優化問題,使用演化算法(EA)進行求解。基于演化算法(EA)的多步逆合成路徑搜索,有兩個優勢:一是基于路徑的縱向搜索,速度快;二是多點搜索策略,可提供多套可行方案。華東師大科研團隊構建分子逆合成多步搜索模型,將路徑搜索問題建模為優化問題,并利用演化算法(EA)進行求解,EA深度有限搜索策略,相比于MCTS,路徑搜索時間降低34%-98%。構建自動化學合成反應技術體系,完成自動化學合成反應技術體系整體構建和框架設計,以微流控芯片為基礎的化學合成實驗將原反應時間縮短80%。此外,研究團隊還將機器篩選與人工智能相結合,干濕迭代形成閉環,通過AI設計新的反應條件等。
聲明:化學加刊發或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn