化學領域大模型 ChemGPT 1.0 正式發(fā)布
研發(fā)團隊負責人何曉介紹,ChemGPT 1.0是一個集成了先進人工智能技術的化學合成工具。在上海市教委的大力支持下,華東師大于2021年成立了分子智造上海市前沿科學研究基地,由化學與分子工程學院和計算機科學與技術學院組建了聯合研發(fā)團隊,開展了AI4ChemicalScience探索,致力于人工智能驅動的化學研究,將機器學習技術與化學合成相結合,以提高合成的效率和精度。兩年來,研究團隊通過深入研究化學性質數據庫、創(chuàng)新性引入物理描述符以及全新泛函CF22D的開發(fā),成功構建了ChemGPT 1.0,為人工智能時代的分子智造提供了新工具。
研究團隊負責人何曉介紹ChemGPT 1.0
何曉介紹,ChemGPT 1.0具有三大亮點:第一,高質量化學對話數據集的構建。ChemGPT 1.0整合了超過39萬條高質量對話數據,包括734種化學性質問答類數據、11679種科學類(含化學)問答類數據和658種化學類問答類數據以及超過一萬條百科詞條,轉化成了超過207萬條問題數據集。基于對化學領域專業(yè)知識的廣泛收集和深入理解,構建的數據集為全面、準確地完成化學知識問答提供了強大支撐。第二,化合物逆合成數據庫的創(chuàng)建。針對化合物逆合成的難題,團隊通過數據拼接、疊加、加權和合成方式篩選,構建了一個全新的逆合成數據庫。該數據庫規(guī)模宏大,提高了模型的魯棒性和反應性,且具有高質量的標注數據,提升了模型的準確性和可靠性。通過更好的數據平衡,顯著提高了模型對各類反應的預測能力。在 USPTO-50K測試任務中,經過新數據集訓練的大模型ChemGPT達到了74.4%預測精度,位列第一。第三,對話模型和逆合成模型的創(chuàng)新改進。ChemGPT 1.0的對話模型和逆合成模型分別基于ChatGLM模型和LLaMA模型。通過全量微調以及在A800 GPU集群上兩個月的訓練,性能顯著提升。此外,通過多模型多模塊融合技術的實施,使得ChemGPT 1.0無需安裝任何插件,就能支持化學專業(yè)知識、化學逆合成、生物醫(yī)藥以及通用領域的知識問答。此外,ChemGPT 1.0還支持自動上網查資料,幫助模型返回高質量的實時回答并具備繪畫功能。
ChemGPT 1.0發(fā)布會現場
在此基礎上,研發(fā)團隊成功完成了自動化學合成反應技術體系的整體構建和框架設計。結合超限制造成果,以微流控芯片為基礎的化學合成節(jié)省了80%的實驗時間。由AI化學家—“小華”驅動的微縮合成工廠,實現了化合物的自動化合成,為化學合成領域帶來了革命性的變化,展示了人工智能在生物醫(yī)藥領域的巨大潛力。
ChemGPT 1.0是華東師大在AI4Science領域的又一重要成果,研發(fā)團隊將在此基礎上,進一步優(yōu)化提升拓展功能,助推上海人工智能和生物醫(yī)藥重點領域加速向全球創(chuàng)新鏈、產業(yè)鏈、價值鏈的高端邁進。
聲明:化學加刊發(fā)或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn