化學(xué)領(lǐng)域大模型 ChemGPT 1.0 正式發(fā)布
研發(fā)團(tuán)隊(duì)負(fù)責(zé)人何曉介紹,ChemGPT 1.0是一個集成了先進(jìn)人工智能技術(shù)的化學(xué)合成工具。在上海市教委的大力支持下,華東師大于2021年成立了分子智造上海市前沿科學(xué)研究基地,由化學(xué)與分子工程學(xué)院和計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院組建了聯(lián)合研發(fā)團(tuán)隊(duì),開展了AI4ChemicalScience探索,致力于人工智能驅(qū)動的化學(xué)研究,將機(jī)器學(xué)習(xí)技術(shù)與化學(xué)合成相結(jié)合,以提高合成的效率和精度。兩年來,研究團(tuán)隊(duì)通過深入研究化學(xué)性質(zhì)數(shù)據(jù)庫、創(chuàng)新性引入物理描述符以及全新泛函CF22D的開發(fā),成功構(gòu)建了ChemGPT 1.0,為人工智能時代的分子智造提供了新工具。
研究團(tuán)隊(duì)負(fù)責(zé)人何曉介紹ChemGPT 1.0
何曉介紹,ChemGPT 1.0具有三大亮點(diǎn):第一,高質(zhì)量化學(xué)對話數(shù)據(jù)集的構(gòu)建。ChemGPT 1.0整合了超過39萬條高質(zhì)量對話數(shù)據(jù),包括734種化學(xué)性質(zhì)問答類數(shù)據(jù)、11679種科學(xué)類(含化學(xué))問答類數(shù)據(jù)和658種化學(xué)類問答類數(shù)據(jù)以及超過一萬條百科詞條,轉(zhuǎn)化成了超過207萬條問題數(shù)據(jù)集。基于對化學(xué)領(lǐng)域?qū)I(yè)知識的廣泛收集和深入理解,構(gòu)建的數(shù)據(jù)集為全面、準(zhǔn)確地完成化學(xué)知識問答提供了強(qiáng)大支撐。第二,化合物逆合成數(shù)據(jù)庫的創(chuàng)建。針對化合物逆合成的難題,團(tuán)隊(duì)通過數(shù)據(jù)拼接、疊加、加權(quán)和合成方式篩選,構(gòu)建了一個全新的逆合成數(shù)據(jù)庫。該數(shù)據(jù)庫規(guī)模宏大,提高了模型的魯棒性和反應(yīng)性,且具有高質(zhì)量的標(biāo)注數(shù)據(jù),提升了模型的準(zhǔn)確性和可靠性。通過更好的數(shù)據(jù)平衡,顯著提高了模型對各類反應(yīng)的預(yù)測能力。在 USPTO-50K測試任務(wù)中,經(jīng)過新數(shù)據(jù)集訓(xùn)練的大模型ChemGPT達(dá)到了74.4%預(yù)測精度,位列第一。第三,對話模型和逆合成模型的創(chuàng)新改進(jìn)。ChemGPT 1.0的對話模型和逆合成模型分別基于ChatGLM模型和LLaMA模型。通過全量微調(diào)以及在A800 GPU集群上兩個月的訓(xùn)練,性能顯著提升。此外,通過多模型多模塊融合技術(shù)的實(shí)施,使得ChemGPT 1.0無需安裝任何插件,就能支持化學(xué)專業(yè)知識、化學(xué)逆合成、生物醫(yī)藥以及通用領(lǐng)域的知識問答。此外,ChemGPT 1.0還支持自動上網(wǎng)查資料,幫助模型返回高質(zhì)量的實(shí)時回答并具備繪畫功能。
ChemGPT 1.0發(fā)布會現(xiàn)場
在此基礎(chǔ)上,研發(fā)團(tuán)隊(duì)成功完成了自動化學(xué)合成反應(yīng)技術(shù)體系的整體構(gòu)建和框架設(shè)計(jì)。結(jié)合超限制造成果,以微流控芯片為基礎(chǔ)的化學(xué)合成節(jié)省了80%的實(shí)驗(yàn)時間。由AI化學(xué)家—“小華”驅(qū)動的微縮合成工廠,實(shí)現(xiàn)了化合物的自動化合成,為化學(xué)合成領(lǐng)域帶來了革命性的變化,展示了人工智能在生物醫(yī)藥領(lǐng)域的巨大潛力。
ChemGPT 1.0是華東師大在AI4Science領(lǐng)域的又一重要成果,研發(fā)團(tuán)隊(duì)將在此基礎(chǔ)上,進(jìn)一步優(yōu)化提升拓展功能,助推上海人工智能和生物醫(yī)藥重點(diǎn)領(lǐng)域加速向全球創(chuàng)新鏈、產(chǎn)業(yè)鏈、價(jià)值鏈的高端邁進(jìn)。
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點(diǎn)或證實(shí)其描述。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn