2022年6月,浙江大學(xué)藥學(xué)院侯廷軍教授團隊、中南大學(xué)曹東升教授團隊和騰訊量子實驗室聯(lián)合在《Journal of Medicinal Chemistry》上發(fā)表論文“TocoDecoy: A New Approach to Design Unbiased Datasets for Training and Benchmarking Machine-Learning Scoring Functions”,提出了一種用于機器學(xué)習(xí)打分函數(shù)訓(xùn)練和測試的無偏數(shù)據(jù)集構(gòu)建新方法。該方法引入四種技巧來消除隱藏偏差,給定特定靶標(biāo)的活性分子,基于條件分子生成和分子對接,可以基于已知的活性分子高效地生成相應(yīng)的負(fù)樣本(decoys),為機器學(xué)習(xí)打分函數(shù)的訓(xùn)練和測評提供了無偏的數(shù)據(jù)集。
作者比較了TocoDecoy、傳統(tǒng)數(shù)據(jù)集DUD-E以及適用于機器學(xué)習(xí)打分函數(shù)評價的無隱藏偏差數(shù)據(jù)集LIT-PCBA。和另外兩個數(shù)據(jù)集相比,TocoDecoy表現(xiàn)相當(dāng)或更少的隱藏偏差。在模擬虛擬篩選實驗中,在不同數(shù)據(jù)集上訓(xùn)練的模型的預(yù)測精度排名為:LIT-PCBA≈TocoDecoy>DUD-E。盡管基于TocoDecoy訓(xùn)練的模型與基于LIT-PCBA訓(xùn)練的模型性能相當(dāng),但TocoDecoy數(shù)據(jù)集具有更好的可擴展性。結(jié)果表明,TocoDecoy是一種更為合理的數(shù)據(jù)集構(gòu)建方法,有望幫助相關(guān)領(lǐng)域的研究人員更好地對機器學(xué)習(xí)打分函數(shù)進行測評和訓(xùn)練。
圖1. TocoDecoy方法的工作流程圖
浙江大學(xué)藥學(xué)院為本論文的第一署名單位,浙江大學(xué)藥學(xué)院博士生張徐俊為第一作者,浙江大學(xué)侯廷軍教授、騰訊量子實驗室謝昌諭博士、中南大學(xué)曹東升教授為共同通訊作者。
原文鏈接:https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00460
參考資料:http://www.cps.zju.edu.cn/2022/0614/c58891a2591991/page.htm
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點或證實其描述。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn