2022年6月,浙江大學藥學院侯廷軍教授團隊、中南大學曹東升教授團隊和騰訊量子實驗室聯合在《Journal of Medicinal Chemistry》上發表論文“TocoDecoy: A New Approach to Design Unbiased Datasets for Training and Benchmarking Machine-Learning Scoring Functions”,提出了一種用于機器學習打分函數訓練和測試的無偏數據集構建新方法。該方法引入四種技巧來消除隱藏偏差,給定特定靶標的活性分子,基于條件分子生成和分子對接,可以基于已知的活性分子高效地生成相應的負樣本(decoys),為機器學習打分函數的訓練和測評提供了無偏的數據集。
作者比較了TocoDecoy、傳統數據集DUD-E以及適用于機器學習打分函數評價的無隱藏偏差數據集LIT-PCBA。和另外兩個數據集相比,TocoDecoy表現相當或更少的隱藏偏差。在模擬虛擬篩選實驗中,在不同數據集上訓練的模型的預測精度排名為:LIT-PCBA≈TocoDecoy>DUD-E。盡管基于TocoDecoy訓練的模型與基于LIT-PCBA訓練的模型性能相當,但TocoDecoy數據集具有更好的可擴展性。結果表明,TocoDecoy是一種更為合理的數據集構建方法,有望幫助相關領域的研究人員更好地對機器學習打分函數進行測評和訓練。
圖1. TocoDecoy方法的工作流程圖
浙江大學藥學院為本論文的第一署名單位,浙江大學藥學院博士生張徐俊為第一作者,浙江大學侯廷軍教授、騰訊量子實驗室謝昌諭博士、中南大學曹東升教授為共同通訊作者。
原文鏈接:https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00460
參考資料:http://www.cps.zju.edu.cn/2022/0614/c58891a2591991/page.htm
聲明:化學加刊發或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn