欧美色盟,色婷婷AV一区二区三区之红樱桃,亚洲精品无码一区二区三区网雨,中国精品视频一区二区三区

歡迎來到化學加!萃聚英才,共享化學!化學加,加您更精彩!客服熱線:400-8383-509

浙大侯廷軍課題組在Journal of Medicinal Chemistry報道針對機器學習打分函數開發的無偏數據集構建方法

來源:浙江大學      2022-06-14
導讀:在藥物虛擬篩選中,打分函數被用于快速評價靶標與化合物的結合強度,但是傳統的打分函數預測精度較低。隨著人工智能技術的興起,引入機器學習算法來提升打分函數的精度成為了一種可行的方案。高質量數據集對于機器學習打分函數的構建起了至關重要的作用。然而,目前大部分公開數據集是針對傳統打分函數而開發的,直接用于機器學習打分函數的訓練和測試會帶來隱藏偏差、數據量有限的問題。

2022年6月,浙江大學藥學院侯廷軍教授團隊、中南大學曹東升教授團隊和騰訊量子實驗室聯合在《Journal of Medicinal Chemistry》上發表論文“TocoDecoy: A New Approach to Design Unbiased Datasets for Training and Benchmarking Machine-Learning Scoring Functions”,提出了一種用于機器學習打分函數訓練和測試的無偏數據集構建新方法。該方法引入四種技巧來消除隱藏偏差,給定特定靶標的活性分子,基于條件分子生成和分子對接,可以基于已知的活性分子高效地生成相應的負樣本(decoys),為機器學習打分函數的訓練和測評提供了無偏的數據集。

作者比較了TocoDecoy、傳統數據集DUD-E以及適用于機器學習打分函數評價的無隱藏偏差數據集LIT-PCBA。和另外兩個數據集相比,TocoDecoy表現相當或更少的隱藏偏差。在模擬虛擬篩選實驗中,在不同數據集上訓練的模型的預測精度排名為:LIT-PCBA≈TocoDecoy>DUD-E。盡管基于TocoDecoy訓練的模型與基于LIT-PCBA訓練的模型性能相當,但TocoDecoy數據集具有更好的可擴展性。結果表明,TocoDecoy是一種更為合理的數據集構建方法,有望幫助相關領域的研究人員更好地對機器學習打分函數進行測評和訓練。

圖1. TocoDecoy方法的工作流程圖

浙江大學藥學院為本論文的第一署名單位,浙江大學藥學院博士生張徐俊為第一作者,浙江大學侯廷軍教授、騰訊量子實驗室謝昌諭博士、中南大學曹東升教授為共同通訊作者。

原文鏈接:https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00460

參考資料:http://www.cps.zju.edu.cn/2022/0614/c58891a2591991/page.htm



聲明:化學加刊發或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn