(圖片來源:Chem)
正文
機器學(xué)習(xí)(Machine Learning, ML)即應(yīng)用程序在無需人工參與的情況下,執(zhí)行流程改進,并按需更新代碼、擴展功能。機器學(xué)習(xí)可應(yīng)用在圖像識別、語音識別、交通預(yù)測、產(chǎn)品推薦、自動駕駛汽車、垃圾郵件和惡意軟件的過濾、虛擬的個人助理(如:Siri,小度)、股市交易、醫(yī)學(xué)診斷以及自動語言翻譯(Fig. 1)。下載化學(xué)加APP到你手機,收獲更多商業(yè)合作機會。
(圖片來源:Google)
機器學(xué)習(xí)在化學(xué)科學(xué)中也得到廣泛應(yīng)用,從藥物發(fā)現(xiàn)、化合物性質(zhì)預(yù)測再到合成路線的設(shè)計等(Fig. 2A,Cell, 2020, 180, 688; Chem. Soc. Rev., 1995, 24, 279; Nature, 2018, 555, 604)。然而,將化學(xué)分子轉(zhuǎn)化為計算機可讀的數(shù)據(jù)仍然是一個挑戰(zhàn),這需要考慮數(shù)據(jù)集、輸入和模型之間的復(fù)雜關(guān)系。盡管已經(jīng)開發(fā)了一些表示方法,但由于應(yīng)用的多樣性,目前仍然存在一些挑戰(zhàn)(Chem. Soc. Rev., 2020, 49, 6154; Chem, 2020, 6, 1379; Nature, 2019, 571, 343; Science, 2018, 360, 186; Nat. Mach. Intell., 2020, 2, 573)。Frank Glorius提出一個理想的解決方案應(yīng)該具備高適應(yīng)性、普適性、預(yù)測性能以及可解釋性(Fig. 2B),Glorius教授呼吁開發(fā)一種跨越不同分子科學(xué)領(lǐng)域應(yīng)用的通用方法,以提高預(yù)測準確性和解釋性。
Fig. 2. Different fields of application and molecular representations for molecular machine learning
(圖片來源:Chem)
Glorius團隊開發(fā)了一種新算法—EvoMPF,用于生成表示分子。這個方法旨在解決機器學(xué)習(xí)在研究化學(xué)問題時遇到的挑戰(zhàn),特別是在特征化過程中過度擬合的情況。Glorius提出了一種靈活的分子查詢語言(SMARTS),該語言可以查詢該化合物的屬性(例如雜化、電荷和手性)以及鄰近原子數(shù)。經(jīng)過迭代、評估訓(xùn)練和調(diào)整優(yōu)化,可以生成用于描述分子的分子指紋(MPFs)。進化算法利用隨機生成和突變來生成新的模式,通過訓(xùn)練機器學(xué)習(xí)模型來評估每個MPF的性能。用CatBoost做為機器學(xué)習(xí)模型,在機器學(xué)習(xí)的每次迭代進化中MPF都能豐富相關(guān)的數(shù)據(jù)集,而整體上不發(fā)生對數(shù)據(jù)集的過度調(diào)整,從而產(chǎn)生高度可解釋且密集的分子表示,這種就是EvoMPF。Glorius和團隊成員通過這種方法生成的分子具有高度的解釋性,且不會過度擬合數(shù)據(jù)(Fig. 3)。
(圖片來源:Chem)
優(yōu)化和產(chǎn)率預(yù)測:定量產(chǎn)率預(yù)測需要考慮分子的組合性質(zhì)、目標產(chǎn)物的復(fù)雜性以及數(shù)據(jù)樣本過少的問題。他們指出用于定量預(yù)測還必須考慮過擬合的問題,必須通過統(tǒng)計探測方法評估模型的泛化能力以及影響。用于測試算法性能的Doyle-Dreher數(shù)據(jù)集,包含了大量的Buchwald-Hartwig交叉偶聯(lián)反應(yīng)數(shù)據(jù)(Fig. 4A)。在這個數(shù)據(jù)集中,有多種芳基鹵化物、鈀催化劑和堿與多種異噁唑酮添加劑的組合。為了評估模型對新化合物的泛化能力,使用了樣本外(OOS)的數(shù)據(jù)集來進行測試(Fig. 4B)?;谶M化算法生成和優(yōu)化描述分子結(jié)構(gòu)的分子指紋(MPFs)。他們使用SMARTS語言來定義查詢分子,然后EvoMPF隨機生成和優(yōu)化這些模式,以描述數(shù)據(jù)集的關(guān)鍵特征。通過在每次迭代中評估預(yù)測性能,他們證明了進化算法能夠有效地完成該分子的產(chǎn)率預(yù)測。在進行了一系列實驗后,發(fā)現(xiàn)使用二進制特征在組合數(shù)據(jù)集上查詢只需少量數(shù)據(jù)點即可獲得出色的預(yù)測性能。這表明了所需特征數(shù)量減少,該方法可以快捷的找到合適的描述符(Fig. 4C)。該研究還發(fā)現(xiàn)使用二進制特征只需要256個模式就能夠獲得出色的預(yù)測性能,盡管使用32個模式就足以獲得類似的性能(Fig. 4D)。在研究中,Glorius還指出他們的方法在大多數(shù)測試中略微優(yōu)于復(fù)雜的深度學(xué)習(xí)模型(Deep Learning)和人工設(shè)計的指紋。這突顯了無特征的重要性,以及該方法在產(chǎn)率預(yù)測時的有效性(Fig. 4E)。
(圖片來源:Chem)
應(yīng)用范圍:該研究還了測試EvoMPF在各種反應(yīng)數(shù)據(jù)集上的性能。由Richardson和Sach發(fā)表的一個數(shù)據(jù)集包括5,760個Suzuki-Miyaura交叉偶聯(lián)反應(yīng)(Fig. 5A)。盡管已表明這個數(shù)據(jù)集是可預(yù)測的,但目前為止,還沒有方法證明可以將機器學(xué)到的規(guī)則轉(zhuǎn)移到之前未見過的結(jié)構(gòu)上。由于EvoMPF可以輕松應(yīng)用于小型的數(shù)據(jù)集,因此沒有進一步耗時優(yōu)化,使進化和模型參數(shù)保持不變。在這些OOS數(shù)據(jù)集上依舊獲得了較高的預(yù)測準確度。有趣的是,在排除所有使用P(OTol)3和SPhos作為配體反應(yīng)的OOS分割中,統(tǒng)計對照(即OHE)的表現(xiàn)甚至比EvoMPF好,這表明這些配體對產(chǎn)率沒有很大的影響。之后,還對手性磷酸催化劑催化生成不對稱N, S-縮醛數(shù)據(jù)集進行了對映選擇性的預(yù)測,EvoMPF的表現(xiàn)優(yōu)于相應(yīng)的統(tǒng)計對照,并且與更復(fù)雜的多特征指紋(Fig. 5B)以及差異反應(yīng)指紋(DRFPs)相當。
Fig. 5. Performance of the MPFs on different quantitative reaction prediction tasks
隨著EvoMPF在小型數(shù)據(jù)集上表現(xiàn)出的準確性和穩(wěn)定性,研究還測試了該算法在不同的分子預(yù)測任務(wù)上的普適性。該研究對藥理學(xué)終點的預(yù)測,特別是LD50的預(yù)測表現(xiàn)出色(Fig. 6A)。研究使用了多個來源的數(shù)據(jù)集其中包含了大量化合物數(shù)據(jù),并進行了對比實驗以驗證EvoMPF相對于傳統(tǒng)方法的優(yōu)越性(Fig. 6B)。結(jié)果表明,EvoMPF能夠有效地處理復(fù)雜的預(yù)測任務(wù),展現(xiàn)出了極高的穩(wěn)定性。接著將EvoMPF應(yīng)用于QSAR/QSPR領(lǐng)域的四個基準數(shù)據(jù)集(Fig. 6E),這些數(shù)據(jù)集涵蓋了不同的任務(wù)和分子特性。通過測試(HIV病毒的復(fù)制能力、分子的量子力學(xué)性質(zhì)),證明EvoMPF在各種任務(wù)中的穩(wěn)健性和性能優(yōu)勢,甚至在某些情況下超過了圖神經(jīng)網(wǎng)絡(luò)(GNN)的性能,這表明EvoMPF在不同領(lǐng)域和任務(wù)中的廣泛適用性。
Fig. 6. Analysis of the performance of the MPFs at toxicity prediction and further QSPR and quantitative structure activity relationship (QSAR) tasks
可解釋和解釋性人工智能:在毒性預(yù)測的數(shù)據(jù)庫中,研究發(fā)現(xiàn)某些元素的PAPs查詢數(shù)量與其平均毒性、毒性方差以及含有這些元素數(shù)據(jù)點的數(shù)量之間存在著強烈的相關(guān)性,這突顯了EvoMPF的可解釋朝著識別相關(guān)化合物的方向發(fā)展。隨后,研究將EvoMPF應(yīng)用于Buchwald-Hartwig數(shù)據(jù)集中,驗證其生成的特征是否能夠捕獲已知的反應(yīng)趨勢。通過與人共設(shè)計的查詢相比較,他們發(fā)現(xiàn)EvoMPF生成的查詢不僅考慮到了人類設(shè)計的結(jié)構(gòu)特征,還捕捉到了更加微妙的反應(yīng)性趨勢,例如特定配體對反應(yīng)產(chǎn)率的影響(Fig. 7B)。這證明了EvoMPF生成的特征對化學(xué)結(jié)構(gòu)與反應(yīng)性有更深層的理解??偟膩碚f,通過EvoMPF生成的特征具有直接的可解釋性,并且能夠反映化學(xué)結(jié)構(gòu)與反應(yīng)性之間的復(fù)雜關(guān)系,這使得研究人員能夠直接從數(shù)據(jù)中洞察整個反應(yīng)流程,而無需額外的模型分析。
Fig. 7. Statistical analysis of the generated patterns and application of the EvoMPF for explainable AI
總結(jié)
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn