
近日,百度在國(guó)際頂級(jí)期刊《Nature》旗下子刊《Nature Machine Intelligence》(Impact score 16.65)上發(fā)表了AI+生物計(jì)算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,提出“基于空間結(jié)構(gòu)的化合物表征學(xué)習(xí)方法”,即“幾何構(gòu)象增強(qiáng)AI算法”(Geometry Enhanced Molecular Representation Learning,GEM模型),揭示了一種基于三維空間結(jié)構(gòu)信息的化合物建模方法,以及在藥物研發(fā)中的應(yīng)用。
https://www.nature.com/articles/s42256-021-00438-4 公開資料顯示,《Machine Intelligence》是《Nature》旗下專注于機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)期刊,過(guò)去兩年該期刊的影響因子已超過(guò)16。在該項(xiàng)研究中,百度螺旋槳PaddleHelix團(tuán)隊(duì)首次將化合物的幾何結(jié)構(gòu)信息引入自監(jiān)督學(xué)習(xí)和分子表示模型,并在下游十多項(xiàng)的屬性預(yù)測(cè)任務(wù)中取得SOTA,成為百度在AI賦能藥物研發(fā)領(lǐng)域?qū)ν夤_的又一項(xiàng)重磅成果。
藥研領(lǐng)域求變,AI+生物計(jì)算成最佳選擇眾所周知,藥物研發(fā)的成本高、周期長(zhǎng)、風(fēng)險(xiǎn)高。據(jù)美國(guó)塔夫茨大學(xué)2014年的研究,新藥進(jìn)入市場(chǎng)的平均成本約為26億美元,從首次合成到進(jìn)入臨床試驗(yàn)的平均耗時(shí)為31.2個(gè)月,從一期臨床到上市長(zhǎng)達(dá)96.8個(gè)月。另一方面,隨著全球邁入老齡化社會(huì),對(duì)新藥的需求也在逐年增加,到2024年全球醫(yī)藥市場(chǎng)總規(guī)模將超過(guò)11萬(wàn)億。與之相反,制藥公司每10億美元投資所獲得的上市新藥數(shù)量卻在逐年下降。如何通過(guò)新的技術(shù)手段,快速找到有潛力的候選藥物,降低進(jìn)入臨床試驗(yàn)失敗的風(fēng)險(xiǎn),就成為藥物研發(fā)領(lǐng)域最亟需解決的問(wèn)題。
在計(jì)算方法出現(xiàn)之前,藥物研發(fā)基本通過(guò)生物實(shí)驗(yàn)的方法來(lái)尋找藥物,成本高昂且耗時(shí)長(zhǎng),隨著計(jì)算化學(xué)和計(jì)算生物學(xué)的發(fā)展,也有通過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)方法輔助進(jìn)行藥物設(shè)計(jì)的,但這些方法或多或少在效果和效率層面有不足,以小分子為例,要找到一個(gè)候選藥物,篩選(搜索)的數(shù)量級(jí)達(dá)到10的60次方,傳統(tǒng)計(jì)算方法很難高效完成。另一方面,隨著AI技術(shù)的發(fā)展和普及,藥物研發(fā)也逐漸進(jìn)入到AI時(shí)代,天生擅長(zhǎng)處理大數(shù)據(jù)的AI深度學(xué)習(xí)技術(shù),就成為近年來(lái)大家關(guān)注的焦點(diǎn),希望通過(guò)AI新技術(shù)提升藥物研發(fā)效率,減少后期失敗概率,降低藥物研發(fā)成本。化合物的性質(zhì)預(yù)測(cè)的主要目的在于及時(shí)發(fā)現(xiàn)理化性質(zhì)不達(dá)標(biāo)的化合物,以降低候選化合物進(jìn)入臨床實(shí)驗(yàn)失敗的風(fēng)險(xiǎn),提升藥物研發(fā)的成功率。傳統(tǒng)的化合物性質(zhì)預(yù)測(cè)分析一般采取實(shí)驗(yàn)方式,成本高昂且耗時(shí)長(zhǎng)。業(yè)內(nèi)也有一些基于AI算法的工作,但大多是使用化合物的二維信息,沒(méi)有納入化合物的三維空間結(jié)構(gòu)信息。而百度首次提出,將化合物的空間結(jié)構(gòu)信息引入到化合物預(yù)訓(xùn)練中,通過(guò)幾何增強(qiáng)的自監(jiān)督學(xué)習(xí),對(duì)化合物分子進(jìn)行表征,通過(guò)化合物的表征自主推斷出空間結(jié)構(gòu)信息,進(jìn)而預(yù)測(cè)化合物分子的性質(zhì)屬性,以輔助進(jìn)行藥物研發(fā),提升效率,降低成本。值得一提的是,該研究由百度螺旋槳PaddleHelix生物計(jì)算團(tuán)隊(duì)獨(dú)立完成,并已經(jīng)在藥物研發(fā)領(lǐng)域,攜手合作伙伴在早期藥物研發(fā)管線中落地。很多的研究工作都證明了機(jī)器學(xué)習(xí)技術(shù),特別是深度學(xué)習(xí)在化合物性質(zhì)預(yù)測(cè)方面的巨大潛力,這些工作使用序列(SMILES表達(dá)式)或是圖(原子為節(jié)點(diǎn),化學(xué)鍵為邊)來(lái)表示化合物,用序列建模或者圖神經(jīng)網(wǎng)絡(luò)(GNN)去預(yù)測(cè)化合物的屬性。有些研究直接把每個(gè)化合物看作一個(gè)圖,利用基于圖拓?fù)浣Y(jié)構(gòu)的自監(jiān)督學(xué)習(xí)方法進(jìn)行分子表征,比如,遮蓋并還原化合物圖中的原子,化學(xué)鍵或子結(jié)構(gòu)。但是,這些方法都只把化合物視為拓?fù)鋱D,沒(méi)有充分利用化合物的幾何結(jié)構(gòu)信息。而化合物的幾何結(jié)構(gòu),即三維空間結(jié)構(gòu),對(duì)化合物的物理,化學(xué),生物等性質(zhì)都起著關(guān)鍵性的作用,具有相同拓?fù)浣Y(jié)構(gòu)的兩個(gè)化合物的空間結(jié)構(gòu)可能完全不同。另一方面,由于生物實(shí)驗(yàn)復(fù)雜的操作和高昂的成本,化合物的標(biāo)注數(shù)據(jù)十分稀少且珍貴。稀疏的數(shù)據(jù)讓深度神經(jīng)網(wǎng)絡(luò)極易過(guò)擬合,難以發(fā)揮強(qiáng)大的建模能力,如何從海量的無(wú)標(biāo)注化合物中學(xué)習(xí)高質(zhì)量的化合物表征成為化合物建模和屬性預(yù)測(cè)的關(guān)鍵。
鑒于此,百度提出一種全新的基于空間結(jié)構(gòu)的化合物建模方法——幾何構(gòu)象增強(qiáng)AI算法GEM,并設(shè)計(jì)了多個(gè)幾何級(jí)別的自我監(jiān)督學(xué)習(xí)策略,用于學(xué)習(xí)化合物的空間結(jié)構(gòu)知識(shí),使得化合物的表征能自主推斷出空間結(jié)構(gòu)信息。這項(xiàng)技術(shù)在十多個(gè)基準(zhǔn)的化合物屬性預(yù)測(cè)數(shù)據(jù)集上均取得出色成績(jī),并成功應(yīng)用到候選化合物的ADMET成藥性預(yù)測(cè)任務(wù)上,取得良好收益。解讀幾何構(gòu)象增強(qiáng)AI算法GEM模型幾何構(gòu)象增強(qiáng)AI算法GEM模型包含兩個(gè)主要部分:基于空間結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)(a)和多個(gè)幾何級(jí)別的自監(jiān)督學(xué)習(xí)任務(wù)(b)。

1. 基于空間結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)由于化合物的集合結(jié)構(gòu)可以完全被原子-化學(xué)鍵鍵長(zhǎng)-鍵角確定。GEM提出了一種基于空間結(jié)構(gòu)的圖網(wǎng)絡(luò),同時(shí)對(duì)原子-化學(xué)鍵-鍵角的關(guān)系建模空間結(jié)構(gòu)信息。每個(gè)化合物由兩個(gè)圖組成:原子-化學(xué)鍵的圖G和化學(xué)鍵-鍵角的圖H。類似于過(guò)往的工作,原子-化學(xué)鍵的圖G以原子作為圖的節(jié)點(diǎn),化學(xué)鍵作為連接原子的邊。而化學(xué)鍵-鍵角的圖H則為首次引入,以化學(xué)鍵作為圖的節(jié)點(diǎn),兩個(gè)化學(xué)鍵所形成的鍵角為圖的邊。圖神經(jīng)網(wǎng)絡(luò)包含多輪迭代,而化學(xué)鍵作為每一輪迭代中圖G和圖H的橋梁進(jìn)行信息互通。最后一輪迭代的表征被用于化合物屬性預(yù)測(cè)。2. 基于空間結(jié)構(gòu)的自監(jiān)督學(xué)習(xí)為了使模型更好學(xué)習(xí)到化學(xué)空間知識(shí),GEM不單單只是將幾何信息作為輸入,更進(jìn)一步地設(shè)計(jì)了基于幾何信息的學(xué)習(xí)任務(wù)(目標(biāo)):預(yù)測(cè)化學(xué)鍵的長(zhǎng)度;預(yù)測(cè)化學(xué)鍵組成的鍵角;預(yù)測(cè)兩兩原子之間的距離。其中,鍵長(zhǎng)和鍵角描述化合物的局部結(jié)構(gòu),而兩兩原子之間的距離更關(guān)注化合物的全局結(jié)構(gòu)。描述局部結(jié)構(gòu)的自監(jiān)督學(xué)習(xí)任務(wù)隨機(jī)挑選化合物中以某個(gè)原子為中心的子圖并進(jìn)行遮蓋,預(yù)測(cè)被遮蓋的子圖中的化學(xué)鍵的鍵長(zhǎng)和化學(xué)鍵間形成的鍵角。描述全局結(jié)構(gòu)的自監(jiān)督學(xué)習(xí)任務(wù)則預(yù)估原子距離矩陣中的元素。通過(guò)這些基于空間結(jié)構(gòu)的自監(jiān)督學(xué)習(xí)任務(wù),圖神經(jīng)網(wǎng)絡(luò)能夠有效推斷出化合物的空間信息,從而對(duì)化合物的表征帶來(lái)正向影響。GEM在14個(gè)化合物屬性的基準(zhǔn)數(shù)據(jù)集中取得了最佳表現(xiàn),這些數(shù)據(jù)集都是目前學(xué)術(shù)界公認(rèn)的化合物屬性預(yù)測(cè)數(shù)據(jù)集。例如,在毒性相關(guān)的數(shù)據(jù)集(tox21、toxcast)和HIV(艾滋病)病毒數(shù)據(jù)集上,GEM預(yù)測(cè)結(jié)果遠(yuǎn)優(yōu)于其他baseline模型。總體而言,百度的GEM模型,在ESOL、FreeSolv等回歸任務(wù)上相對(duì)現(xiàn)在方法提升8.8%,在BACE、BBBP、SIDER等分類任務(wù)上相對(duì)提升4.7%。此外,在自監(jiān)督學(xué)習(xí)方法上的消融實(shí)驗(yàn)也證明了基于空間結(jié)構(gòu)的自監(jiān)督學(xué)習(xí)方法的有效性。落地ADMET成藥性預(yù)測(cè)和藥物篩選等場(chǎng)景幾何構(gòu)象增強(qiáng)AI算法GEM,能很好的學(xué)習(xí)化合物的空間結(jié)構(gòu)知識(shí),自主推斷出空間結(jié)構(gòu)信息,從而準(zhǔn)確地預(yù)測(cè)候選化合物的ADMET性質(zhì)——吸收(Absorption)、分布(Distribution)、代謝(Metabolism)、排泄(Excretion)和毒性(Toxicity),幫助在藥物研發(fā)早期快速篩選潛在成功率更高的化合物。據(jù)了解,百度的該項(xiàng)研究已經(jīng)應(yīng)用于藥物研發(fā)領(lǐng)域,在合作伙伴的早期藥物篩選管線中實(shí)現(xiàn)了商業(yè)化落地。此外,幾何構(gòu)象增強(qiáng)AI算法GEM還在藥物虛擬篩選和藥物聯(lián)用方面,也起到關(guān)鍵作用。藥物虛擬篩選是藥物研發(fā)的重要一環(huán),旨在通過(guò)從大規(guī)模的虛擬化合物庫(kù)中找到與目標(biāo)靶點(diǎn)有強(qiáng)親和力的候選化合物。藥物聯(lián)用是通過(guò)預(yù)測(cè)兩個(gè)藥物在不同細(xì)胞系中的協(xié)同效用,以幫助找出給定藥物在某一細(xì)胞系內(nèi)中具有最佳協(xié)同作用。使得兩種有協(xié)同效用的藥物能夠在保證治療效果的同時(shí),減少抗藥性的產(chǎn)生。并通過(guò)降低使用劑量提升藥物的安全性。螺旋槳PaddleHelix是基于百度飛槳深度學(xué)習(xí)框架打造,面向新藥研發(fā)、疫苗設(shè)計(jì)、精準(zhǔn)醫(yī)療等場(chǎng)景的生物計(jì)算平臺(tái),為生物醫(yī)藥領(lǐng)域的研究者提供全面的AI+生物計(jì)算的模型工具和技術(shù)方案。目前,螺旋槳PaddleHelix平臺(tái)已開放多個(gè)模型,涵蓋分子生成、虛擬篩選、ADMET預(yù)測(cè)、蛋白/RNA結(jié)構(gòu)預(yù)測(cè)、mRNA序列設(shè)計(jì)、雙藥聯(lián)用等方面。除此之外,在PPI蛋白-蛋白相互作用,組學(xué)的表征和精準(zhǔn)用藥等方面,螺旋槳PaddleHelix團(tuán)隊(duì)也開展了相關(guān)的工作,并在多個(gè)國(guó)際競(jìng)賽中取得佳績(jī),相關(guān)研究成果也將陸續(xù)開放給大家體驗(yàn)試用。未來(lái),螺旋槳PaddleHelix生物計(jì)算平臺(tái),還將繼續(xù)秉持開源開放的態(tài)度,繼續(xù)攜手合作伙伴賦能生物計(jì)算行業(yè),共建AI+生物計(jì)算的生態(tài)和服務(wù)。基于空間結(jié)構(gòu)的化合物表征學(xué)習(xí)方法GEM已通過(guò)螺旋槳PaddleHelix平臺(tái)對(duì)外開放,歡迎大家使用。https://github.com/PaddlePaddle/PaddleHelixhttps://paddlehelix.baidu.com/baidubio_cooperate@baidu.com