經過長時間的發展,大量的材料學術文獻積累了豐富的科學成果,以文本形式散布在文獻中的科學知識一般仍由研究人員手動收集和分析,這通常十分耗時且難以保證信息的完整度。如果將文獻中的材料科學信息表示為結構化的知識,再結合知識關聯、融合、推理等方法,構建材料知識圖譜,可以使研究人員準確而又高效地獲取信息,并對過往研究進行脈絡梳理,對有潛力的材料進行剖析。北京大學深圳研究生院新材料學院潘鋒教授課題組近年來致力于構建材料知識圖譜以及解決其關鍵科學問題和技術難題,發展了一套高精度且高效的同名消歧以及信息搜索框架,在材料科學領域建立了主體(作者)與客體(材料)之間的對應關系,結合機器學習和依賴匹配算法,構建了名為MatKG的材料知識圖譜,并對鋰離子電池正極材料LiFePO4進行自動化分析,生成其發展里程碑,追蹤其研究趨勢,相關成果已發表于《先進能源材料》(Advanced Energy Materials, DOI:10.1002/aenm.202003580)。
在此基礎上,潘鋒課題組進一步深入研究材料知識圖譜的構建技術和應用潛力,實現了對隱藏在文本中的潛在材料關聯的挖掘,進一步實現了材料的推理預測。近日,他們在《先進功能材料》(Advanced Functional Materials, DOI:10.1002/adfm.202201437)發表題為“Automating Materials Exploration with a Semantic Knowledge Graph for Li-ion Battery Cathodes”的研究論文。該研究提出了一種可實現材料科學知識嵌入的語義表示框架,通過多源信息融合提高材料實體的表示質量以對材料科學文獻中的鋰離子電池正極材料實體進行精準挖掘并構建正極材料知識圖譜,預測高性能鋰電池材料。該工作在幾乎不需要領域知識的情況下,實現了復雜材料系統的基于文本挖掘的高效知識融合和推理與預測,將助力實現數據驅動的材料研究新范式。
材料科學文本中包含大量非結構化、高度異構形式的材料科學信息,并且材料子領域擁有特定的領域知識,不同子領域之間差異明顯,這都對材料科學知識的精準挖掘造成了極大的挑戰。由于數據驅動的材料研發新范式的應用價值,構建整合材料特性和應用信息的數據管理平臺成為了目前迫切的需求,而基于文本挖掘的材料知識圖譜構建及材料推理預測正是解決這一需求的重要手段。
課題組發展了一套名為DATWEM的材料信息語義表示框架,以針對性生成特定子領域的材料實體表示,解決了復雜材料系統中的材料實體挖掘問題。該框架結合BiLSTM和雙重注意力機制,通過多源信息融合提高詞嵌入的質量,以對材料科學文獻中的特定領域材料實體進行精準挖掘。他們將該框架應用于鋰離子電池正極材料領域知識圖譜的構建:首先對材料科學文本信息進行向量化;接下來使用兩個獨立的詞嵌入模塊對兩種不同語料庫(無機材料語料庫和正極材料語料庫)分別進行編碼,兩種語料庫編碼后的詞嵌入和關鍵詞模塊的詞嵌入隨后會被輸入DATWEM框架經過雙層注意力模塊實現多源信息融合,增強材料實體的表示質量;最后量化材料實體之間的相似度以構建鋰離子電池正極材料知識圖譜。
材料知識圖譜的構建流程
課題組在該知識圖譜的基礎上進行潛在正極材料的推理預測,通過無監督聚類對不同材料之間的語義相似性進行可視化,保留與四種代表性正極材料(LiCoO2、LiFePO4、LiMn2O4、Li2MnO3)相關的較大聚類簇。在對已包含在語料庫中的正極材料進行過濾后,他們發現了一種潛在的正極材料——Li2TiMn3O8,該材料與典型正極材料LiCoO2通過層狀結構這一明顯共同特征形成直接連接路徑,通過包含適合用于正極材料的可變價元素這一潛在共同特征形成間接連接路徑,從而根據直接及間接路徑實現了該潛在材料的發現。
材料知識圖譜用于鋰電池正極材料的發現
北京大學深圳研究生院新材料學院碩士畢業生聶志偉為該論文的第一作者,潘鋒、新材料學院李舜寧副研究員以及深圳市內容中心網絡與區塊鏈重點實驗室雷凱研究員為共同通訊作者。該研究得到廣東省軟科學研究計劃項目、化學與精細化工廣東省實驗室、深圳市科技計劃、國家自然科學基金以及廣東省重點領域研發計劃的支持。
聲明:化學加刊發或者轉載此文只是出于傳遞、分享更多信息之目的,并不意味認同其觀點或證實其描述。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn