高毅勤課題組最新成果將開源:讓所有人都能做蛋白質(zhì)結(jié)構(gòu)預(yù)測!
發(fā)布時(shí)間:2022-07-09 來源:北大化學(xué)
華為推出全流程蛋白質(zhì)結(jié)構(gòu)預(yù)測工具 MEGA-Protein(MindSpore for Evolutionary Generation & Assessment Protein),其中業(yè)界首創(chuàng) AI MSA 引擎使得蛋白質(zhì)結(jié)構(gòu)預(yù)測突破「孤兒序列」等高精預(yù)測限制
這是團(tuán)隊(duì)在昇騰 AI 基礎(chǔ)軟硬件平臺上實(shí)現(xiàn) AlphaFold 2 從訓(xùn)練到推理全流程打通且效率同比提升 2 至 3 倍后,取得的又一次成功。相關(guān)代碼和模型參數(shù)后續(xù)會在昇思 MindSpore 社區(qū)開源,算法和相關(guān)的論文也會盡快公布。
昇思 MindSpore 首席架構(gòu)師金雪鋒評論稱:「該工作是產(chǎn)學(xué)界合作的一次重大成功實(shí)踐,也是科學(xué)計(jì)算與人工智能結(jié)合潛力的展示?!?/strong>金雪鋒補(bǔ)充說,支持多計(jì)算范式的 MindSpore 能夠有效提升科研工作的生產(chǎn)力,大幅度提升科學(xué)計(jì)算場景的性能,希望后續(xù)能夠看到更多、更好的成果涌現(xiàn)出來。
蛋白質(zhì)是生命活動中最主要的功能體之一,在人體結(jié)構(gòu)和功能中發(fā)揮著核心作用。然而,能夠解析蛋白質(zhì)結(jié)構(gòu)的實(shí)驗(yàn)手段通常都價(jià)格不菲且周期較長,很難直接通過它們?nèi)ヌ剿髡麄€(gè)「蛋白質(zhì)宇宙」。
蛋白質(zhì)的 3D 結(jié)構(gòu)完全由組成它的氨基酸序列所決定(1972 年諾貝爾獎(jiǎng)得主 Christian Anfinsen 曾通過實(shí)驗(yàn)證明),這就從理論上確認(rèn)了:存在一個(gè)「理想函數(shù)」,能夠?qū)被嵝蛄?x 映射到其 3D 結(jié)構(gòu) y。因此,蛋白質(zhì)結(jié)構(gòu)預(yù)測問題就轉(zhuǎn)化成典型的數(shù)學(xué)建模問題。AlphaFold 2 則是目前為止人們所能找到的、最接近「理想函數(shù)」的一個(gè)模型。
但是,為了達(dá)到高精度的預(yù)測,AlphaFold 2 必須引入額外的信息,也即蛋白多序列比對(MSA)。有多少 MSA 可用,直接決定了 AlphaFold 等模型的預(yù)測精度。
另一方面,AlphaFold 2 等標(biāo)準(zhǔn)檢索 MSA 流程,是在數(shù)據(jù)庫中使用搜索工具對目標(biāo)蛋白及相關(guān)序列進(jìn)行多重序列比對,該流程需要配置數(shù)據(jù)庫,其中數(shù)據(jù)庫規(guī)模大概在 1.3T 左右,配置耗時(shí)長且繁瑣,并且使用數(shù)據(jù)檢索工具(如 HHblits,JackHMMER,MMseqs2 等)搜索時(shí)間長,不利于科研人員展開研究。
昇思 MindSpore 社區(qū)與昌平實(shí)驗(yàn)室、北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)和化學(xué)與分子工程學(xué)院、深圳灣實(shí)驗(yàn)室高毅勤教授課題組新提出的 AI MSA 引擎,對于原始 MSA 質(zhì)量不高或者數(shù)量少的蛋白,將 AI MSA 引擎接入 AlphaFold 2 后可以明顯改善結(jié)構(gòu)預(yù)測的質(zhì)量,如下圖所示:
團(tuán)隊(duì)還發(fā)布了首個(gè)具有高覆蓋度和多樣性的百萬級蛋白質(zhì)結(jié)構(gòu)預(yù)測數(shù)據(jù)集 PSP。該數(shù)據(jù)集由 570k 個(gè)真實(shí)結(jié)構(gòu)序列(10TB)和 745k 個(gè)互補(bǔ)蒸餾序列(15TB)組成。昇思 MindSpore 基于該數(shù)據(jù)集可進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測訓(xùn)練,同時(shí)提供了豐富的處理及使用該數(shù)據(jù)集的接口,歡迎試用。
相關(guān)工作
MindSpore Science 開源路徑
https://gitee.com/mindspore/mindscience
昇思 MindSpore 最新成果開源:高毅勤課題組發(fā)布高性能蛋白質(zhì)結(jié)構(gòu)預(yù)測工具
https://biopic.pku.edu.cn/xwzx/mtbd1/517695.htm
昇思 MindSpore 再突破:蛋白質(zhì)結(jié)構(gòu)預(yù)測訓(xùn)練推理全流程開源,助力生物醫(yī)藥發(fā)展
https://icg.pku.edu.cn/xwzx/kycg/520034.htm
昇思 MindSpore 蛋白質(zhì)結(jié)構(gòu)預(yù)測模型拿下 CAMEO 全球預(yù)測競賽第一
https://www.huawei.com/cn/news/2022/4/mindspore-cameo-protein-ascend
了解更多,可訪問并關(guān)注昇思科學(xué)計(jì)算開源項(xiàng)目
13611330937