華為云與北大BIOPIC聯(lián)合發(fā)布蛋白質(zhì)多序列比對開源數(shù)據(jù)集
近日,華為與北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、北京大學(xué)化學(xué)與分子工程學(xué)院、深圳灣實驗室高毅勤教授課題組聯(lián)合推出蛋白質(zhì)多序列比對(Protein MSA)數(shù)據(jù)集,希望在標(biāo)準(zhǔn)化的數(shù)據(jù)集基礎(chǔ)上,支撐研究人員開發(fā)先進(jìn)的AI模型,加深對蛋白質(zhì)結(jié)構(gòu)、功能和進(jìn)化的認(rèn)知,并進(jìn)行蛋白設(shè)計與改造。此數(shù)據(jù)集將發(fā)布于華為云AI Gallary平臺,相關(guān)代碼及數(shù)據(jù)集說明將依托于華為全場景AI計算框架MindSpore進(jìn)行開源開放、定期擴展與維護,旨在為全世界相關(guān)的產(chǎn)、學(xué)、研團隊提供優(yōu)質(zhì)的數(shù)據(jù)共享解決方案。
本次開源的Protein MSA數(shù)據(jù)集完全覆蓋最新版本(2021年2月發(fā)布)的UniRef50數(shù)據(jù)庫中的蛋白質(zhì)序列,采用學(xué)術(shù)界的“金標(biāo)準(zhǔn)”搜索方法,對約0.5億條蛋白序列進(jìn)行了充分的MSA搜索與比對(MSA平均深度大于1000),是目前世界范圍內(nèi)規(guī)模最大、參考數(shù)據(jù)集最新、覆蓋度最廣的開源蛋白質(zhì)MSA數(shù)據(jù)集(之前最大的開源MSA數(shù)據(jù)集包含10萬個蛋白MSA)【1】。
人類已知的蛋白質(zhì)序列已經(jīng)超過4.4億條,但僅憑這些蛋白質(zhì)單序列數(shù)據(jù)庫,很難了解蛋白之間的關(guān)系。Protein MSA數(shù)據(jù)庫是一個對不同蛋白質(zhì)序列之間的關(guān)系進(jìn)行了標(biāo)記的大規(guī)模“關(guān)系型”數(shù)據(jù)庫,被標(biāo)記為關(guān)聯(lián)的蛋白質(zhì)序列之間的相似度、進(jìn)化關(guān)系、突變所在位點的分布等信息對蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測極為重要。
為了更好地服務(wù)于跨領(lǐng)域的研究人員,Protein MSA數(shù)據(jù)集將被組織成具有多重形態(tài)的數(shù)據(jù)格式。原始數(shù)據(jù)集(近30T)將以UniRef系列數(shù)據(jù)庫【2】和UniClust數(shù)據(jù)庫【3】的標(biāo)準(zhǔn)文本形式存儲,并按照序列長度進(jìn)行分割與壓縮。為了便于AI領(lǐng)域的研究人員直接使用,Protein MSA數(shù)據(jù)集還會將文本格式的數(shù)據(jù)集轉(zhuǎn)化為浮點數(shù)張量類型壓縮存儲,并對已有的AI框架如MindSpore進(jìn)行數(shù)據(jù)接口的支持。
高毅勤教授表示:“我們鼓勵并期待來自生物信息學(xué)、數(shù)據(jù)科學(xué)和AI研究等領(lǐng)域的專家和人才充分碰撞與合作,引入、改進(jìn)或設(shè)計全新的AI模型,來充分地挖掘Protein MSA數(shù)據(jù)集中所隱藏的‘自然的秘密’”。
從科學(xué)的角度看,MSA的數(shù)量和質(zhì)量很大程度上影響了目前最先進(jìn)結(jié)構(gòu)模型的預(yù)測速度和精度,而且產(chǎn)生MSA的非參數(shù)化算法仍是諸多蛋白預(yù)測方法中決定速度的主要步驟之一。因此,Protein MSA數(shù)據(jù)庫本身可以作為這些結(jié)構(gòu)預(yù)測模型的預(yù)訓(xùn)練材料,用來挖掘序列信息甚至快速生成新的序列特征,這對解決研究、設(shè)計蛋白質(zhì)中所面臨的高變異序列和孤兒序列等問題具有巨大的潛在價值。
此次數(shù)據(jù)庫的發(fā)布,依托于華為云AI Gallery平臺,能夠充分保障國內(nèi)外用戶對于數(shù)據(jù)集的訪問和下載,并提供可持續(xù)更新與擴充的先進(jìn)數(shù)據(jù)維護方案以及下游AI應(yīng)用與部署的相關(guān)支持,融合了產(chǎn)、學(xué)、研相結(jié)合的研究模式的優(yōu)勢。此外,華為也與北京大學(xué)高毅勤課題組聯(lián)合開發(fā)并開源了首個國產(chǎn)分子動力學(xué)軟件MindSponge。未來,華為將牽手更多的學(xué)術(shù)科研界合作伙伴,在材料、生物、醫(yī)藥等更廣泛的科學(xué)計算領(lǐng)域打造數(shù)據(jù)推動的研究新模式。
附:
【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.
【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.
【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., S?ding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
最新活動更多
-
即日-9.20點擊報名>>> 【免費試用】宏集運輸沖擊記錄儀
-
即日-12.31立即下載>> 【限時下載】《2025激光行業(yè)應(yīng)用創(chuàng)新發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 高價值貨物的‘?dāng)?shù)字保鏢’:沖擊記錄儀重塑貨運安全與效率
-
精彩回顧立即查看>> 【在線研討會】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
-
精彩回顧立即查看>> 全數(shù)會2025(第六屆)機器人及智能工廠展
- 1 新紀(jì)錄!晶泰科技甩出近60億美元大單,AI制藥終于等來“豐收季”?
- 2 17家生物醫(yī)藥企業(yè)上榜中國500強
- 3 沖刺200億元收入,信達(dá)生物一款“減肥神藥”可能要起大作用
- 4 恒瑞醫(yī)藥收獲了一座金山
- 5 丹諾醫(yī)藥IPO:超6億幽門螺桿菌感染者等來耐藥密碼
- 6 齊魯制藥“藥物變形記”:從藥片到“郵票”,精神病治療迎“首個獲批”!
- 7 乙肝“特效藥”的千億戰(zhàn)局
- 8 腫瘤治療跑出超明星團隊:川大教授帶隊,突破硼藥瓶頸
- 9 凈利暴增95%!藥明康德上調(diào)全年業(yè)績:1.4倍訂單鎖定未來一年“工作量”
- 10 醫(yī)療AI進(jìn)化分水嶺:聯(lián)影以人機協(xié)同模式定義普惠新路徑