科研進(jìn)展
原生生物(Protist)是一大類(lèi)單細胞真核生物的集合,包括單細胞真核藻類(lèi)和原生動(dòng)物等,組成了原生生物界。原生生物具有高度多樣性,廣泛分布于各類(lèi)水環(huán)境中,在生態(tài)平衡、物質(zhì)和能量循環(huán)、環(huán)境健康、動(dòng)植物疾病等方面至關(guān)重要。它們是水生態(tài)系統的重要組分,是重要的初級生產(chǎn)力和氧氣的制造者、碳循環(huán)的關(guān)鍵參與者,是水產(chǎn)動(dòng)物的優(yōu)良餌料、人類(lèi)的營(yíng)養品、生物能源,是水環(huán)境的“哨兵”、水華和赤潮的重要元兇,是人、畜、禽、魚(yú)疾病的重要病原、互利共生的“好伙伴”。
NCBI分類(lèi)系統已記錄的原生生物種類(lèi)超過(guò)6萬(wàn)種,未知數量難以估量。2019年12月,由中國科學(xué)院水生生物研究所(水生所)牽頭發(fā)起了萬(wàn)種原生生物基因組計劃(Protist 10,000 Genomes Project,P10K),旨在建立一個(gè)大規模的原生生物遺傳資源數據庫,變革原生生物遺傳資源數據極度缺乏的局面。
“萬(wàn)種原生生物基因組計劃(P10K)”的標志。設計思路:標志由不同原生生物組成。其中鐘蟲(chóng)(纖毛蟲(chóng))代表字母“P”,裸藻(鞭毛蟲(chóng))和團藻(綠藻)的組合代表數字“10”,阿米巴代表字母“K”。雙螺旋既代表DNA又代表水波,即原生生物生存的水環(huán)境。“P”中噴發(fā)出諸多原生生物,代表1676年列文虎克發(fā)現鐘蟲(chóng)之后,高度多樣的各種原生生物被發(fā)現。
近日,由中國科學(xué)院水生生物研究所及北京基因組研究所(國家生物信息中心)聯(lián)合發(fā)布了P10K第一批數據。數據通過(guò)萬(wàn)種原生生物基因組數據庫(P10K database,https://ngdc.cncb.ac.cn/p10k/)共享發(fā)布釋放,相關(guān)論文以“The P10K database: a data portal for the protist 10000 genomes project”為題發(fā)表于Nucleic Acids Research。P10K第一批數據共收錄了2959個(gè)原生生物數據集,包括1601個(gè)基因組和1358個(gè)轉錄組數據集,覆蓋了原生生物75%的綱和45%的目。其中,從公共數據庫整合了1858個(gè)數據集,P10K團隊新測序了1101個(gè)數據集,以原生動(dòng)物纖毛蟲(chóng)(Ciliate)為主。新測序數據將原生生物數據集規模整體提升了37%。新測序的樣品由P10K團隊從國內多種生境中采集、分離。對于不能實(shí)驗室培養的絕大部分原生動(dòng)物,采用了單細胞測序方法,占新測序數據的98%。同時(shí),為了解決大規模單細胞組學(xué)數據的分析問(wèn)題,P10K團隊研發(fā)了一套針對原生生物單細胞測序數據的組裝、去污染、物種鑒定、基因注釋和評估的標準化分析流程。質(zhì)量評估顯示,該流程注釋的基因組與公共數據庫發(fā)布的基因組具有相似比例的中高等質(zhì)量數據。
P10K數據庫的特點(diǎn)和功能
水生所繆煒研究員、北京基因組所章張研究員與馬利娜副研究員為該文共同通訊作者,水生所博士研究生高欣欣、陳凱助理研究員、熊杰研究員、北京基因組所鄒東高級工程師為該文共同第一作者。該工作得到了科技部國家重點(diǎn)研發(fā)計劃、中科院先導專(zhuān)項、國際合作計劃、青年創(chuàng )新促進(jìn)會(huì )、國家自然科學(xué)基金和IUBS開(kāi)放生物多樣性和健康大數據計劃的資助,以及國家水生生物種質(zhì)資源庫和中國科學(xué)院超級計算武漢分中心的支持。
作為“萬(wàn)種原生生物基因組計劃”的重要組成部分,P10K數據庫的建立和數據共享將有助于推動(dòng)對真核生物和多細胞生物起源、真核生物多樣性、原生生物的極端環(huán)境適應以及微生物互作等重要基礎科學(xué)問(wèn)題的研究。與此同時(shí),這項計劃將促進(jìn)對與生態(tài)環(huán)境保護、污染物降解和轉化、營(yíng)養健康以及疾病防治相關(guān)的原生生物遺傳資源的挖掘和潛在應用。同時(shí),鑒于原生生物是浮游生物的關(guān)鍵組成部分,P10K數據庫還將為基于環(huán)境DNA的浮游生物鑒定提供支持,助力水生態(tài)健康評價(jià)。
尤為重要的是,P10K數據庫建立了國家水生生物種質(zhì)資源庫/國家寄生蟲(chóng)資源庫(活體種質(zhì)資源)和國家基因組科學(xué)數據中心(遺傳資源)之間的緊密聯(lián)系,對于促進(jìn)國家科技資源共享服務(wù)平臺的信息互聯(lián)互通和數據共享具有重要意義。
P10K計劃鏈接:
https://www.cell.com/the-innovation/fulltext/S2666-6758(20)30061-8
P10K 數據庫論文原文:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkad992/7335744