瑞士蘇黎世聯邦理工學院科學家在最新一期《自然》雜志上發表論文稱,他們開發出一款名為MetaGraph的DNA搜索引擎,能快速、高效地檢索公共生物學數據庫中的海量信息,為研究生命科學提供了強大的專業工具。
MetaGraph索引及大量DNA、RNA和蛋白質序列檔案。圖片來源:《自然》網站
MetaGraph的研發,源于科學界對日益龐大的基因測序數據“用不好、找不著”的現實困境。過去幾十年來,各類生物學數據庫規模呈爆炸式增長,然而原始測序數據往往碎片化、噪聲多、體量龐大,科學家難以直接從中高效提取有用信息。
MetaGraph的核心突破在于采用數學中的“圖結構”,將相互重疊的DNA片段智能聯結。其原理類似于圖書索引中將含有相同關鍵詞的句子關聯起來,形成知識網絡。研究團隊整合了7個公共資助數據庫,構建出一個跨越病毒、細菌、真菌、植物、動物乃至人類的生命全譜系索引。該索引共涵蓋1880萬個獨特的DNA與RNA序列集,以及2100億個氨基酸序列集。
基于這一龐大索引,團隊開發出了可直接通過文本提示檢索原始數據檔案的搜索引擎。團隊表示,這是一種與生物學數據交互的全新方式——數據被高度壓縮,卻可隨時調取。MetaGraph使研究人員能直接對“序列讀取檔案”(SRA)等存儲庫提出生物學問題,該數據庫本身包含超過1億個DNA字母。
為驗證其實用性,團隊利用MetaGraph掃描了24萬多個人類腸道微生物組樣本,搜尋抗生素耐藥性的遺傳標記。僅用一臺高性能計算機,約一小時便得出結果,展現出強大的分析效率。
法國巴斯德研究所生物計算專家拉揚·希基評價稱,這是一項“重大突破”,為分析DNA、RNA及蛋白質序列等原始生物學數據設立了新標準。這些數據庫規模驚人,可達“拍字節”(PB)級別,其條目數量甚至超過谷歌索引中的所有網頁。
迄今規模最大的古代人類DNA研究表明,人類進化在過去1萬年里明顯加快。這項由美國哈佛醫學院的群體遺傳學家DavidReich聯合主導的研究,4月15日發表于《自然》。研究人員在涵蓋歐洲和中東地區的古代......
近日,中國科學院青島生物能源與過程研究所單細胞中心與中國科學院天津工業生物技術研究所合作,研究開發了一種集成的、高靈敏度且高通量的錯誤校正平臺eMBS。能夠通過理性設計工程化MutS蛋白并結合磁珠分離......
據報道,上個月法國發生的一起案件,在一把槍上發現了同卵雙胞胎兄弟的DNA,但他們擁有相同的DNA,所以傳統的DNA檢測方法,無法確定DNA屬于哪位兄弟。在法國一起刑事審判中,傳統的DNA檢測未能區分出......
27日的《科學》雜志發表了一項研究,揭示了人類基因組中一類可“跳躍”的DNA片段——被稱為遺傳“寄生蟲”的LINE-1(L1)元件,如何成為破壞癌癥基因組穩定性的主要力量。基因組的不穩定正是癌癥演化的......
一艘沉沒于150年前的船經歷了怎樣的航程?科研人員從出水瓷瓶內的沉積物中,“打撈”出了它的生命史。通過對長江口二號沉船出水青花雙耳瓶中的土壤沉積物進行環境因子與沉積物古DNA分析,來自復旦大學、華東師......
在近日一項發表于《自然》的研究中,科學家繪制出迄今最詳盡的人類活細胞內DNA折疊、環狀纏繞和移動的圖譜,展示了基因組結構隨時間推移的變化情況,揭示了隱藏的基因調控機制,是了解DNA結構如何塑造人類生物......
圖基于卷對卷流體的新一代快速低成本基因測序技術在國家自然科學基金項目(批準號:22027805、22334004、22421002)等資助下,福州大學楊黃浩、陳秋水團隊與華大生命科學研究院秦彥哲、章文......
荷蘭烏得勒支大學研究人員開發出一款全新熒光傳感器,可在活細胞乃至活體生物中實時監測DNA損傷及修復過程,為癌癥研究、藥物安全測試和衰老生物學等領域提供了重要的新工具。相關成果發表于新一期《自然·通訊》......
三維基因組互作與表觀遺傳修飾是基因表達調控的重要因素,其動態變化與細胞生長發育及癌癥等疾病的發生發展密切相關。解析染色質在活細胞內的時空動態,是理解基因調控機制的重要科學問題。現有基于CRISPR-C......
1812年,法國皇帝拿破侖一世從俄羅斯莫斯科撤退時,其大部分軍隊因饑餓、疾病和寒冷的冬天而損失殆盡。如今,對這撤退途中喪生的30萬士兵的部分遺骸的DNA的分析發現,兩種未曾預料到的細菌性疾病很可能增加......