科技日?qǐng)?bào)北京2月24日電 (記者張夢(mèng)然)英國(guó)牛津大學(xué)大數(shù)據(jù)研究所研究人員在繪制人類之間的全部遺傳關(guān)系圖方面邁出了重要的一步:一個(gè)單一的家譜,可追溯我們所有人的祖先。該研究24日發(fā)表在《科學(xué)》雜志上。
這個(gè)人類遺傳多樣性的新家譜網(wǎng)絡(luò),以前所未有的細(xì)節(jié)揭示了世界各地的個(gè)體如何相互關(guān)聯(lián)。該研究預(yù)測(cè)了人類共同的祖先,包括他們大致居住的時(shí)間和地點(diǎn),并分析恢復(fù)了人類進(jìn)化史上走出非洲等重大事件。研究的基本方法可能在醫(yī)學(xué)研究中得到廣泛應(yīng)用,例如識(shí)別疾病風(fēng)險(xiǎn)的遺傳預(yù)測(cè)因子。
追蹤人類遺傳多樣性的起源,以生成世界各地個(gè)體如何相互關(guān)聯(lián)的完整圖譜,這一愿景的主要挑戰(zhàn)是找到一種方法來(lái)組合來(lái)自許多不同數(shù)據(jù)庫(kù)的基因組序列,并開發(fā)算法來(lái)處理這種規(guī)模的數(shù)據(jù)。牛津大學(xué)大數(shù)據(jù)研究所研究人員此次發(fā)布的新方法可輕松地組合來(lái)自多個(gè)來(lái)源的數(shù)據(jù)并進(jìn)行擴(kuò)展,以適應(yīng)數(shù)百萬(wàn)個(gè)基因組序列。
大數(shù)據(jù)研究所進(jìn)化遺傳學(xué)家、論文主要作者之一黃燕博士解釋說:“我們基本上已建立了一個(gè)巨型家譜,這是一個(gè)全人類的家譜,它盡可能準(zhǔn)確地模擬了產(chǎn)生所有人類的歷史。我們今天在人類身上發(fā)現(xiàn)的遺傳變異,這個(gè)家譜使我們能夠看到每個(gè)人的基因序列是如何沿著基因組的所有點(diǎn)相互關(guān)聯(lián)的!
由于單個(gè)基因組區(qū)域僅從父母一方遺傳,無(wú)論是母親還是父親,基因組上每個(gè)點(diǎn)的祖先都可被認(rèn)為是一棵樹。這組樹被稱為“樹序列”或“祖先重組圖”,將遺傳區(qū)域通過時(shí)間與首次出現(xiàn)遺傳變異的祖先聯(lián)系起來(lái)。
研究人員稱:“從本質(zhì)上講,我們正在重建我們祖先的基因組和使用它們來(lái)形成龐大的關(guān)系網(wǎng)絡(luò)。然后我們可估計(jì)這些祖先生活的時(shí)間和地點(diǎn)。這個(gè)方法的強(qiáng)大之處在于它對(duì)基礎(chǔ)數(shù)據(jù)的假設(shè)很少,并且還可包括現(xiàn)代和古代DNA樣本!
該研究整合了來(lái)自8個(gè)不同數(shù)據(jù)庫(kù)的現(xiàn)代和古代人類基因組數(shù)據(jù),包括來(lái)自215個(gè)人群的總共3609個(gè)個(gè)體基因組序列。古代基因組包括在世界各地發(fā)現(xiàn)的年齡從1000到100000歲不等的樣本。算法預(yù)測(cè)了進(jìn)化樹中必須存在共同祖先的位置,以解釋遺傳變異的模式。由此產(chǎn)生的網(wǎng)絡(luò)包含近2700萬(wàn)個(gè)祖先。
在這些樣本基因組上添加位置數(shù)據(jù)后,研究人員使用該網(wǎng)絡(luò)來(lái)估計(jì)預(yù)測(cè)的共同祖先居住的地方。結(jié)果成功地重現(xiàn)了人類進(jìn)化史上的關(guān)鍵事件,包括走出非洲。
研究小組計(jì)劃通過繼續(xù)整合可用的遺傳數(shù)據(jù),使家譜圖更加全面。由于樹序列以高效的方式存儲(chǔ)數(shù)據(jù),因此數(shù)據(jù)集可輕松容納數(shù)百萬(wàn)個(gè)額外的基因組。
總編輯圈點(diǎn)
這是下一代DNA測(cè)序的基礎(chǔ)。隨著現(xiàn)代和古代DNA樣本基因組序列質(zhì)量的提高,樹序列正變得更加準(zhǔn)確,最終,科學(xué)家能夠生成一個(gè)單一、統(tǒng)一的圖譜,解釋我們今天看到的所有的人類遺傳變異。另一方面,雖然人類是這項(xiàng)研究的重點(diǎn),但該方法對(duì)大多數(shù)生物都有效——從大猩猩到小細(xì)菌。其在醫(yī)學(xué)遺傳學(xué)方面也將發(fā)揮功用,將遺傳區(qū)域和疾病之間的真正關(guān)聯(lián),從人類共同的祖先歷史中“揪”出來(lái)。