世界最大人類基因數據集將免費對外開放
日期:2012-04-05 08:24:09
美國國立衛生研究院29日宣布,他們的千人基因組計劃的全部數據將免費對外開放。這些數據總量達到200TB,是世界上最大的人類基因變異數據集。亞馬遜旗下的云計算公司——“亞馬遜網絡服務”將存儲這個龐大的數據庫。
千人基因組計劃旨在為基因變異如何影響健康以及與疾病間關系的研究奠定基礎。所有數據免費對外開放意味著更多科學家可以利用這些數據進行研究,以更快的速度得出基因型與癌癥、糖尿病等疾病間關系的發現。這項計劃于2008年啟動,立基于全世界26個國家和地區的2600多人的基因組。其中1700人的DNA排序結果將在不久后公布并進行云存儲,余下900人的DNA將在2012年進行排序。
國立衛生研究院的千人基因組計劃是一項規模更大的舉措組成部分,用于管理科學研究產生的海量數據——數據管理本身就是一門科學。由于類似千人基因組計劃這樣的數據集規模龐大,很少有研究人員具備處理能力,因此也就無法使用。根據國立衛生研究院的計算,千人基因組計劃的數據如果打印出來,可放滿1600萬個檔案柜;如果使用標準DVD存儲,需要3萬多張DVD。
對于科學家和他們所在的研究機構來說,千人基因組計劃數據進行云存儲無疑是一個好消息,他們無需擁有更大帶寬,數據存儲和分析處理能力便可獲取這些數據。亞馬遜網絡服務公司首席產品經理德帕克·辛格表示:“這意味著所有研究人員和實驗室都可以獲取完整的千人基因組計劃數據,無論它們規模大小和預算多少。他們可以立即對這些數據進行分析,而無需在這方面投入資源。通常情況下,他們需要大量硬件、設施和人員才能獲取這些數據。由于無需投入資源便可獲得研究所需數據,科學家可以加快研究步伐。”
對于亞馬遜網絡服務公司來說,存儲千人基因組計劃的數據可能也是一個好消息。美國《紐約時報》報道稱,處理如此海量數據需要極大的運算能力,亞馬遜網絡服務公司可以要求獲得額外的資源,用于進一步處理或者分析這些數據。
白宮認為云存儲千人基因組計劃數據是他們的“大數據研究和發展倡議”所提出的解決方案的一個典范。美國科學和技術政策辦公室29日宣布,將有2億多美元投向6個聯邦機構,用于推動大數據計算領域的研究——包括大數據分析——以及大數據在科學探索、環境和生物醫學研究、教育以及國家安全領域的應用。
上一篇: Nature文章揭示癌癥與染色體重排機制
下一篇: 英發現一個或可用作癌癥“剎車”的基因