人類的后基因組時代
日期:2012-09-07 08:02:41
在人類有史以來最偉大的認識自身的世紀工程——人類基因組計劃完成后,我們進入到了人類的后基因組時代。在絕大多數人類基因組序列已知的情況下,我們面臨的新任務是如何將這些人類基因組序列轉變為人類認識自身的知識,以及如何對這些序列加以利用,從中尋找出可控開發的寶藏,使之能夠造福人類的健康。
上接:Nature:十年探索,編寫人類的百科全書
試點項目改變了生物學家們對于基因組的看法。例如,研究人員發現即便只有小部分的DNA生成編碼蛋白的信使RNA,大部分的基因組還是被轉錄成了非編碼的RNA分子,其中一些現在已知是基因表達的重要調控因子。盡管許多的遺傳學家認為功能性的元件是物種間最為保守的,他們事實上發現許多重要的調控序列卻進化迅速。在國家人類基因組研究所(NHGRI)提出第二輪邀請,要求有意愿的參與者將他們的工作延展至整個全基因組后不久,該聯盟在2007年發表了它的研究結果。而恰恰當新一代測序儀正進入騰飛時啟動了這一“放大”階段,使得數據采集更快更廉價。“我認為我們生成了我們原來計劃生成的5倍的數據,卻沒有造成成本的任何變化,”華盛頓大學ENCODE組負責人John Stamatoyannopoulos說。
32個研究組,包括超過440位科學家,集中于24個標準類型的實驗。他們分離并測序了從基因組轉錄的RNA,鑒別了大約120個轉錄因子的DNA結合位點。他們繪制了被甲基化學基團覆蓋的基因組區域(這通常表明區域中的基因是沉默的)。他們檢驗了組蛋白的化學修飾模式(它幫助將DNA包裝成染色體,并向基因表達增強或抑制的區域發送信號)。盡管在大多數人類細胞中基因組是相同的,然而利用的機制卻是不同的。因此,研究小組在多種細胞類型(至少147種)中完成了這些實驗,生成了1648個實驗,ENCODE報告在本周的《Nature》雜志上。
例如Stamatoyannopoulos和他的合作者們采用一種稱作DnaseI的酶在125種細胞類型中繪制了調控區域。該酶對于緊抱組蛋白的DNA作用極小,但它能剪切與諸如轉錄因子等其他調控蛋白質結合的DNA。測序剪切的DNA揭示了在不同的細胞類型中這些蛋白質的結合位點。研究小組總共發現了290萬個這樣的位點。大約有三分之一發現于一種細胞類型中,只有3700種存在于所有細胞類型中,表明基因組調控在細胞間存在較大的差異。
真正的趣事出現是在將各種數據集疊加到一起時。例如觀測組蛋白修飾的實驗揭示了對應DnaseI敏感位點邊緣的模式。然后,研究人員添加了顯示轉錄因子確切的結合位點和時間的數據。廣闊的沙漠地區現在被幾十萬促成基因調控的特征所填充。并且每種細胞類型均采用這些特征不同的組合和排列生成了它獨特的生物學。這種多樣性有助于解釋相對較少的蛋白質編碼基因如何提供了人類生長和運轉所需的生物負責性。ENCODE遠遠超過“各部分的總和,”麻省理工學院計算基因組學家Manolis Kellis說。
整個項目釋放的數據正幫助研究人員們去了解疾病遺傳學。2005年,一些全基因組關聯研究(GWAS)生成了基因組上數千個似乎與疾病風險相關的單堿基差異或變異。但幾乎90%的這些變異都在蛋白質編碼基因之外,而研究人員對于它們有可能引起或影響疾病的機制所獲得的線索卻甚少。
ENCODE構建的圖譜揭示許多這些疾病關聯區域包括了增強子或其他的功能性序列。所有細胞類型都是重要的。Kellis的研究小組觀察了一些與系統性紅斑狼瘡密切相關的變異,在這一疾病中免疫系統會攻擊身體的自身組織。研究人員注意到在GWAS中鑒別的變異往往是在免疫細胞系中處于活性狀態的基因組調控區域,但在其他類型的細胞中則不一定。Kellis的博士后Lucas Ward構建了一個稱作HaploReg的門戶網站,使研究人員能夠通過系統的方式以ENCODE數據作對照篩查GWAS中鑒別的變異。“感謝ENCODE,我們現在能夠解析更復雜的疾病,”Kellis說。
下一篇: 基因的表達調控