Nature Genetics:基因組其實是這樣轉錄的
日期:2014-11-11 08:49:41
在人類基因組中大約儲存著兩萬個基因和數千個調控元件。基因編碼蛋白質合成的信息,其他基因組元件負責調節基因活性和執行其他功能。所有這些DNA編碼信息都需要被復雜的分子機器讀取,并轉換為細胞能使用的信息。
人們一般認為,讀取基因就和讀一個語句差不多。讀取機器被多種序列引導到基因的起始位置,然后從左到右依次讀取DNA,直到遇到作為句號的那個序列。這些調控序列決定著細胞何時何地以怎樣的方式讀取基因。
不過科學家們近來發現,細胞不僅會讀取基因,也會讀取許多調控元件并將其轉錄為RNA。更令人驚訝的是,基因起始位置可以雙向讀取,正向和反向都能生成信息。
在這種情況下,細胞如何知道哪些RNA需要生成蛋白質呢?基因和調控元件的讀取過程是否存在差異,避免細胞產生混淆呢?Nature Genetics雜志十一月十日發表的一項新研究顯示,基因和調控元件的讀取過程一開始非常相似,主要差異在于RNA產物的長度和穩定性。基因生成的RNA長而穩定,能夠保證蛋白質合成。調控序列生成的RNA短而且不穩定,很快會被細胞清除。
CSHL Adam Siepel教授和康奈爾大學John Lis教授共同領導的這項研究,對基因和增強子的讀取過程進行了比較。研究人員發現,增強子和基因的讀取模式在許多方面高度類似。“數據表明,基因和這些非基因調控序列的基本讀取過程相同,”Siepel解釋道。“這說明,DNA的轉錄起始有一個統一的模型。”
研究人員還結合了NIH ENCODE計劃(DNA元件百科全書)的數據集進行分析。“我們發現,基因和增強子的轉錄起始模式基本上是一樣的,”Siepel說。“絕大多數RNA 信息被快速靶標和降解,只有源自于基因且讀取方向正確的RNA不被降解,它們將能翻譯成為蛋白質。”研究團隊在此基礎上建立了一個數學模型,來解釋穩定轉錄本和不穩定轉錄本之間的差異。Siepel指出,“穩定性很大程度上編碼在DNA序列之中。”
這項工作為理解新基因的起源帶來了重要的啟示。“DNA在起始位點是雙向讀取的,只需要稍加改變,這樣的位點就能夠生成兩個蛋白編碼基因。基因組生成新基因的潛力是很大的。”Siepel說。
上一篇: Cell新文章:癌癥轉移的罪魁禍首