快速獲得完美裝配細菌基因組
日期:2012-08-02 08:24:25
精確的基因組參照序列對微生物研究者來說具有很高的價值。因此,研究人員進行了經年累月的繁復實驗和復雜的計算,迄今已完成了約1800種細菌的基因組裝配。日前,美國哈佛-麻省理工博德研究所的研究人員應用新方法,結合了shotgun鳥槍法全基因組測序、單分子測序和自動化計算軟件,對16個細菌樣本進行了高質量的基因組裝配,得到了品質卓越的完成基因組。這一方法極大的減少了完成基因組裝配所花費的時間和經費。該文章發表在Genome Research雜志上。
盡可能精確的了解基因組信息對于微生物學研究有著基礎性的意義。使用大規模平行測序的短讀序數據進行de novo從頭裝配,這在過去曾被認為是不可能完成的任務,而現在終于可以借助新興技術得以實現。自動化標準測序方法所生成的基因組裝配具有優良的品質,在某些情況下輔以少量的人工實驗,就能夠得到近乎完成的基因組。然而不論是在Sanger測序的年代還是在目前的短讀序時代,大多數基因組裝配都存在諸多錯誤和缺口。重要的是,基因組裝配最困難(快速進化)的區域常常缺失或者產生錯誤。幸運的是,細菌的基因組很?。ㄒ话?/SPAN>2-6Mb),因此在許多情況下都能夠通過額外的工作進行校正。目前,通過測序結合人工實驗和計算程序,有1800種細菌的基因組裝配已經完成。不過此前的方法即繁復耗時又很昂貴,對快速經濟的新基因組裝配方法的需求依然很大。
為此,博德研究所開發了應用特殊算法的ALLPATHS-LG軟件,對shotgun全基因組測序數據進行裝配。該方法結合了Illumina和Pacific Biosciences測序儀各自的技術優勢,將其生成的三種數據類型進行了混合。這些數據具有互補性,在理論上具有精確裝配整個基因組的能力。并且這一方法和數據處理基本都是自動化的,最大程度的減少了時間和經費的消耗。
該方法采用的數據是Illumina生成的短讀序片段、Pacific Biosciences生成的長讀序和Illumina生成的jumping pairs數據。這些數據可以互相取長補短,Illumina技術在測序時由于樣品制備環節的擴增偏好會導致某些區域的覆蓋度不足或缺失,而Pacific Biosciences的單分子測序技術不需要進行擴增,可以很好的覆蓋上述區域。同時堿基讀取精確度高的Illumina數據也彌補了Pacific Biosciences數據的不足。研究中用于生成jumping pairs的片段大小范圍很廣,能夠覆蓋相當長的距離(5 kb以上),這樣做犧牲了一定的精確度。不過,Pacific Biosciences單分子測序的讀取對于中等距離很有效,彌補了這一缺陷。
研究人員充分利用了三種數據的優勢,結合精確度、偏好性和分辨率開發了新的裝配算法。他們首先將短讀序進行校正,應用精確度高的短讀序進行裝配,隨后再用長讀序和jumping pairs填補其中的缺口。這一過程的算法被整合入ALLPATHS-LG軟件,輸入長讀序數據后該模塊會自動啟動。
這種方法產生的裝配能夠兼容位點模糊性local ambiguities,允許裝配的位點中存在兩種或兩種以上的可能。這種模糊性可能是測序的系統性誤差產生的,也有可能是由裝配難以區分的重復拷貝引起的,或者是因為DNA樣本中確實存在混合性位點。原核生物在培養過程中的突變,以及真核細胞基因組中的等位基因多態性都可能造成這一現象。
研究人員應用這一新方法,對16種細菌樣本進行了基因組裝配,其中有三種細菌的基因組是已完成的,可作為研究的參照序列。作為參考序列的三種細菌分別是大腸桿菌E. coli、肺炎鏈球菌S. pneumoniae和類球紅細菌R. sphaeroides。這些菌種基因組的GC含量范圍很廣,從27%到69%,可以反映不同GC含量下裝配策略的有效性。
研究人員發現裝配的結果與參照序列存在差異,要正確評價裝配的質量就必須解讀這些差異。在早前發表的文章中,研究人員曾對E. coli參照序列進行了6處校正,對R.sphaeroides參照序列進行了374處校正。在本研究中,研究人員通過PCR、Sanger測序等方法進行驗證,進一步校正了參照序列,其中E. coli校正1處,R. sphaeroides校正32處。研究人員還獲取了生成S. pneumoniae參照序列的原始讀序數據,使他們得以對參照序列的原始測序數據和新讀序數據進行綜合性的差異分析,當然這種差異也可能是由兩個樣品真實序列的不同所引起的。因為無法得到生成參考序列的原始DNA樣本,研究人員還不能完全解釋這種差異,不過他們評估了參考序列的錯誤率。S. pneumoniae參考序列和新數據中存在63處差異,研究人員經過驗證發現,其中60處都是新方法的檢出正確。其余的三處,新舊兩種結果都可以說是正確的,這可能是樣品自身帶來的差異。
利用新方法, E. coli參考基因組的裝配生成了一個環形重疊群contig,基本確定了所有堿基(除一個堿基以外)。R. sphaeroides基因組裝配成兩個染色體,五個質粒,形成11個重疊群。而S. pneumoniae的基因組裝配也形成了一個環形重疊群,其中存在6個模糊微點,沒有錯誤。這樣的裝配結果非常完美,首先三種參照樣本的基因組裝配結果都沒有缺口,其次形成的重疊群都是基本完整的染色體(或質粒),此外裝配結果的總體精確度比參考序列高。
研究人員隨后很自然的想到,所用到的三種數據類型是否還可以進行精簡。他們進行了相應的研究,發現對算法進行充分改進后,可以不用到短讀序數據,因為jumping讀取就能提供高質量的覆蓋度。但去除長片段讀序數據則會對裝配結果造成嚴重的影響,因此長讀序數據不可或缺。
除了生成更長讀序之外,改進實驗技術也能夠提高基因組裝配的質量,例如進一步減少擴增偏好。這對于一些GC含量特別高或特別低的病原體尤為重要,例如結合分支桿菌Mycobacterium tuberculosis (高GC) 和惡性瘧原蟲Plasmodium falciparum (低GC)。通過優化DNA提取方案和jumping文庫建立步驟,也可以提高jumping文庫銜接長重復片段的能力。
研究人員還強調,本文中的方法是為可培養菌株DNA設計的,細菌可以從單個細胞繁殖成為一個菌落,這對于基因組裝配是一個挑戰。博德研究所的這種全自動化一鍵式新方法,對所有細菌樣品都適用默認參數,并且能達到極高的精確度。目前該方法僅用于細菌基因組,要裝配更大的基因組需要對算法進行相應變動。
完美的細菌基因組裝配非常重要,因為基因缺失、裝配錯誤或者堿基錯誤等會導致人們對測序生物得出錯誤的生物學和進化史結論。早期對細菌基因組進行測序,需要耗費極大的精力和資源才能得到完整的環形基因組。隨著越來越快的新測序技術的出現,人們為了追求速度和低成本,往往犧牲了基因組裝配的完美性?,F在人們的確可以很快裝配出基因組草圖,但這離完美的基因組裝配還差的很遠。博德研究所開發的新方法基于快速測序技術和新的裝配方式,得出的裝配結果比已完成的參考基因組序列更好,這種方法即低廉又快速,費用比從前降低了一個數量級。
博德研究所的研究人員以相對較低的成本,快速裝配出了近乎完美的細菌完成基因組。通過這一新方法,任何有測序數據和計算機的研究者都能生成高質量的基因組裝配,這對于細菌基因組研究非常關鍵。舉例來說,這一技術可以應用于細菌傳染病學,為人們提供精確的信息,來追蹤致病菌的毒力和抗性在細菌群體中的出現和傳播。研究人員總結道,基因組裝配的完美化對許多領域都非常重要,隨著未來技術的發展,長讀序錯誤率的減少會使基因組裝配更加容易。
編者按:此前2012年7月1日的Nature Biotechnology雜志上曾刊登了冷泉港實驗室(CSHL)研究人員的文章,他們開發了混合錯誤校正方法,先將短讀序定位到Pacific Biosciences的長讀序上,再進行裝配。這種方法不僅極大地提高了準確性,同樣也能用于裝配高質量的完成基因組。(見:基因組裝配新前沿:長片段完成完整的基因組,新技術攻克單分子測序大問題
上一篇: 研究發現腫瘤血管生成新機制
下一篇: Nature:首個抗衰老藥被控商業欺詐