第三代測(cè)序的希望與陷阱
日期:2012-07-27 08:42:23
去年4月當(dāng)美國(guó)太平洋生物科學(xué)公司Pacific Biosciences ( PacBio)宣布它將開(kāi)始銷(xiāo)售其商業(yè)PacBio RS系統(tǒng)時(shí),該公司預(yù)計(jì)第三代測(cè)序產(chǎn)品的發(fā)售將“立馬擴(kuò)展DNA測(cè)序在諸如癌癥研究、病原體檢測(cè)和農(nóng)業(yè)等領(lǐng)域的應(yīng)用”。不同于市場(chǎng)上的第二代系統(tǒng),PacBio RS系統(tǒng)能夠?qū)崿F(xiàn)單分子實(shí)時(shí)測(cè)序反應(yīng),在一天內(nèi)生成結(jié)果。此外,跨越幾千個(gè)DNA堿基的長(zhǎng)序列讀取將使從頭測(cè)序成為可能,通過(guò)跨越重復(fù)區(qū)域可簡(jiǎn)化序列組裝,并增進(jìn)對(duì)拷貝數(shù)變異的檢測(cè)。由于不需要DNA擴(kuò)增,這一系統(tǒng)將減少基因組覆蓋度中的某些人為假象(artifact)和偏差。
然而一年多過(guò)去了,現(xiàn)在看來(lái)研究人員對(duì)采用第三代測(cè)序技術(shù)一直保持慎重。為何?其中一個(gè)缺點(diǎn)就是錯(cuò)誤率相對(duì)較高。盡管通過(guò)環(huán)形共有序列(CCS),包括多次測(cè)序較短模板,可以獲得高準(zhǔn)確度,PacBio RS儀器生成了平均不到85%核苷酸準(zhǔn)確度的單次讀取。“這些測(cè)序讀取的高錯(cuò)誤率已經(jīng)被視為這一技術(shù)的主要限制,”國(guó)家生物防御分析與對(duì)策中心基因組學(xué)研究人員Adam Phillippy說(shuō)。
為了解決這一問(wèn)題,馬里蘭大學(xué)國(guó)家生物防衛(wèi)分析和反制中心的Adam Phillippy及同事們開(kāi)發(fā)了一種新的融合技術(shù)將第二代和第三代測(cè)序技術(shù)結(jié)合到一起生成了近乎完全準(zhǔn)確的長(zhǎng)讀取,這一成果報(bào)道在7月1日的《自然生物技術(shù)》(Nature Biotechnology)雜志上。將這一技術(shù)應(yīng)用到鸚鵡基因組,通過(guò)首先繪制短讀序列,計(jì)算高度準(zhǔn)確的融合共有序列,校正了個(gè)別的長(zhǎng)讀序列。短讀和PacBio RS CCS是通過(guò)454 和Illumina測(cè)序儀生成,長(zhǎng)單次讀取是通過(guò)PacBio RS生成。“我們開(kāi)發(fā)了首個(gè)能夠校正和組裝PacBio RS單分子序列讀取的算法,并證實(shí)PacBio RS技術(shù)的高錯(cuò)誤率可以設(shè)法得到控制,從而大大改善基因組和轉(zhuǎn)錄組的組裝,”Phillippy說(shuō)。
和平共存?
但是仍有許多的工作要做。例如,軟件開(kāi)發(fā)商需要更多時(shí)間來(lái)趕上新儀器。Phillippy 說(shuō):“第三代測(cè)序儀正在生成一種全新類(lèi)型的測(cè)序數(shù)據(jù)。過(guò)去5年或更長(zhǎng)時(shí)間以來(lái)算法開(kāi)發(fā)幾乎完全集中于高通量、高準(zhǔn)確度的短讀數(shù)據(jù)。將軟件開(kāi)發(fā)過(guò)程轉(zhuǎn)向一個(gè)新焦點(diǎn)還需要相當(dāng)長(zhǎng)的時(shí)間。”Phillippy的算法是朝著這一正確方向邁出的一步,因?yàn)樾U淖x取可以利用現(xiàn)有無(wú)法處理高錯(cuò)誤率的生物信息工具來(lái)進(jìn)行分析。
該技術(shù)還需要改善其可靠性、通量及成本才能具有競(jìng)爭(zhēng)力。Phillippy說(shuō):“從454 和 Illumina技術(shù)引入到被廣泛接受,并將Sanger測(cè)序推至小角色之前,也存在相似的兩至三年的滯后。”
Pacific Biosciences正處于改善儀器通量及延伸讀取長(zhǎng)度的進(jìn)程中。公司產(chǎn)品管理總監(jiān)Edwin Hauw說(shuō):“系統(tǒng)硬件本身并沒(méi)有改變,但我們正在改善化學(xué)和軟件。”目前,該系統(tǒng)非常適用于研究微生物基因組,但它的通量限制了對(duì)更大基因組的研究。“對(duì)于某些應(yīng)用它的成本高昂,因此對(duì)人類(lèi)基因組或其他大型基因組采用針對(duì)性測(cè)序是當(dāng)下最佳的策略,”Hauw說(shuō)。
一旦這些障礙被克服,新技術(shù)將使研究人員能夠深入了解許多與拷貝數(shù)變異和其他不容易用第二代測(cè)序技術(shù)研究的大型結(jié)構(gòu)變異相關(guān)的疾病,例如癌癥、自閉癥和染色體疾病。長(zhǎng)單分子測(cè)序也可以揭示對(duì)于包含在基因組非編碼內(nèi)含子和基因內(nèi)區(qū)域中的“無(wú)用DNA”的認(rèn)識(shí),這些“無(wú)用DNA”被認(rèn)為起著重要的調(diào)控作用,但由于無(wú)法正確組裝而沒(méi)有得到廣泛研究。
但第三代測(cè)序技術(shù)不太可能很快取代之前的技術(shù)。最終,對(duì)于測(cè)序技術(shù)的選擇將取決于特異的研究問(wèn)題。例如種群研究需要高深度測(cè)序,人類(lèi)單核苷酸多態(tài)性調(diào)查或表達(dá)研究等仍然最好用第二代技術(shù)開(kāi)展研究以非常低的成本生成大量的數(shù)據(jù)。“直到第三代技術(shù)能夠與這種每個(gè)堿基的成本相稱(chēng),其在讀長(zhǎng)尤其重要的應(yīng)用例如基因組組裝或結(jié)構(gòu)變異研究中將會(huì)受到限制。我期望第二代和第三代技術(shù)將可以和平共存直至產(chǎn)生另一個(gè)巨變,”Phillippy說(shuō)。