Nat Methods:讓序列比對更快更準更靈敏
日期:2011-12-27 08:38:38
來自德國慕尼黑大學的研究人員發表了題為“HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment”的文章,介紹一種能提高蛋白序列比對分析的新工具:HHblits,這是一種能極大增加蛋白功能性分析技術的軟件,能通過新穎的序列尋找方法,更快更準確的識別數據庫中具有相似序列的蛋白,比現有的方法能快2500倍!相關成果公布在Nature Methods雜志上。
領導這一研究的是慕尼黑大學基因中心的Johannes Söding博士,他表示,“我們的方法能延伸序列分析的廣度和力度,從而能方便之后的蛋白結構和功能的解析。”
蛋白存在于生命中幾乎所有生化過程中,一個蛋白的功能很大程度上依賴于其20種氨基酸排列組合的順序,以及氨基酸序列組成的三維空間結構。因此對于序列相似的蛋白來說,生物信息學方法能預測出其進化相關性,從而預測出相似的結構和功能。
所以蛋白結構分析是蛋白研究的一個重要方面,蛋白結構比對也成為了常規手段之一,研究人員常常在公眾數據庫中比對蛋白結構,通過分析這些相似的已知結構來分析蛋白的功能,Söding博士說,“這種序列分析方法是生物信息學領域的一種基礎研究手段。”
序列尋找程序能通過計算配對方式來評估序列相似性——兩個氨基酸序列被按照先后順序排列,這是根據常見識別,或者同樣方式的氨基酸配對。“也許比配對序列相似性更加重要的是,所謂的多序列比對,在這種情況下,研究人員可以尋找許多相關蛋白中的相似序列,或者將其安排進矩陣中——矩陣是指每個序列排列一行,相同單元中具有相同氨基酸”,Söding博士說。因為進化上相關蛋白的功能和結構都通常是保守的,比如說即使進化過程中出現突變,序列改變了,但是多序列比對能找到未知蛋白的結構和分子功能。
在過去的15年間,最流行的比對蛋白質序列的工具是PSI-BLAST,這是由于這一程序兼具速度和高靈敏度,以及精確度。
但這一新成果,Söding博士的這一最新HHblits方法在各方面更勝一籌,這主要體現在兩個方面,首先研究人員能將興趣蛋白的序列,與數據庫中蛋白的序列相互轉換,進入Hidden Markov Models (HMMs)模式,HMMs是一種能配合序列比對過程中出現的突變可能的統計模型,因此這一步能提升亞序列相似搜索的靈敏度和準確性。
其次,這一研究組還研發了一種能幫助降低篩選量,而又不損害搜索靈敏性的過濾成像,這種方法能將搜索時間提高2500倍,Söding博士強調這種HHblits方法,比較于之前的方法,能更快更精確預測蛋白功能和結構,其研究組已經著手更深入提升這一方法,這包括協同蛋白三維結構數據進行分析。
上一篇: Cell頭條:mRNA內置“自毀定時器”
下一篇: Science:DNA的錯配修復之謎