資源|基礎研究常用數據庫匯總
日期:2019-09-03 10:32:20
分子生物學是生物學的一個分支,在分子水平上研究生命現象的科學。通過研 究生物大分子(核酸、蛋白質)的結構、功能和生物合成等方面來闡明各種生命現象的本質 。分子生物學的分子基礎是中心法則,如圖1所示。在21世紀大數據時代,分子生物學基礎研 究也飛速發展,這當然離不開強大的數據庫。本文中,我們收集了目前認可度較高的分子生 物學研究相關數據庫,涉及基因信息、基因表達信息、基因功能分析、轉錄因子、miRNA分析 和預測等幾個方面。

Figure 1. The brief diagram of genetic central dogma
1. 基因信息
基因,又稱遺傳因子,是產生一條多肽鏈或功能RNA所需的全部核苷酸序列。 基因支持著生命的基本構造和性能,儲存著生命的種族、血型、孕育、生長、凋亡等過程的 全部信息。常有人將基因與DNA混淆,DNA含有大量不編碼任何蛋白質序列,換句話說,DNA比 基因大。基因是帶有遺傳訊息的DNA片段。基因在轉錄和翻譯中至關重要,是轉錄翻譯的核心 。這里,我們列出了查找基因信息的三大數據庫。
1.1 GeneCards
GeneCards(https://www.genecards.org/)是一個綜合性的人類基因數據庫,全面提供有關所有注 釋和預測的人類基因信息。此外,它自動整合約150個在線基因中心數據,包括基因組、轉錄 子、別名、結構域、藥物、表達和定位等信息。

1.2 BioGPS
BioGPS(http://biogps.org/)是一個基于現有的遺傳和基因組資 源,可自由拓展和定制的基因注釋網站。BioGPS可為用戶提供一個探索感興趣基因間聯系的 場所。目前,BioGPS主要包含了人類、小鼠和大鼠的基因。

1.3 UCSC Genome Browser
UCSC Genome Browser(http://genome.ucsc.edu/)是一種可在線下載的基 因組瀏覽器,由加州大學圣克魯茲分校(UCSC)主辦。 它是一個交互式網站,提供了多種脊 椎動物、無脊椎動物和主要模式生物的基因組序列數據訪問鏈接。瀏覽器是一個優化的圖形 查看器,支持快速交互性能,是一個基于Web的開源工具,建立在MySQL數據庫之上,可以在 多個級別快速查詢數據的網站。

2. 基因表達信息
基因表達是將來自基因的信息用于功能性基因產物合成的過程。這些產物 通常是蛋白質,例如,酶、激素和受體。但在非蛋白質編碼基因如tRNA或snRNA基因中,表達 的產物是功能性RNA。
2.1 Gene Expression Omnibusr
Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/) ,也稱為GEO,是一個公共功能基因組數據庫,支持符合MIAME標準的數據提交,也可接受以 數組和序列為基礎的數據。 另外,該數據庫還提供幫助用戶查詢和下載實驗并設計基因表達 譜的工具。

2.2 ArrayExpress
ArrayExpress(https://www.ebi.ac.uk/arrayexpress/)是科學期刊主推的軟件庫之 一,旨在歸檔芯片和測序平臺的功能基因組學數據來支持可重復的研究。為了支持可重復的 研究,他們根據芯片實驗的最低信息(MIAME)和測序實驗的最低信息(MINSEQE)指南來審 核數據提交。

2.3 The Cancer Genome Atlas
癌癥基因組圖譜(https://www.cusabio.com/c- 20839.html),也稱為TCGA,是由美國癌癥研究所(NCI)和美國人類基因組研究所 (NHGRI)共同監管。目前,該網站已經繪制出33種癌癥關鍵基因組變化的綜合多維圖譜。它 旨在應用高通量基因組分析技術,幫助人們更好地了解癌癥,從而改善癌癥的預防,診斷和 治療。

3. 基因功能分析
基因功能分析是基于基因組研究分析一系列未知基因功能的重要方法。
3.1 DAVID
DAVID(https://david.ncifcrf.gov/)現在可提供一套全面的功能注釋工具, 供研究人員了解大量基因背后的生物學意義。對于任何給定的基因列表DAVID工具能夠做到以 下幾點:確定生物學主題,特別是GO術語;發現功能相關基因組;群集冗余注釋術語;在 BioCarta和KEGG信號通路圖上實現基因可視化;在二維視圖上顯示相關的多個基因。

3.2 MetascapeD
Metascape(http://metascape.org/)是一個免費的基因注釋和分析資源庫,可幫 助生物學家理解一個或多個基因列表。Metascape提供自動化分析工具,旨在了解一組正交蛋 白來發現研究中的常見或獨特途徑和蛋白質網絡。該資源庫所有的分析結果都顯示在Web報告 中,包括Excel注釋、富集表、PowerPoint幻燈片和自定義分析文件,以便進一步進行離線分 析或處理。

3.3 XTalkDB
XTalkDB(http://www.xtalkdb.org/home)是研究信號通路間相互作用的數據庫 。眾所周知,信號通路及通路間的相關作用的分析是系統生物學研究的基石。未開發XTalkDB 之前,幾乎沒有數據庫明確地匯總特定信號通路及其互相影響的通路。XTalkDB從1600多種期 刊中提取出了650條信號通路,并對他們之間的相互作用進行了分析。

4. 轉錄因子
轉錄因子,也稱為序列特異性DNA結合因子,是一群能與基因5`端上游特 定序列專一性結合,從而保證目的基因以特定的強度在特定的時間與空間表達的蛋白質分子 。真核生物在轉錄時往往需要多種蛋白質因子的協助。一種蛋白質是不是轉錄機構的一部分 往往是通過體外系統看它是否是轉錄起始所必須的。
4.1 iRegulon
iRegulon(http://iregulon.aertslab.org/)包含轉錄因子(TF)及其直接轉錄 DNA序列組成,在轉錄序列的順式作用元件處包含與TF結合位點。另外,iRegulon插件可以讓 您用一組共同調節基因中的基序來識別調節子。

4.2 TFcheckpoint
TFcheckpoint(http://www.tfcheckpoint.org/)是人類、小鼠和大鼠轉錄因子數據庫 。手動檢索TFcheckpoint中的轉錄因子可以獲得其在RNA聚合酶II調節和特異性DNA結合活性 實驗中的數據。

5. miRNA 分析和預測
miRNA(又稱為microRNA)是在動植物和一些病毒中發現的長度18~25個 核苷酸的小單鏈RNA,由DNA轉錄產生,不翻譯成蛋白質,通過堿基互補配對的方式與靶基因 的3’UTR區部分或完全互補,剪切靶基因的轉錄產物或者抑制轉錄產物的翻譯,從而起到轉 錄后凋控靶基因的表達的作用,是基礎研究中下調靶基因表達的常用方法。
5.1 starBase
starBase(http://starbase.sysu.edu.cn/)是一個開源平臺,用于研究CLIP中的 miRNA-ncRNA、miRNA-mRNA、ncRNA-RNA、RNA-RNA、RBP-ncRNA和RBP-mRNA相互作用。目前, starBase已從多維測序數據中鑒定了超過110萬個miRNA-ncRNA,250萬個miRNA-mRNA,210萬 個RBP-RNA和150萬個RNA-RNA的相互作用。

5.2 miRTarBase
miRTarBase(http://mirtarbase.mbc.nctu.edu.tw/php/index.php)是經過實驗驗 證的microRNA-target相互作用數據庫。目前為止,miRTarBase的miRNA-target相互作用 (MTIs)數已經累計超過三十六萬。

5.3 miRWalk
miRWalk(http://mirwalk.umm.uni-heidelberg.de/)是一個綜合性數據庫,可 提供已驗證和預測的miRNA結合位點信息,涉及種屬包括人類、小鼠和大鼠。另外,miRWalk 還整理了miRNA相關靶標的所有信息。

5.4 miRBase
miRBase(http://www.mirbase.org/)是已發表的miRNA序列和注釋的數據庫。 miRBase數據庫中的每個條目代表miRNA轉錄物的預測發夾結構(在數據庫中稱為mir),其具 有關于成熟miRNA序列(稱為miR)的位置和序列的信息。發夾結構和成熟序列都可用于搜索 和瀏覽,并且還可以通過名、關鍵字、引用和注釋來檢索條目。所有序列和注釋數據也可以 下載。

5.5 TargetScan
TargetScan(http://www.targetscan.org/vert_72/)通過搜索是否存在與每個 miRNA的種子區域匹配的保守8聚體、7聚體和6聚體位點來預測miRNA的靶點。

5.6 TargetScan
DIANA(http://diana.imis.athena- innovation.gr/DianaTools/index.php)是miRNA研究工具的集錦。這個數據庫有四個功 能特色:microT-CDS預測microRNA靶基因;LncBase v.2是基于miRNA預測lncRNA;miRGen v.3是預測miRNA啟動子和調節因子,如轉錄因子;Mirpub是miRNA相關文章。

6. 其他
除了跟基因相關的基礎研究數據庫,咱們的研發同志還建議附上兩個權威 性比較強的與藥物研發和疾病研究的數據庫,說不定咱們一不小心就從基礎走上了臨床,然 后越走越遠……
6.1 L1000FWD
L1000FWD(http://amp.pharm.mssm.edu/L1000FWD/)是一個網絡應用程序,擁有 超過16,000種藥物和小分子誘導的基因表達特征。另外L1000FWD可以通過不同的屬性(如細 胞類型、時間點、濃度)以及藥物屬性(如MOA和臨床階段)對特征進行著色,進一步實現直 觀化與可視化。

6.2 MalaCards
MalaCards(https://www.malacards.org/)是人類疾病綜合性數據庫,參考 GeneCards數據庫的架構,整合了專業和一般疾病,包括罕見疾病、遺傳疾病、復雜疾病等。

上一篇: TROP2--腫瘤治療的重要靶點
下一篇: 細胞器標志物,你知道多少?