生物信息學中的“-信息學”是指從海量數據中挖掘獲取知識的過程,如下圖所示。在這個過程中,會涉及到數據管理、數據操作、數據挖掘和建模仿真。其中數據管理部分主要是數據庫,數據操作部分主要是指生物信息的各種軟件工具。這兩部分是生物信息學研究非常重要的資源,也是學生入門需要了解的基礎知識。下面是對這些資源的簡要介紹。(本文基於北大生物信息學公開課視頻,圖片來自視頻截圖)
根據不同的特點,這些資源可以分為不同的類別。例如,根據數據的性質,數據庫可以分為原始數據數據庫和二次數據數據庫。例如,根據軟件是獨立工具還是網絡服務器,軟件工具可以分為獨立程序和web服務器。
根據出版商的類別,可以分為集中式資源和個人資源。相對較大的集中資源主要有NCBI(美國國家生物技術信息中心)、EBI(歐洲生物信息學研究所)和UCSC(加州大學聖克魯茲分校)基因組瀏覽器。下面將分別介紹這三個最大的數據庫和其他生物信息學數據資源。
1介紹。NCBI
NCBI基因組數據庫:
大部分已測序的基因組被保存,1000+基因組已被測序。
NCBI-核苷酸/蛋白質(RefSeq):
集成不同版本後的參考序列。其中NM_*代表核酸序列,NP_*代表蛋白質序列。其中,核酸給出了id號、名稱、物種、特征、編碼區和序列等信息。蛋白質也給出了功能區間的信息。
NCBI基因:
以基因為單位,整合了途徑、變異、表型等信息。
對於人類基因,GeneCards有更好的註釋(表達、相互作用、同源蛋白、功能、遺傳變異等。)在人類基因和蛋白質上比NCBI更勝壹籌。
NCBI-斯拉
新壹代測序技術的短序列數據庫將每五個月使數據翻倍。
NCBI-分類學
至少有壹個基因被測序的所有物種的分類樹,所有被描述的物種的10%已經被測序。
NCBI公共醫學
用於查閱文獻。
NCBI網格
(醫學主題標題)用於為已出版的結構化術語詞庫的文章編制索引的受控聲音。
NCBI-我的NCBI
對於感興趣的關鍵詞,設置NBCI後,每周都會推送相關文檔,這對於項目中的文檔跟蹤非常有用。
NCBI爆炸
NCBI最著名的工具,兩篇關於BLAST的文章,被引用了42000多次。BLAST的不同版本包括:
在線:NCBI爆炸
單機版:BLAST+
嵌入網頁:wwwblast
2.ebi簡介
下表列出了EBI的壹些資源:
EBI-恩森布爾:
NCBI和UCSC之間的資源整合了許多物種的不同資源。Ensembl中的數量類型包括:
EBI-UniProtKB
通用蛋白質資源(UniProt)是蛋白質序列和註釋數據的綜合資源。
(UniProt知識庫(UniProtKB)是收集蛋白質功能信息的中心樞紐,具有準確、壹致和豐富的註釋。)
UniProtKB -Swiss-Prot(手動校對)
UniProtKB -TrEMBL(無人工校對)
EBI-完好無損
分子間相互作用
EBI-克魯斯塔歐米茄
多重序列比對
EBI inter proscan
輸入壹個序列,看看它是否包含目前功能已知的蛋白質的壹個區域。
3 UCSC簡介
以基因組為坐標。包含許多軌道,包括SNP,mRNA,切割EST,未切割EST,高通數量,通過池。