推斷cdna編碼蛋白質的幾種方法

利用Internet 3預測cDNA蛋白質產物的結構和功能

王滌平對童校勘的總結

(北京大學醫學部生物化學與分子生物學教研室，北京100083)

人類基因組計劃有望在兩三年內完成，我們將獲得許多序列已知但功能未知的cDNA。簡要介紹了利用互聯網上的信息資源，分析cDNA序列，預測其編碼的蛋白質的結構和功能的方法和常用工具。

互聯網，cDNA，蛋白質，結構和功能預測。

cDNA的蛋白質產物:利用互聯網預測其結構和功能

王第二平，ONG第二軍

(中國北京大學健康科學中心，北京100083)

人類基因工程將在兩三年內完成，生物學家將獲得許多功能未知的cDNA序列。本文介紹了因特網上的壹些方法和工具，通過這些方法和工具，我們可以分析cDNA序列並預測其編碼的蛋白質的結構和功能。

關鍵詞互聯網，cDNA，蛋白質，結構和功能預測

人類基因組計劃(HGP)進展迅速。6月1999 11，人類第22條染色體完成測序，這是第壹條完整測序的染色體[1]。2000年5月，公布了人類染色體21的測序結果[2]。到1999年底，大約1P3基因組序列已被檢測到。目前保守估計2003年底完成，人類即將進入後基因組時代。(編者註:本文發表時HG P已完成)。但HG P只是壹個以測序為主的結構基因組學研究，這個項目完成後的任務更加艱巨。闡明全基因組基因的功能可能是21世紀整個生物學界的中心任務。為了解釋新基因的功能，科學家們提出了功能基因組學、轉錄組學和蛋白質組學基因組學的概念。但目前由於各種技術的限制，其速度趕不上新基因如潮水般湧現的步伐。近年來，cDNA克隆和測序的工作也取得了快速進展。壹方面，短序列片段(ESTs)在數據庫中大量湧現；另壹方面，越來越多的全長cDNA被克隆和測序，許多新的cDNA文庫被大量構建，這大大擴展了cDNA文庫的應用。這樣，分子生物學家經常會遇到壹個問題:在獲得部分或全長序列後，如何判斷壹個cDNA屬於已知基因還是未知基因，如何知道其編碼的蛋白質的結構和功能。隨著計算機網絡技術和生物信息學的快速發展，利用互聯網上的生物信息學資源分析和預測cDNA序列及其蛋白質產物的結構和功能已經成為壹種快速、簡單、可行的方法。1共同序列數據庫

G enBank由NC BI(美國國立衛生研究院生物技術中心)創建和管理，是NC BI中最重要的數據庫之壹，可以提供超過55，000種不同生物的所有已知核酸和蛋白質序列、相關文獻和生物學註釋[3]。是最重要的三個DNA和蛋白質序列數據庫，與E M BL P E BI(歐洲分子生物學實驗室P歐洲生物信息學研究所)的E M BL數據庫和日本國立遺傳研究所的DDB J數據庫並列。他們收集各自區域的序列信息，每天交換各自數據庫中新建立的記錄，每兩三個月對數據庫信息進行壹次完整的更新，從而保證幾乎囊括了所有已知的核酸和蛋白質序列。dbEST數據庫是G enBank的壹部分，包含cDNA片段或ESTs的序列數據以及其他相關信息。為了管理重復EST數據，方便信息提取，NC BI建立了Unigene系統，可以自動系統地分析G enBank中包含EST序列的DNA序列，形成相同基因來源的非重復序列簇，每個簇代表壹個基因。NC BI有三個單基因文庫:人類、大鼠和小鼠。到1999年底，人類單基因文庫中約有超過1.5萬個ESTs形成的83000個序列簇[4]。G S DB(基因組序列數據庫)是由NCG R (Na2國家基因組資源中心)創建和管理的基因組數據庫。從1999秋季開始，G S DB不再接受個人實驗室提交的數據，數據庫的所有權轉移到G enBank。目前G S DB還能提供

3.國家自然科學基金重點項目(項目號39930170)和國家重點基礎研究發展計劃(項目編號G2000057001)。

七

四

生物技術通訊

字母I N BI OTECH NO LOGY V ol . 12N NO . 2 may 2006 54 38+0

序列分析和查詢服務。G DB (G基因數據庫)是約翰？霍普金斯大學醫學院人類基因組數據庫包括人類基因組的各個方面，如基因、克隆、斷點、細胞遺傳學標記、脆性位點、ESTs、重復序列和重疊群，以及人類基因組圖譜、基因組突變多態性和等位基因頻率數據等信息。

PIR(蛋白質信息資源)和SWISS 2PROT都包括在內。

它是最常用的蛋白質序列信息綜合數據庫，因為它描述詳細，重復率低，與相關數據庫的聯系廣泛。Swiss2proto成立於1987，現在由E M BL和SI B(瑞士生物信息研究所)共同管理。到1999，165438+10月，Swiss2proto大概有81000個序列。SWISS 2PROT中每個序列條目下都有參考文獻、分類數據和相關註釋信息，主要包括蛋白質的功能、翻譯後修飾、結構域和位點、二級和四級結構、與其他蛋白質的同源性、相關疾病和序列變異。由於核酸序列的爆炸式增長和數據庫的標註速度有限，E M BL和E MB L。

1996年，SI B推出了Swiss2proto的補充數據庫T REBM L，這是壹個計算機生成的數據庫，SWISS 2 proto是用代碼編寫的。

對中除已有序列外的所有編碼序列(C DS)進行翻譯和標註，因此標註的準確率低於SWISS 2PROT。

[5]

目前互聯網上的生物信息數據庫種類繁多，可謂五花八門。除了上面提到的大型綜合性數據庫，還有很多特定專業方向的數據庫，比如RNA、酶、載體、轉錄因子、翻譯信號以及各種物種數據庫。由於生物信息學數據庫的快速增加，收集生物信息學數據庫目錄的數據庫應運而生。Dbcat (bines alg o 2

蛋白質功能的全基因組預測算法。自然，1999，402:83

13 Enright A J，Illopoulos I，K yrpides NC等.蛋白質相互作用圖譜

基於基因融合事件的完整基因組。自然，1999，402:86

14 Attw ood TK，Croning M DR，Flower DR等打印2S:數據庫

以前被稱為版畫。核酸研究，2000，28:22515內容LC，Ailey B，Hubbard T JP等SCOP :a結構分類2

蛋白質數據庫。核酸研究，2000年，28:257

亨裏克·桑頓·JM。PQS:蛋白質四級結構文件服務器。

趨勢生物化學，科學引文索引，1998，23:358

17 G uex N，Diemand A，Peitsch MC。所有人的蛋白質模型。趨勢

生物化學科學，1999，24:364

18 Bouck J，W ei Y u，G ibbs R等.基因索引數據庫2

是的。趨勢遺傳，1999，15:159

(2000209225已收到)

051?生物技術通信信，生物技術編號:logy vol . 12n o . 2 may 2006 5438+0

￥

5.9

百度文庫VIP限時優惠現已開啟，享受6億+VIP內容。

現在就去拿

利用互聯網預測cDNA蛋白質產物的結構和功能。