當前位置:股票大全官網 - 基金投資 - 推斷cdna編碼蛋白質的幾種方法

推斷cdna編碼蛋白質的幾種方法

利用Internet 3預測cDNA蛋白質產物的結構和功能

王滌平對童校勘的總結

(北京大學醫學部生物化學與分子生物學教研室,北京100083)

人類基因組計劃有望在兩三年內完成,我們將獲得許多序列已知但功能未知的cDNA。簡要介紹了利用互聯網上的信息資源,分析cDNA序列,預測其編碼的蛋白質的結構和功能的方法和常用工具。

互聯網,cDNA,蛋白質,結構和功能預測。

cDNA的蛋白質產物:利用互聯網預測其結構和功能

王第二平,ONG第二軍

(中國北京大學健康科學中心,北京100083)

人類基因工程將在兩三年內完成,生物學家將獲得許多功能未知的cDNA序列。本文介紹了因特網上的壹些方法和工具,通過這些方法和工具,我們可以分析cDNA序列並預測其編碼的蛋白質的結構和功能。

關鍵詞互聯網,cDNA,蛋白質,結構和功能預測

人類基因組計劃(HGP)進展迅速。6月1999 11,人類第22條染色體完成測序,這是第壹條完整測序的染色體[1]。2000年5月,公布了人類染色體21的測序結果[2]。到1999年底,大約1P3基因組序列已被檢測到。目前保守估計2003年底完成,人類即將進入後基因組時代。(編者註:本文發表時HG P已完成)。但HG P只是壹個以測序為主的結構基因組學研究,這個項目完成後的任務更加艱巨。闡明全基因組基因的功能可能是21世紀整個生物學界的中心任務。為了解釋新基因的功能,科學家們提出了功能基因組學、轉錄組學和蛋白質組學基因組學的概念。但目前由於各種技術的限制,其速度趕不上新基因如潮水般湧現的步伐。近年來,cDNA克隆和測序的工作也取得了快速進展。壹方面,短序列片段(ESTs)在數據庫中大量湧現;另壹方面,越來越多的全長cDNA被克隆和測序,許多新的cDNA文庫被大量構建,這大大擴展了cDNA文庫的應用。這樣,分子生物學家經常會遇到壹個問題:在獲得部分或全長序列後,如何判斷壹個cDNA屬於已知基因還是未知基因,如何知道其編碼的蛋白質的結構和功能。隨著計算機網絡技術和生物信息學的快速發展,利用互聯網上的生物信息學資源分析和預測cDNA序列及其蛋白質產物的結構和功能已經成為壹種快速、簡單、可行的方法。1共同序列數據庫

G enBank由NC BI(美國國立衛生研究院生物技術中心)創建和管理,是NC BI中最重要的數據庫之壹,可以提供超過55,000種不同生物的所有已知核酸和蛋白質序列、相關文獻和生物學註釋[3]。是最重要的三個DNA和蛋白質序列數據庫,與E M BL P E BI(歐洲分子生物學實驗室P歐洲生物信息學研究所)的E M BL數據庫和日本國立遺傳研究所的DDB J數據庫並列。他們收集各自區域的序列信息,每天交換各自數據庫中新建立的記錄,每兩三個月對數據庫信息進行壹次完整的更新,從而保證幾乎囊括了所有已知的核酸和蛋白質序列。dbEST數據庫是G enBank的壹部分,包含cDNA片段或ESTs的序列數據以及其他相關信息。為了管理重復EST數據,方便信息提取,NC BI建立了Unigene系統,可以自動系統地分析G enBank中包含EST序列的DNA序列,形成相同基因來源的非重復序列簇,每個簇代表壹個基因。NC BI有三個單基因文庫:人類、大鼠和小鼠。到1999年底,人類單基因文庫中約有超過1.5萬個ESTs形成的83000個序列簇[4]。G S DB(基因組序列數據庫)是由NCG R (Na2國家基因組資源中心)創建和管理的基因組數據庫。從1999秋季開始,G S DB不再接受個人實驗室提交的數據,數據庫的所有權轉移到G enBank。目前G S DB還能提供

3.國家自然科學基金重點項目(項目號39930170)和國家重點基礎研究發展計劃(項目編號G2000057001)。

1

生物技術通訊

字母I N BI OTECH NO LOGY V ol . 12N NO . 2 may 2006 54 38+0

1995-2005清華同方光盤有限公司版權所有。

序列分析和查詢服務。G DB (G基因數據庫)是約翰?霍普金斯大學醫學院人類基因組數據庫包括人類基因組的各個方面,如基因、克隆、斷點、細胞遺傳學標記、脆性位點、ESTs、重復序列和重疊群,以及人類基因組圖譜、基因組突變多態性和等位基因頻率數據等信息。

PIR(蛋白質信息資源)和SWISS 2PROT都包括在內。

它是最常用的蛋白質序列信息綜合數據庫,因為它描述詳細,重復率低,與相關數據庫的聯系廣泛。Swiss2proto成立於1987,現在由E M BL和SI B(瑞士生物信息研究所)共同管理。到1999,165438+10月,Swiss2proto大概有81000個序列。SWISS 2PROT中每個序列條目下都有參考文獻、分類數據和相關註釋信息,主要包括蛋白質的功能、翻譯後修飾、結構域和位點、二級和四級結構、與其他蛋白質的同源性、相關疾病和序列變異。由於核酸序列的爆炸式增長和數據庫的標註速度有限,E M BL和E MB L。

1996年,SI B推出了Swiss2proto的補充數據庫T REBM L,這是壹個計算機生成的數據庫,SWISS 2 proto是用代碼編寫的。

對中除已有序列外的所有編碼序列(C DS)進行翻譯和標註,因此標註的準確率低於SWISS 2PROT。

[5]

目前互聯網上的生物信息數據庫種類繁多,可謂五花八門。除了上面提到的大型綜合性數據庫,還有很多特定專業方向的數據庫,比如RNA、酶、載體、轉錄因子、翻譯信號以及各種物種數據庫。由於生物信息學數據庫的快速增加,收集生物信息學數據庫目錄的數據庫應運而生。Dbcat (bines alg o 2

蛋白質功能的全基因組預測算法。自然,1999,402:83

13 Enright A J,Illopoulos I,K yrpides NC等.蛋白質相互作用圖譜

基於基因融合事件的完整基因組。自然,1999,402:86

14 Attw ood TK,Croning M DR,Flower DR等打印2S:數據庫

以前被稱為版畫。核酸研究,2000,28:22515內容LC,Ailey B,Hubbard T JP等SCOP :a結構分類2

蛋白質數據庫。核酸研究,2000年,28:257

亨裏克·桑頓·JM。PQS:蛋白質四級結構文件服務器。

趨勢生物化學,科學引文索引,1998,23:358

17 G uex N,Diemand A,Peitsch MC。所有人的蛋白質模型。趨勢

生物化學科學,1999,24:364

18 Bouck J,W ei Y u,G ibbs R等.基因索引數據庫2

是的。趨勢遺傳,1999,15:159

(2000209225已收到)

051?生物技術通信信,生物技術編號:logy vol . 12n o . 2 may 2006 5438+0

5.9

百度文庫VIP限時優惠現已開啟,享受6億+VIP內容。

現在就去拿

利用互聯網預測cDNA蛋白質產物的結構和功能。

利用Internet 3預測cDNA蛋白質產物的結構和功能

王滌平對童校勘的總結

(北京大學醫學部生物化學與分子生物學教研室,北京100083)

人類基因組計劃有望在兩三年內完成,我們將獲得許多序列已知但功能未知的cDNA。簡要介紹了利用互聯網上的信息資源,分析cDNA序列,預測其編碼的蛋白質的結構和功能的方法和常用工具。

互聯網,cDNA,蛋白質,結構和功能預測。

第1頁

cDNA的蛋白質產物:利用互聯網預測其結構和功能

王第二平,ONG第二軍

(中國北京大學健康科學中心,北京100083)

人類基因工程將在兩三年內完成,生物學家將獲得許多功能未知的cDNA序列。本文介紹了互聯網上壹些分析cDNA序列和預測其編碼的蛋白質的結構和功能的方法和工具。

展開全文