生物信息學有哪些應用?
1,測序和序列比對)\x0d\ \測序是生物信息學的基礎和主要數據來源,可以是人類數據,也可以是其他數據。序列比對的基本問題是比較兩個或多個符號序列的相似性或不相似性。從生物學的本意來說,這個問題包含以下含義:從重疊的序列片段中重建DNA的完整序列;在各種實驗條件下從probedata確定物理和遺傳圖譜存儲,遍歷和比較數據庫中的DNA序列,比較兩個或兩個以上序列的相似性,在數據庫中搜索相關序列和子序列,找出核苷酸的連續生成模式,找出蛋白質和DNA序列中的信息成分,比較DNA序列的生物學特征,如局部插入、缺失(前兩者簡稱為indel)和置換。序列的目標函數獲得序列間突變集的最小距離加權和或最大相似度和,比對方法包括全局比對、局部比對、代溝懲罰等。動態規劃算法常用於比較兩個序列,適用於序列長度較小的情況,但不適用於海量基因序列(如人類DNA序列高達109bp)。即使算法的復雜度是線性的,也很難奏效。所以啟發式方法的引入是必然的,著名的BALST和FASTA算法以及相應的改進方法都是基於這個前提。\ x0d \ x0d \ 2。蛋白質結構比較與預測的基本問題\ x0d \ x0d \是比較兩個或兩個以上蛋白質分子空間結構的相似性或相異性。蛋白質的結構和功能密切相關。壹般認為,功能相似的蛋白質結構壹般都是相似的。蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(氨基酸)不等。蛋白質具有多種功能,如酶、物質的儲存和運輸、信號傳遞、抗體等。壹般認為,氨基酸的序列內在地決定了蛋白質的三維結構。蛋白質有四種不同的結構。研究蛋白質的結構和預測的原因如下:在醫學上可以了解生物的功能,可以找到對接藥物的目標,在農業上可以獲得更好作物的基因工程,在工業上可以使用酶的合成。之所以直接比較蛋白質的結構,是因為蛋白質的三維結構在進化中比壹級結構更穩定。同時,它也包含了比AA序列更多的信息。蛋白質的三維結構研究的前提是內部氨基酸序列與三維結構壹壹對應(不壹定成立)。物理上可以用最小能量來解釋。通過觀察和總結已知結構的蛋白質結構規律來預測未知蛋白質的結構。同源建模和線程方法屬於這壹類。同源性建模用於尋找相似度高的蛋白質結構(30%以上氨基酸相同),後者用於比較進化家族中不同的蛋白質結構。然而,蛋白質結構預測研究的現狀遠不能滿足實際需要。\x0d\3。基因識別與非編碼區分析的研究。\ x0d \ x0d \基因識別的基本問題是在給定基因組序列後,正確識別基因在基因組序列中的範圍和確切位置。非編碼區由內含子組成,壹般在蛋白質形成後被丟棄,但從實驗來看,如果去掉非編碼區,顯然DNA序列作為壹種遺傳語言,既包含在編碼區,又隱含在非編碼序列中。目前還沒有通用的指導方法來分析非編碼區的DNA序列。在人類基因組中,並不是所有的序列都被編碼,也就是某種蛋白質模板,編碼的部分只占人類基因總序列的3~5%。顯然,人工搜索這麽大的基因序列是不可想象的。檢測密碼區的方法包括測量密碼區密碼子的頻率、壹階和二階馬爾可夫鏈、ORF(OpenReadingFrames)、啟動子識別、HMM(HiddenMarkovModel)和GENSCAN、拼接比對等。X0d\\x0d\4、分子進化與比較基因組學\x0d\\x0d\分子進化是利用同壹基因序列在不同物種中的異同來研究生物的進化,構建進化樹。可以通過使用它們編碼的DNA序列或氨基酸序列,甚至通過比較相關蛋白質的結構來完成。前提是相似種族基因相似。通過對比,可以發現不同種族中哪些是相同的,哪些是不同的。早期的研究方法往往使用外部因素,如大小、膚色、肢體數量等。作為進化的基礎。近年來,隨著許多模式生物基因組測序任務的完成,人們可以從全基因組的角度研究分子進化。在匹配不同種族的基因時,我們壹般要處理三種情況:直系同源。旁系同源:功能不同的同種族基因;異種基因:通過其他方式在生物之間傳播的基因,如病毒註射的基因。該領域常用的方法是構建系統發育樹,通過基於特征(即氨基酸堿基在DNA序列或蛋白質中的具體位置)和距離(比對得分)的方法以及壹些傳統的聚類方法(如UPGMA)來實現。\x0d\5,重疊群組裝\按照現在的測序技術,每次反應只能檢測500個或更多的堿基對。例如,對人類基因的測量采用短槍法,這要求大量的短序列全部形成重疊群。逐漸拼接它們以形成更長的重疊群直到獲得完整序列的過程被稱為重疊群組裝。序列的重疊組是壹個NP完全問題。\x0d\6、遺傳密碼的起源\x0d\壹般對遺傳密碼的研究認為密碼子和氨基酸的關系是由生物進化史上的壹個偶然事件引起的,壹直固定在現代生物的同壹個祖先中,直到現在。與這種“凍結”理論不同,有人分別提出了選擇優化。化學和歷史是解釋遺傳密碼的三種理論。隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真實性提供了新的材料。\x0d\ x0d \ 7。基於結構的藥物設計\ x0d \人類基因工程的目的之壹是了解人體內約6.5438億個蛋白質的結構、功能、相互作用和各種人類疾病。尋求各種治療和預防的方法,包括藥物治療。基於生物大分子和小分子結構的藥物設計是生物信息學中壹個極其重要的研究領域。為了抑制某些酶或蛋白質的活性,我們可以在已知其蛋白質三級結構的基礎上,利用分子排列算法在計算機上設計抑制劑分子作為候選藥物。這個領域的目的是發現新的基因藥物,有很大的經濟效益。\x0d\ 8。生物系統的建模與仿真\x0d\隨著大規模實驗技術的發展和數據的積累,從全局和系統層面研究和分析生物系統並揭示其發展規律成為後基因組時代的又壹研究熱點——系統生物學。目前其研究內容包括生物系統的仿真(CurrOpinRheumatol,2007,463-70)、系統穩定性分析(非線性動力學Spsycholliffesci,2007,413-33)和系統魯棒性分析(ernstscheringresresfoundworkshop,2007,69-88)。以SBML(生物信息學,2007,1297-8)為代表的建模語言發展迅速,有布爾網絡(PLoSComputBiol,2007,e163),微分方程(MolBiolCell,2004,3841-62)。2007,3262-92)和離散動態事件系統(生物信息學,2007,336-43)已經應用於系統分析。許多模型是基於電路等物理系統的建模方法,許多研究試圖從信息流、熵、能流等宏觀分析思路來解決系統的復雜性(AnalQuantCytolHistol,2007,296-308)。當然,建立生物系統的理論模型還需要很長的時間。盡管實驗觀測數據在大量增加,但生物系統模型辨識所需的數據遠遠超過了當前數據的輸出能力。比如對於時間序列的芯片數據,采樣點數不足以使用傳統的時間序列建模方法,龐大的實驗成本是目前系統建模的主要難點。系統描述和建模方法也需要開拓性的開發。\x0d\9。生物信息學的技術方法研究\x0d\生物信息學不僅僅是生物學知識的簡單排列和數學、物理、信息科學等學科知識的簡單應用。海量的數據和復雜的背景導致了生物信息學背景下的機器學習、統計數據分析和系統描述的快速發展。巨大的計算量、復雜的噪聲模式和海量的時變數據給傳統的統計分析帶來了極大的困難,需要更加靈活的數據分析技術,如非參數統計(BMCBioinformatics,2007,339)和聚類分析(QualLifeRes,2007,1655-63)。高維數據的分析需要特征空間的壓縮技術,如偏最小二乘(PLS)。在計算機算法的開發中,需要充分考慮算法的時間和空間復雜度,利用並行計算、網格計算等技術擴展算法的可實現性。\x0d\10,生物圖像\x0d\為什麽沒有血緣關系的人長得這麽像?\x0d\外觀是由點組成的。重疊的點越多,看起來就越像。為什麽兩個不相關的人像點會重疊?\x0d\的生物學基礎是什麽?基因相似嗎?不知道,希望專家解答。\x0d\11,其他\x0d\如基因表達譜分析、代謝網絡分析;基因芯片設計和蛋白質組學數據分析逐漸成為生物信息學中新的重要研究領域。在學科方面,由生物信息學衍生出來的學科,包括結構基因組學、功能基因組學、比較基因組學、蛋白質的研究、藥物基因組學、中藥基因組學、腫瘤組學、分子流行病學和環境基因組學,已經成為系統生物學的重要研究方法。從目前的發展不難看出,基因工程已經進入後基因組時代。對於如何應對與生物信息學密切相關的機器學習和數學中可能出現的誤導,我們也有了清晰的認識。