2月20日,青島大學數據科學與軟件工程學院教授、博士、副院長李金華在CIO時代APP微講座欄目做了題為《大數據與生物信息學的應用研究與實踐》的主題分享。他講述了大數據領域的背景和相關的科研工作(生物信息學大數據的教學和研究工作)。
關鍵詞:?CIO時代APP?微課
2月20日,青島大學數據科學與軟件工程學院教授、博士、副院長李金華在CIO時代APP微講座欄目做了題為《大數據與生物信息學的應用研究與實踐》的主題分享。他講述了大數據領域的背景和相關的科研工作(生物信息學大數據的教學和研究工作)。
壹.相關背景
(壹)生物信息學的背景
眾所周知,生物信息學是伴隨著20世紀80年代末人類基因組計劃的啟動而出現的壹門畸形的交叉學科。通過生物實驗數據的獲取、處理、存儲、檢索和分析,可以說明數據的生物學意義。目前,生物信息學發展的主要動力來自分子生物學,生物信息學的研究主要集中在核苷酸和氨基酸序列的存儲、分類、檢索和分析。因此,目前的生物信息學可以狹義地定義為將計算機科學和數學應用於生物大分子信息的獲取、處理、存儲、分類、檢索和分析,以理解這些生物大分子信息的生物學意義的交叉學科,本質上是壹門理論概念和實際應用並重的學科。
生物信息學的產生和發展已經超過30年。美國人類基因組計劃對基因組信息學的定義是壹個學科領域,它包括基因組信息的獲取、處理、存儲、分發、分析和解釋的所有方面。自1990年美國啟動人類基因組計劃以來,人類和模式生物的基因組檢測發展迅速,已提前完成約40種生物的全基因檢測和工作。截至目前,僅美國在GeneBank註冊的DNA序列總數就已超過70億個堿基對。此外,到目前為止,已經用不同的分辨率測量了超過10,000個蛋白質的空間結構。基於cDNA序列測試建立了超過百萬個EST數據庫,基於這些數據衍生和整理了超過5000個數據庫。
所有這些構成了生物數據的海洋。這種科學數據的快速、海量積累在科學發展史上是前所未有的,但數據不等於信息和知識。當然是信息和知識的來源,關鍵在於如何挖掘。與呈指數級增長的生物數據相比,人類知識的增長非常緩慢。壹方面是海量的數據,另壹方面是渴望醫學、醫藥、農業、環境等方面的新知識,幫助人們改善生活環境,提高生活質量。這就構成了很大的矛盾。這種矛盾催生了壹門新的交叉學科,這就是生物信息學。
信息學大數據的研究工作主要以分析海量多元組學數據為目標,為生命科學帶來了前所未有的機遇,在研究基因功能、疾病機制、精準醫療等方面具有重要意義。大數據的規模性、多樣性、高速性等特點給生物信息學帶來了新的挑戰。在數據計算中,迫切需要解決中小型實驗室對計算資源的彈性需求。在數據分析方面,迫切需要整合多組學分析系統來解決生物學問題。缺乏相應的生物學工具是大數據時代生命科學領域的主要瓶頸。
(二)青島大學生物信息學研究背景
1.2009年,位於武漢大學的軟件工程國家重點實驗室在青島舉辦暑期班。這是西方學者第壹次提到計算機生物學的跨學科研究,主要包括基因測序和生物大數據可視化。
2.2011此後,青島大學與深圳華大基因研究院聯合成立了青島大學華大基因創新班,培養大數據時代生物遺傳學和生物信息學領域的拔尖創新人才。在大學生入學後的壹個月內,從9000多個不同專業中選出30名學生。按照厚基礎、寬口徑、綜合性、國際化的要求,基礎課和專業課階段有兩個選修模塊,壹個是醫學檢驗,壹個是信息處理。
3.2016與青島大學醫學部教授合作,獲兩個學科生物信息學碩士學位。研究方向:序列與基因組學分析、藥物研發、生物網絡整合、數據挖掘與數據分析(主要在生物應用領域)、生物信息學軟件方法學研究。
二、生物信息學研究的主要內容、主要問題和關鍵技術
(壹)生物信息學研究的主要內容
1.基因組學研究
基因組學包含了形成和維持壹個活生物體所必需的基本信息,這些信息通過細胞中的各種分子生物學反應轉化為現實生活現象。基因組的壹部分編碼蛋白質和RNA,另壹部分調節這些大分子的表達。表達的蛋白質和RNA折疊成高度特異的三維結構,這些功能在體內特定位置實現。這些過程的很多細節都是在分子生物學研究的實驗室裏揭示出來的,形成了大量的數據,存儲在數據庫裏。生物信息學試圖從這些數據中提取新的生物學信息和知識,是壹門植根於全面深入的實驗事實和數據的理論生物學。
2.生物信息的收集、存儲、管理和提供。
包括建立國際基礎生物信息庫和國際生物信息傳輸網絡系統;建立生物信息數據質量評估和檢測體系;生物信息在線服務;生物信息可視化與專家系統。
3.基因組序列信息的提取和分析。
包括基因的發現和鑒定,如利用國際EST數據庫和各自實驗室測定的相應數據,通過大規模並行計算發現新的基因、新的SNP和各種功能位點;分析基因組中非編碼區的信息結構,提出理論模型並闡明這些區域的重要生物學功能;分析和比較模式生物全基因組的信息結構;利用生物信息研究遺傳密碼的起源、基因組結構的進化、基因組空間結構與DNA折疊的關系、基因組信息與生物進化的關系。
4.生物信息學分析技術和方法的研究。
包括開發有效的軟件、數據庫和壹些能夠支持大規模繪圖和測序需要的數據庫工具,如電子網格和其他遠程通信工具;改進現有的理論分析方法,如統計方法、模式識別方法、隱馬爾可夫過程方法、神經網絡方法、復雜性分析方法、密碼學方法、多序列比較方法等。創造所有適用於基因組分析的新方法和新技術。包括引入復雜系統分析技術和信息系統分析技術;
5.應用開發研究。
收集與疾病相關的人類基因信息,開發檢測患者樣本序列信息和基於序列信息選擇表達載體和引物的技術,建立動植物良種繁育相關數據庫和大分子設計、藥物設計相關數據庫。
(2)研究問題
1.生物大數據的存儲和管理
包括生物大數據的存儲結構、存儲標準和管理技術。生物大數據數量龐大,結構復雜,存儲標準多樣,有非結構化數據、半結構化數據、結構化數據等多種數據結構。如何選擇分布式文件系統、分布式數據組合和分布式並行數據庫系統也是生物大數據存儲和管理技術的主要問題之壹。
2.生物大數據可視化
生物大數據因其數量巨大而具有普遍的生物學意義。合理的可視化可以幫助生物學家快速理解和分析生物數據。
3.生物大數據的分析和處理
整合多個組學數據進行計算和分析,解決了實際的生物學問題。
(3)關鍵技術
生物大數據領域的關鍵技術有:
1.生物大數據標準化、集成和融合技術
研究組織學數據、醫學數據和健康數據的集成融合關鍵技術,研發組織學、醫學和健康數據的信息模型和集成引擎,研究基於國內外標準和規範的消息和文檔的接口實現技術,基於下壹代互聯網技術的網絡安全技術和高通量傳輸技術。
2.生物大數據表達索引、搜索和存儲訪問技術。
重點突破生物大數據資源的描述和並行訪問技術,構建高效索引和可靠可擴展的生物大數據存儲管理體系,基於基於語義的生物大數據資源檢索、生物醫學數據關聯搜索等關鍵技術,建立生物大數據資源搜索獲取服務體系。
3.心血管疾病和腫瘤疾病的大數據處理分析及應用研究。
針對心血管疾病和腫瘤疾病,整合電子病歷、影像、臨床檢驗數據等各類數據(覆蓋50萬以上個體,總數據量50TB),開展醫療大數據的處理、存儲、分析和應用研究,為提升重大疾病診療水平提供大數據支撐。
4.基於區域醫療衛生大數據處理的分析與應用。
選擇覆蓋超過100萬個體的區域醫療衛生數據,數據總量不低於100TB。通過加工、存儲、分析和整合,構建健康服務知識庫和支撐平臺,提供應用服務。
5.組織大數據中心和知識庫的建設和服務技術。
整合包括基因組和蛋白質組在內的組學數據,總數據量不低於100TB,至少60%的數據提供外部訪問,重點突破個人基因組可視化技術、組學註釋和疾病風險評估技術,建立組學大數據知識庫和搜索引擎、數據挖掘和可視化分析平臺。