當前位置:股票大全官網 - 基金投資 - 轉錄組數據繪制PCA圖以及生物學重復的相關問題

轉錄組數據繪制PCA圖以及生物學重復的相關問題

很久沒有跟新啦~~~忙著基金。。基金。。還是基金,然後就是文章。。文章。。還是文章。

終於有空整理之前的東西。

說繪圖方法之前先要了解,轉錄組的PCA圖的意義是什麽?

為了檢測樣本之間的離散程度,也就是重復之間差的大不大。

1、繪圖之前先解答樣本重復的問題。

轉錄組測序壹般情況下需要是三個重復。但是對於完全沒有接觸過測序的人來講,就很疑惑:轉錄組測序為啥壹定要生物學重復呢?我不要行不行?為啥大部分要3個重復?4個、5個、666個重復行不行呢?怎麽樣算重復?3只老鼠各測壹次算3個重復,還是1只老鼠測三次算3個重復?壹堆問題就很糾結,著實讓人頭大呀~~~

第壹個問題:壹定要生物學重復嗎?

回答:最好要。

那什麽情況下可以沒有生物學重復呢?

1)科研經費太少,沒錢測序。(這種情況就幹脆不要測了,測1個就很雞肋。)

2)實驗證據絕對充分,然後想裝點壹下門面,看起來花哨壹些。(那實驗都做那麽好了,那就多測幾個嘛~要不就幹脆不要測了。要不然本來能發nature,結果妳“貂尾續狗”只能發個plosone,就很沒必要。)

第二個問題:壹定要3個重復嗎?那我測2個或者4個行不行?

回答:重復的數量壹定要≥3。

1)先回答設置重復的目的是什麽?是為了:消除組內誤差;增強結果的可靠性;檢測離群樣本。

1.1) 假如妳給小鼠餵了壹種藥,不同小鼠對藥的反應肯定不同,那麽多個樣本就可以消除小鼠之間本身的差異。

1.2)再假如,妳給3只小鼠餵了藥,但是其中壹只就是天生免疫力極強,藥物對它的影響極小。另外兩只就比較相似,那後面分析的時候妳就要把免疫力極強的那壹只刪掉,因為它的數據會對分析結果造成極大的偏差。

1.3)但是,如果妳只有2只老鼠,其中壹只天生免疫力極強,藥物對它的影響極小。拿到測序數據壹分析發現兩只差別很大,那妳選哪壹只呢?有人說,那我肯定選免疫力正常的那壹只呀。 哎呀 這個問題,真的是。。。只有測序了之後妳才能知道免疫力到底強不強,妳給老鼠餵藥之前妳是不知道人家身體到底好不好的。這就是為啥不要選2個的原因。

2)理論上來說重復越多越好,但是考慮實際情況,設置3個重復還是比較普適的方法。

具體原因參見以下文獻:RNA-seq differential expression studies: more sequence or more replication?

3)動物或者植物之間樣本的差異還是比較大的,所以可以多測壹點,例如可以做5-10個重復之類的。土豪的話妳可以測任何妳覺得吉利的數字,譬如66、88、996甚至2333等等。(玩笑話哈 )

第三個問題:3只老鼠分別測序算重復,還是1只老鼠測3次算重復?

回答:3只老鼠各測壹次。

搞清楚生物學重復和技術重復。(自行百度)

2,繪制PCA圖

載入繪圖的包

設置運行路徑並且導入妳之前已經計算完的FPKM數據。

計算每個PCA的各項指數。

利用ggscatter對PC進行繪圖

或者可以試試3D繪制散點圖

3D繪圖的不好的地方就是,scatterplot3d裏面沒有參數讓妳展示每個點的名字,就很郁悶。

如果想實現就試試下面的方法,我也是google出來的。