終於有空整理之前的東西。
說繪圖方法之前先要了解,轉錄組的PCA圖的意義是什麽?
為了檢測樣本之間的離散程度,也就是重復之間差的大不大。
1、繪圖之前先解答樣本重復的問題。
轉錄組測序壹般情況下需要是三個重復。但是對於完全沒有接觸過測序的人來講,就很疑惑:轉錄組測序為啥壹定要生物學重復呢?我不要行不行?為啥大部分要3個重復?4個、5個、666個重復行不行呢?怎麽樣算重復?3只老鼠各測壹次算3個重復,還是1只老鼠測三次算3個重復?壹堆問題就很糾結,著實讓人頭大呀~~~
第壹個問題:壹定要生物學重復嗎?
回答:最好要。
那什麽情況下可以沒有生物學重復呢?
1)科研經費太少,沒錢測序。(這種情況就幹脆不要測了,測1個就很雞肋。)
2)實驗證據絕對充分,然後想裝點壹下門面,看起來花哨壹些。(那實驗都做那麽好了,那就多測幾個嘛~要不就幹脆不要測了。要不然本來能發nature,結果妳“貂尾續狗”只能發個plosone,就很沒必要。)
第二個問題:壹定要3個重復嗎?那我測2個或者4個行不行?
回答:重復的數量壹定要≥3。
1)先回答設置重復的目的是什麽?是為了:消除組內誤差;增強結果的可靠性;檢測離群樣本。
1.1) 假如妳給小鼠餵了壹種藥,不同小鼠對藥的反應肯定不同,那麽多個樣本就可以消除小鼠之間本身的差異。
1.2)再假如,妳給3只小鼠餵了藥,但是其中壹只就是天生免疫力極強,藥物對它的影響極小。另外兩只就比較相似,那後面分析的時候妳就要把免疫力極強的那壹只刪掉,因為它的數據會對分析結果造成極大的偏差。
1.3)但是,如果妳只有2只老鼠,其中壹只天生免疫力極強,藥物對它的影響極小。拿到測序數據壹分析發現兩只差別很大,那妳選哪壹只呢?有人說,那我肯定選免疫力正常的那壹只呀。 哎呀 這個問題,真的是。。。只有測序了之後妳才能知道免疫力到底強不強,妳給老鼠餵藥之前妳是不知道人家身體到底好不好的。這就是為啥不要選2個的原因。
2)理論上來說重復越多越好,但是考慮實際情況,設置3個重復還是比較普適的方法。
具體原因參見以下文獻:RNA-seq differential expression studies: more sequence or more replication?
3)動物或者植物之間樣本的差異還是比較大的,所以可以多測壹點,例如可以做5-10個重復之類的。土豪的話妳可以測任何妳覺得吉利的數字,譬如66、88、996甚至2333等等。(玩笑話哈 )
第三個問題:3只老鼠分別測序算重復,還是1只老鼠測3次算重復?
回答:3只老鼠各測壹次。
搞清楚生物學重復和技術重復。(自行百度)
2,繪制PCA圖
載入繪圖的包
設置運行路徑並且導入妳之前已經計算完的FPKM數據。
計算每個PCA的各項指數。
利用ggscatter對PC進行繪圖
或者可以試試3D繪制散點圖
3D繪圖的不好的地方就是,scatterplot3d裏面沒有參數讓妳展示每個點的名字,就很郁悶。
如果想實現就試試下面的方法,我也是google出來的。