當前位置:股票大全官網 - 股票投資 - 篩選差異基因的方法

篩選差異基因的方法

SAM法最早由Tusher,Tibshirani和Chu於2001提出,是壹種從微陣列基因表達譜數據中篩選差異表達基因的統計分析方法。SAM方法適用於篩選不同設計和數據類型的微陣列數據中的差異表達基因。SAM方法壹般使用排列算法來估計誤發現率(FDR),從而控制多次測試的錯誤率。Storey(2001)針對基因表達譜數據的統計分析提出了壹種新的陽性錯誤發現率(PFDR ),並論證了該測度的合理性。Storey (2002)對控制重測錯誤率的方法進行了改進,提出了壹種直接的方法,即先通過經驗固定拒絕域,然後估計pFDR。如果基因的pFDR小於測試水平,則認為該基因是差異表達的。為了控制總的家族誤差率(FWER)或FDR,多重測試可以通過各種方法計算校正的P值。PFDR也有類似的定義,斯托裏將其定義為Q值。檢驗統計量T = t的q值定義為:

q值(t)= INF {γα:t∈γα} pFDR(γα)

其中γ α是拒絕域。從上式可以看出,q值是假設剛被拒絕時所產生的最小I型誤差。假設檢驗M個全同假設H1,H2,…,Hm,T1,T2,T3,…,t M為檢驗統計量,Ti獨立同分布,拒絕域為γ,則檢驗統計量T = t的q值可表示為:

q值(T)= INF {γα:T∈γα} pr(H = 0 | T∈γα).

並且p的值被定義為:

p值(T)= INF {γα:T∈γα} pr(T∈γα| H = 0)

可以看出,q值和p值非常相似。在獨立同分布條件下,Q值是P值的貝葉斯版本,稱為後驗貝葉斯P值。SAM方法采用q值

第壹步:計算M個假設檢驗對應的P值。

第二步:根據原始P值的大小,P(1)≤P(2)≤…≤P(m),對應的檢驗假設有H0 (1),H0 (2),…,H0 (m)。

第三步:設k=max {k: P( k)≤α/(m-k+1)},從k = m開始,然後k =m-1,直到第壹個滿足P( k)≤α/(m-k+1。如果沒有滿足條件的K,所有原始假設都不能被拒絕。

霍赫伯格法校正後的p值為:。p (i) = mink = i,…,m {min ((m-k+1) p (k),1)}。用FWER作為第壹類誤差測度過於保守,於是Benjamini和Hochberg( 1995)提出了壹種新的誤差測度FDR。Benjamini和Hochberg(1995)提出了在檢驗統計量相互獨立且具有連續分布的條件下,將FDR控制在m0α/m水平的方法(以下簡稱BH方法),即原始P值相互獨立且服從均勻分布U [0,1]。BH方法如下:

第壹步:計算m個假設檢驗對應的p值。

第二步:根據原始P值的大小,我們可以得到:P(1)≤P(2)≤…≤ P(m),對應的檢驗假設有H0 (1),H0 (2),…,

H0(男).

第三步:從P(m)開始估計k = max {k: p (k) ≤ kα/m}。

第四步:如果有k,拒絕p (1),p (2),…,p (k)對應的所有原始假設。如果沒有滿足條件的K,所有原始假設都不能被拒絕。

BH法校正後的p值為。p (I) = mink = I,…,m {min (MP (k)/k,1)}。

Benjamini和Yekutieli( 2001)發現,當檢驗統計量之間存在依賴結構,即檢驗統計量對原假設對應的統計量集合具有PRDS(正回歸依賴-encion單變量)時,BH方法仍然可以將FDR控制在M0α/m的水平..這壹發現具有重要的實際應用價值,因為在實際問題中,統計量之間往往存在依賴結構。

Bonferroni校正法、Sidak校正法、Hochberg法、BH法都使用校正後的p值。圓周率