筛选差异基因的方法

发布网友

我来回答

1个回答

热心网友

SAM方法由Tusher、Tibshirani、Chu于2001 年率先提出,是一类用于微阵列基因表达谱数据筛选差异表达基因的统计分析方法。SAM方法适用于不同设计和资料类型的微阵列数据差异表达基因的筛选。SAM方法一般采用permutation 算法估计假发现率( false discoveryrate , FDR) ,达到控制多重检验错误率的目的。Storey(2001)针对基因表达谱数据统计分析中的多重检验问题,提出了一种新的第Ⅰ类错误测度阳性假发现率(positive falsediscovery rate, pFDR) ,并就该测度的合理性进行了论证。Storey (2002)改进了控制重检验错误率的方法,提出了一种直接方法,即先凭借经验固定拒绝域,然后估计pFDR,若某基因的pFDR小于检验水准,则认为该基因为差异表达基因。多重检验为控制总Ⅰ类错误率( family-wise error rate,FWER)或FDR,可通过多种方法计算校正的P值; pFDR也有类似定义, Storey将其定义为q值。对于一个检验统计量T = t的q值定义为:
q - value ( t) = inf{Γα: t∈Γα}pFDR (Γα )
其中,Γα为拒绝域。由上式看出: q值为该假设刚好被拒绝所犯的最小第Ⅰ类错误。假定对m 个相同假设H1 , H2 , …, Hm 进行检验, T1 , T2 , T3 , …, Tm 为检验统计量,且Ti 是同分布,拒绝域为Γ,那么检验统计量T = t的q值可表示为:
q - value ( t) = inf{Γα: t∈Γα}pr(H = 0 | T∈Γα ) 。
而P值的定义为:
p - value ( t) = inf{Γα: t∈Γα}pr( T∈Γα |H = 0)
可见q值与P 值很相似。在同分布的条件下, q值就是一个Bayesian版的P 值,称为后验Bayesian P值。SAM方法以q值< 0.05作为筛选差异表达基因的标准。 Hochberg法是控制FWER的Step-up方法。Step-up方法基于顺序P值,将原始P值按照大小排序P(m )≥P(m 21)≥…≥P(1),从最大的(最不显著的) P值向最小的(最显著的) P 值寻找域值^k, 拒绝所有的P(1),P(2), …, P(^k)对应的原假设,使得多次检验所犯第Ⅰ类错误的概率小于检验水准α。假设如前,Hochberg法算法如下:
第一步:计算m 次假设检验对应的P值。
第二步:按照原始P值大小排序得到: P(1)≤P(2)≤…≤P(m ), 相对应的检验原假设为H0 (1), H0 (2) , …,H0 (m) 。
第三步:令^k =max{ k:P( k) ≤α/ (m- k + 1) },从k=m 开始,然后k =m - 1, 直到第一个满足P( k)≤α/(m - k + 1)的k,记为^k,拒绝所有的P(1), P(2), …, P(^k)对应的原假设。如果没有满足条件的k,则不能拒绝所有的原假设。
Hochberg法校正后P值为: .P( i) =mink = i, …, m{min( (m- k + 1) P( k), 1) }。 用FWER作为第Ⅰ类错误测度过于保守,为此Benjamini和Hochberg( 1995)提出了一种新的错误测度FDR。在检验统计量相互且有连续分布,即原始P值相互,且服从均匀分布U [0, 1 ]条件下,Benjamini和Hochberg(1995)提出了一种将FDR控制在水平m0α/m的方法(以下简称为BH法) ,从而也可将FDR控制在水平α。BH法如下:
第一步:计算m 个假设检验对应的P值。
第二步:按照原始P值大小排序得到: P(1)≤P(2)≤…≤ P(m ), 对应的检验原假设为H0 (1) , H0 (2) , …,
H0 (m) 。
第三步:从P(m )开始,估计^k =max{ k:P( k) ≤kα/m}。
第四步:如存在^k,拒绝所有的P(1), P(2), …, P(^k)对应的原假设。如果没有满足条件的k,则不能拒绝所有的原假设。
BH方法校正的P值为.P( i) =mink = i, …, m{min(mP( k) /k,1) }。
Benjamini和Yekutieli( 2001)发现在检验统计量之间存在相依结构时,即检验统计量在相应于原假设的统计量集合上具有PRDS(positiveregression depend-encyon single variable) ,BH方法仍可控制FDR在水平m0α/m。该发现具有重要的实际应用价值,因为在实际问题中,统计量间往往存在相依结构。
Bonferroni校正法、Sidak 校正法、Hochberg法、BH法,均以校正的P值.Pi <0.05作为筛选差异表达基因的标准。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com