玩转qPCR系列 | 基因表达数据分析示例(2)

       本期继续介绍使用OriginPro v9.1进行统计分析

 

Student’s t-test

       之前讲过,t检验适用于两组数据之间的比较,比如0 h vs 2 h。假如关注点是处理因素是否能够增加target表达量,那么就对0h vs 2h,0h vs 4h和0 h vs 6h进行paired t-test(数据来源于同一样本不同的时间点)。接下来示范0h vs 2h的检验过程,其他比较的过程都是同样的操作。

       选择”Statistics”→“Hypothesis Testing”→“Pair-Sample t Test”。“Input”中点击右箭头分别选择待比较的两组数据0h和2h。“t-Test for Mean”中的“Test Mean”一般都是0。由于我们要检验处理因素是否能够增加表达量,而非是否能够改变表达量,因此“Alternate Hypothesis”中选择“Mean1-Mean2<0”,这来源于一个隐含的背景信息——处理因素即便不会增加表达量,也不太可能会降低表达量。这样做会提高检验的势(power),使得更容易检验出显著的差异。

玩转qPCR系列 | 基因表达数据分析示例(2)

       “Significance Level”一般为0.05或0.01,依据实验目的而定。如果要输出95%置信区间,那就需要勾选并输入95。一般情况下,建议进行Power Analysis,假如没有拿到显著的结果,它可以提供额外信息,帮助判断是否是样本量不足导致的。勾选“Actual Power”并输入显著水平0.05。勾选“Hypothetical Power”并输入相应的样本数量(可写多个,用空格间隔),可以给出在对应的样本量下能够达到的power,便于后续试验的改进。如果想看直方图和箱线图,在“Plot”中勾选相应选项,箱线图对基因表达数据还是很有用的。点击“OK”。

玩转qPCR系列 | 基因表达数据分析示例(2)

       “Prob<t”告诉我们,在0.05的检验水平上,两个组的数据没有显著的差异;值得注意的是,这个值也就比0.05大了一点而已。95%CI是[-2.32, 0.36]。PowerAnalysis中可以看到在每组5个数据的情况下,power是0.51,也就是说在备选假设成立的前提下,以现有的样本量只有一半的概率能够得到显著的结果。这种情况常常是由于某一组的数据离散程度较高(SD较大),Box Plot中很明显的看出0h组中数据分布较散。当样本量提升至10个时,power就能够提升到八成(理想区间的最低点)以上,这就为后续试验的改进提供了理论支撑。

       对0h vs 4h和0h vs 6h做同样的t检验分析,其“Prob<t”均小于0.05,即均有显著差异。综合三个结果来判断,是可以得出处理因素能够增强表达的结论的。只不过0 h vs 2 h可能还需要后续试验来进一步确证。

ANOVA

       假如要检验的论断是“处理因素随着时间逐渐增强target表达量”,那么就需要对四组数据进行两两比较,ANOVA是更好的选择。

       选择”Statistics”→“ANOVA”→“One-way ANOVA”。“Input Data”中选择“Raw”,“Name”中填写处理因素的名称,比如时间。一共要处理4组数据,也就是有4个水平(Level),分别填写名称和选择相应的数据。

玩转qPCR系列 | 基因表达数据分析示例(2)

       “Mean Comparison”中选择事后检验的方式,之前讲过“Fisher LSD”和“Tukey”,这里两者都勾选,以便示范不同的效果。要强调的是,决不可将所有的事后检验方法都选上,然后根据分析结果与自己的预期符合程度来进行选择,这属于“数据操纵”,很容易犯错误。建议在实验数据确定后就要根据数据特点和实验目的来确定,而不是依据自己的偏好。

玩转qPCR系列 | 基因表达数据分析示例(2)

       “Tests for Equal Variance”中选择合适的方法进行方差同质性检验。上一期讲过两组数据的检验方法,它采用的是F检验,要求数据正态分布。这里的Levene’s Test和Brown-Forsythe Test属于非参检验方法,无需要求正态分布。Levene’sTest使用mean值,因此对离群值outlier很敏感;而Brown-Forsythe Test使用median,因此在outlier存在时后者更适用。这里选择Brown-ForsytheTest。“Power Analysis”与之前类似,“Hypothetical Sample Size”中填写的是数据总数量,本次分析的数据量是4 x 5=20。

玩转qPCR系列 | 基因表达数据分析示例(2)

        ANOVA中提供的作图方式比较多样,建议勾选“Means Plot(SE as Error)”和”Means Comparison Plot”,便于直观显示统计分析结果。点击“OK”。

       首先查看ANOVA结果,“Prob>F”的结果小于0.05,这说明四组数据中至少有两组存在显著的统计学差异。

玩转qPCR系列 | 基因表达数据分析示例(2)

       接下来查看事后检验的结果。“Sig”为1表示两个mean值有显著差异,为0则表示没有。“Tukey Test”结果表明只有0 h vs 4 h和0 h vs 6 h有显著差异,但“Fisher LSD Test”则多出了两个显著的比较结果,由此也可以看出“Fisher LSD Test”检验效力更高,但同时也更容易犯错。对于多次比较的检验,更适用TukeyTest。“LCL”和“UCL”分别给出95%CI范围。

       另外要注意的是,虽然之前0 hvs 2 h的t-test结果也是不显著,但p-value非常接近0.05;这里两种事后检验方法给出的相应”Prob”却要比0.05大很多。这表明可能会出现t-test和ANOVA“相矛盾”的现象,这是合情合理的。同时也再次印证了之前的建议——试图采用不同检验方法对同一实验数据分析的做法是不合理的,需要提前判断并做出选择。

玩转qPCR系列 | 基因表达数据分析示例(2)

       方差同质性检验的结果直接看“Prob>F”,只要大于0.05,就是可以接受的。“Power”分析表明目前的样本数量是相对足够的(超过了0.8)。

玩转qPCR系列 | 基因表达数据分析示例(2)

       左图给出了不同组的mean值分布情况,可以看出每个组mean的变化趋势;由于其95%CI是由t分布给出的,因此从这里也可以判断t检验的结果。右图是Tukey Test均值差的分布情况,检验结果显示更直观。

玩转qPCR系列 | 基因表达数据分析示例(2)

 

       至此,第二部分qPCR的标准化就全部结束了,接下来会介绍第三部分,qPCR的一些典型应用。在此之前,我想通过一到两篇发表文献的Method部分来展示其如何对应MIQE,并对可能存在的不足进行讨论,供大家参考。

       下一期敬请期待。

生物医学科研方法

Nature Cell Biology | 重大进展!清华大学江鹏团队首次发现体内天冬酰胺的感应器

2021-1-15 14:54:58

生物医学科研方法

息肉有这几种,哪些需要切除?切除后还要注意什么?

2021-1-15 17:04:37