RNA-seq第七讲 | RNA-seq原始数据质量控制

高通量测序常常会在文库准备和测序环节出现影响后续序列比对、基因表达量估算等过程的质量问题,如低测序质量碱基、特异序列干扰、3′/5′端错误、PCR非特异扩增和测序接头污染等。其中一些问题可以通过序列质控、去接头、误差校正等策略去避免;但也有另外一部分潜在的问题,无法通过现有手段去解决,需要对结果进行详细讨论。

目前已有许多Read质量评估和预处理的软件。Read质量评估软件包括FastQC、PRINSEQ等,这些软件内置了质量过滤标准并且可将结果进行可视化,而且PRINSEQ还提供去接头等功能;Read预处理软件包括Trimmomatic、Cutdapt、FastX等。着重介绍了一些较为常用的软件,如FastQC、PRINSEQ和Trimmomatic。下面小编主要介绍了原始数据(FASTQ 文件)的质量控制。

1 FastQC

FastQC是一款基于Java的程序,即可用命令运行,也支持界面操作。并且被整合到高通量数据分析平台——Galaxy和Chipster。FastQC运行速度较快,上千万条Read仅需几分钟就可完成分析,输入的文件即可是fastq格式(或其压缩格式)、也可是SAM或BAM格式。FastQC软件除了计算读长的数量和质量外,还会分析每个碱基的质量和类别,读长长度、K-mer、模糊碱基、冗杂序列和重复序列。

命令:fastqc reads.fastq.gz

即可进行数据质量评估,结果会产生一个html结果报告和一个fastqc.gz的压缩文件,fastqc_report.html文件将fastqc_data.txt中的信息进行了可视化。FastQC提供了一些质量指标用于评估序列质量,评估结果放在summary.txt (通过、警告、失败)中,并在html中用特殊符号标示(图3.1)。注意所有评价结果均采用通用标准,可能不适用某些具有特殊要求的数据评估,如对某些RNA测序数据进行“序列重复水平”检测时会报告失败,这个结果很有可能是合理的,因为高重复序列在RNA测序中是正常的。FastQC会提供一些数据的基本信息,如Read的数量和长度、所使用编码的质量

2 PRINSEQ

PRINSEQ可基于网页使用,也可下载脚本文件通过命令运行,并且也整合在Chipster平台。PRINSEQ质控功能会分析Read的数量、长度分布、碱基质量分布、序列复杂度、GC含量、未识别碱基、polyA/T尾、重复序列和接头。如果存在这些问题,PRINSEQ的去接头和过滤功能提供了各种各样的方法来处理它们。PRINSEQ的输入文件接收未压缩的FASTQ、FASTA 和 QUAL格式文件。通过perl执行脚本prinseq-lite.pl提即可完成质量评估、去接头和过滤。在使用时可使用一条命令完成上面所有操作,其执行顺序不依赖你在命令中输入的顺序,而是内置在脚本中的顺序,可通过以下命令查看帮助文件以了解其执行顺序:

prinseq-lite.pl -help

PRINSEQ的质量评估结果提供生成txt格式也提供html格式。如果需要生成html格式文件,需要在命令行提示,如下面的命令会首先产生一个临时的graph文件:

prinseq-lite.pl -fastq reads.fastq -phred64 -out_good null -out_bad null -graph_data graph

当我们不执行任何预处理的时候,因此不会有任何需要接受或丢弃的Read,我们设置这些输出文件(-out_good和-out_bad)为null。命令中使用了质量得分-phred64,是因为该案例应用的Illumina公司旧版本质量编码体系(见下文)。该命令可能需要运行几个小时,若只需要统计某一些质量结果,其运行时间和内存消耗会大打折扣,如使用-graph_stats ld、gc、qd、ns、pt、ts这些选项,将会跳过序列的复杂性和二核苷酸评估、仅会报告重复序列总数量(而不是分别报告5’和3’的重复序列)。

上条命令产生的graph文件即可用于创建html文件的,参数-o会给文件添加前缀,所以以下这个命令生成了一个QCreport.html文件。

prinseq-graphs.pl -i graph -html_all -o QCreport

3 Trimmomatic

Trimmomatic是一款基于java的预处理工具。即可通过命令在终端运行,也可在高通量数据分析平台Galaxy 或 Chipster直接只用。Trimmomatic可以根据不同质量需求进行去接头和读长质量过滤,同样也可以根据质量需求、Read长度过滤数据,以及转换碱基质量编码体系。Timmomatic的输入文件可以是压缩或未压缩的FASTQ格式文件,通过在一条命令行先后列出所需要执行额质量预处理选项,即可一次全部执行,该软件支持多线程运算,其运行速度相当之快。

RNA-seq第七讲 | RNA-seq原始数据质量控制

图1 FasctQC质量评估结果提供基本统计数据(右)和不同质量指标的评判(左)

来源:生信人

微信加群

BioMan主要报道生命科学领域热点资讯、解读前沿进展、分享科研资料。我们组建了10余个交流群,欢迎大家进群交流。添加公众号博主微信:mBioMan(下方二维码),邀你进群。温馨提示:添加博主时,请备注一下研究方向+单位/学校!

RNA-seq第七讲 | RNA-seq原始数据质量控制


在看,也是一种习惯

生物医学科研方法

重磅推出 | 2020年中国学术不端及撤稿文章影响最大的8大人物正式出炉

2020-12-31 18:15:59

生物医学科研方法

【科研工具系列-7】文档下载神器:百度文库、豆丁网、道客巴巴等付费文档免费下载!

2020-12-31 18:16:32