{:toc}
直接由bcl序列转化而来的fastq文件,此时被称为原始数据。
在第一章中介绍了fastq文件的格式,其中每第四行代表这其对应read的测序质量,由于种种原因,我们获得原始获数据中包含一下低质量的reads(即不可靠的序列),为了保证后续分析的准确性,我们需要将这些reads剔除。
测序的目的是为了知道基因的序列,但是测序仪在实际工作中可能会给出“错误”的结果,影响数据质量的因素主要包括:
-
实验设计部分
- 文库制备方法加上正反向引物的选择,会使特定区域出现核苷酸替换、插入和删除错误
- pcr循环的次数越高,发生扩增错误的几率也越高
- DNA聚合酶的效率和特异性导致在reads的尾部,测序质量通常较低
- reads的前10bp容易发生核苷酸替换类错误
- 样本的保存
- 不论组织还是血液,离体后内部的DNA很容易降解,导致测序质量较低,数据量较小
-
DNA链损伤
-
测序错误
-
系统误差
- 实验人员 + 实验设备 + 分析流程(比对错误)
去除掉这些错误信息,我们才能获得准确的分析结果,在临床检测中这一点尤为重要。
通常包括:
- read各个位置的碱基质量值分布
- 碱基的总体质量值分布
- read各个位置上碱基分布比例,目的是为了分析碱基的分离程度
- GC含量分布
- read各位置的N含量
- read是否还包含测序的接头序列
- read重复率,这个是实验的扩增过程所引入的
- adapter 是啥?
推荐软件
- FastQC 查看数据质量,提供html的报告(十分简陋)
- FastQC的一个结果模板:Online report
- 这个建议细看一下每张图的含义
- NGSQCToolkit 实现去接头和trim的功能
- Cutadapter + Trimmomatic 从名字就看来是干啥的了
下面隆重推荐:
- fastp
- 同时实现上述所有软件的功能
- 对paired数据,理论上不需要事先知道接头序列即可去接头
- 而且比他们快
一般来说,对于二代测序,最好是达到Q20的碱基要在95%以上(最差不低于90%),Q30要求大于85%(最差也不要低于80%)。
- UMI
**比对其实应该对应的单词是alignment,**但往往特指低通量的序列之间的比较。比如10条序列,进行多序列比对就是我们常说的 multiple alignment问题;如果是2条序列的比对,我们经常称其为pairwise alignment.
**回贴通常对应的单词应该是mapping,**一般指高通量的数据去寻找基因组的位置。比如我们进行测序以后,有10M对read pair,要去寻找他们在基因组上的位置,这个时候就是一个典型的mapping问题。
因为测序的原因,我们测得的序列(sequence)的长度,通常较短,具体长度和测序仪相关,目前比较常见的是NGS(next generation sequencing,NGS)下一代测序技术的数据,测序长度通常在150bp左右,此时我们需要使用mapping 软件,将这些短的片段回帖到参考基因组上。
Resources | URL |
---|---|
MAQ | http://maq.sourceforge.net/ |
SOAPaligner/soap2 | http://soap.genomics.org.cn/index.html |
Bowtie | http://bowtie-bio.sourceforge.net/index.shtml |
BLAT | http://genome.ucsc.edu/cgi-bin/hgBlat |
BWA | http://maq.sourceforge.net/ |
BFAST | http://bfast.sourceforge.net |
SHRiMP | http://compbio.cs.toronto.edu/shrimp. |
备注:
- SOAP, Short Oligonucleotide Analysis Package;
- MAQ, Mapping and Assembly with Quality;
- BLAT, BLAST-like alignment tool;
- BWA, Burrows-Wheeler Alignment;
- BFAST, BLAT-like Fast Accurate Search Tool;
- SHRiMP, The Short-Read Mapping Package.
RNA mapping 常用软件:
GSNAP,STAMPY,STAR,HISAT2,Bowtie2
Bowtie2和HISAT2用FM-index,而GSNAP,STAMP和STAR是运用哈希表和后缀数组算法
目前
- 对于ChIP-seq, RNA-seq,多使用bowtie2,因为它快速,下游结合cufflinks等结果验证率很高。
- 对于SNP,Indels,CNV, methylation分析,使用BWA,下游结合GATK可能会好一点。
- 来自
RNA-Seq数据比对和DNA-Seq数据比对有什么差异? RNA-Seq数据分析分为很多种,比如说找差异表达基因或寻找新的可变剪切。如果找差异表达基因单纯只需要确定不同的read计数就行的话,我们可以用bowtie, bwa这类比对工具,或者是salmon这类align-free工具,并且后者的速度更快。
但是如果你需要找到新的isoform,或者RNA的可变剪切,看看外显子使用差异的话,你就需要TopHat, HISAT2或者是STAR这类工具用于找到剪切位点。因为RNA-Seq不同于DNA-Seq,DNA在转录成mRNA的时候会把内含子部分去掉。所以mRNA反转的cDNA如果比对不到参考序列,会被分开,重新比对一次,判断中间是否有内含子。
作者:hoptop
-
bam 和 sam 文件格式介绍
- bam是二进制文件
- sam为文本文件
- sam,bam格式介绍详细
- The Sequence Alignment/Map format and SAMtools
-
创建 bam index
- samtools
- sambamba
- 速度快