转录组测序问题集锦

转录组测序问题集锦

转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。

Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序, Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA全长测序。但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高 ,而Illumina Solexa GA IIx和AB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。

转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区 SNP研究),非编码区域功能研究(Non-coding RNA研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。

研究转录组的方法有哪些?

目前研究转录组的方法主要三种,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,基于sanger测序法的SAGE (serial analysis of gene expression)、LongSAGE和MPSS(massively parallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq。

转录组测序比其他研究方法有哪些优势?

(1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题;

(2)灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本;

(3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNP,UTR区域。

(4)检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。

转录组测序有什么样的样品要求?

(1) 样品纯度要求: OD值应在1.8至2.2之间;电泳检测28S:18S至少大于

1.8。

(2)样品浓度: total RNA浓度不低于400 ng/μg。

(3)total RNA样品请置于-20℃保存;请提供total RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。

(4)样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm封口。建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

mRNA的纯化分离方法?

进行mRNA研究中,首先需要对样本进行总RNA抽提,抽提得到的RNA除含有mRNA外,还含有rRNA和tRNA,为防止这两类RNA对转录组研究的影响,因此我们需要对mRNA进行分离纯化。真核细胞的mRNA分子最显著的结构特征是具有5’端帽子结构(m7G)和3’端的Poly(A)尾巴。绝大多数哺乳类动物细胞mRNA的3’端存在20-30个腺苷酸组成的Poly(A)尾,通常用Poly(A+)表示。这种结构为真核mRNA的提取,提供了极为方便的选择性标志,寡聚(dT)纤维素或寡聚(U)琼脂糖亲合层析分离纯化mRNA的理论基础就在于此。 mRNA的分离方法较多,其中以寡聚(dT)-纤维素柱层析法最为有效,已成为常规方法。此法利用mRNA 3’末端含有Poly(A+)的特点,在RNA流经寡聚(dT)纤维素柱时,在高盐缓冲液的作用下,mRNA被特异地结合在柱上,当逐渐降低盐的浓度时或在低盐溶液和蒸馏水的情况下,mRNA被洗脱,经过两次寡聚(dT)纤维柱后,即可得到较高纯度的mRNA。

使用Solexa进行转录组测序时,样本RNA如何进行片段化处理? cDNA插入片段长度的选择?

Solexa转录组测序文库构建时采用专用的打断Buffer对RNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。mRNA-seq可以既可以采用单端测序(single read) 还可以采用双端测序( paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所获得的产物长度比插入的cDNA长度要长。

文库准备过程中,反转录引物的选择?

在进行cDNA合成过程中,经常用到的有两种引物:oligo dT引物和随机引物。

在RNA反转录过程中使用oligo dT引物进行扩增可以保证扩增产物包括mRNA的3'末端,减少rRNA的干扰,但是采用oligo dT 引物扩增有一个问题,就是扩增片段的长度偏短和扩增产物所包含的信息量偏向3’端的问题,之所以有长度偏短,一方面与RNA完整性有关,但最重要的限制在于逆转录酶的延伸能力。 用

oligo dT 引物扩增出来的片段长度短,虽然都有mRNA的3'端,但是序列信息多位于3'-UTR附近,若扩增序列太短,则有用信息很少,不利于序列的识别和分析。

使用Random primer扩增,虽然扩增偏短长度也很短, 但是由于它的逆转录并不一定在mRNA的末端起始,而是在随机位置起始,所以它的扩增片段带有更多CDS的信息,但是如果是用总RNA逆转录的话,有可能会受到rRNA的干扰。 采用Solexa进行转录组测序,测序文库准备过程中,由于实验之前已经采用oligo dT微磁珠进行纯化,而且mRNA已经进行了片段化处理后才进行反转录,因此反转录只能采用随机引物进行cDNA的合成,如果采用oligo dT进行扩增,只能得到mRNA的3'端序列,无法得到完整的mRNA序列。

Solexa进行转录组测序,测序文库的制备方法及质控标准?

首先会样本进行质量检测,检测合格后,对样本进行测序前处理,构建测序文库,构建步骤为:

(1)首先利用oligo dT微珠纯化mRNA;

(2)将纯化得到的mRNA进行片段化处理;

(3)利用逆转录酶反转录合成cDNA第一链;

(4)以cDNA第一链为模板合成双链cDNA;

(5)对双链cDNA进行末端修复并在3’末端加’A”;

(6)在DNA片段的两端连接上特定的测序接头;

(7)割胶纯化连接好的cDNA片段(一般回收200-500bp之间的片段);

(8)利用高保真聚合酶扩增测序文库;

(9)检测测序文库。对于测序文库,需要进行质量控制,一般通过 Aligent Technologies 2100分析仪和电泳观察两种方法检测测序文库的大小,纯度及浓度。 转录组测序结果的影响因素?

RNA的降解严重影响测序的质量,RNA降解后,加入poly-A后无法捕获纯化mRNA,因此,随机引物反转录无法得到全部的cDNA,导致测序结果出现明显的3‘-和5’-偏向。文库中的poly-A多聚物的存在会对测序信号产生干扰,影响测序结果的准确性;同时由于转录组中转录本的丰度不一致,实验前需要对样本进行均一化处理,否则高丰度的表达基因会掩盖低丰度表达基因,导致寻找新基因失败或者是获得大量无意义的重复序列。

转录组测序需要多大的测序量才能得到有意义的结果?

转录组测序前,需要对物种转录组的大小进行评估,评估方法如下:

(1)对于有reference genome的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。

(2)对于无reference genome的物种则只能参考相近物种的转录组大小。

由于转录组需要进行表达量的分析,因此在转录组测序中不推荐覆盖度,在进行不同基因和不同实验间的基因表达差异分析时,人们提出了RPM和RPKM的概念。 RPM(Reads Per Million reads)即每百万reads中来自于某基因的reads数,考虑了测序深度对读段计数的影响。RPKM(Reads Per Kilo bases per Million reads)是每百万reads中来自于某基因每千碱基长度的reads数。因此,在确定转录组的测序量时,最好以产生的读长数目做依据,参照转录组大小,估计需要的读长数目,来确定转录组需要的测序量。

如何处理转录组测序中存在的系统噪音和偏差?

虽然深度测序技术的准确性较以前的技术有了很大提高,但仍然存在错误和噪声。比如内含子区内有一些不连续的reads,很可能由系统噪声造成,如样品污染、测序错误和不恰当的read定位策略等。另外,外显子区域内的read信号分布有时也很不均匀。有文献报道,序列组成尤其是GC含量、RNA二级结构等也有可能是导致read不均匀分布的原因。这些噪声和分布偏好将影响新基因的识别和对剪接异构体形式和表达水平推断。

合理地建模RNA-seq数据中的系统噪声和偏好是解决上述问题最有效的办法。基本的思路可以是:首先根据实验原理寻找可能产生系统噪音或偏差的因素,并尽可能将这些因素转化成可量化的特征,如序列特征、二级结构等;然后,将用实验数据对这些特征做统计分析,构造和训练模型,用模型来对数据进行校正。需要注意的是,某些偏好是由当前的测序技术和分析方法共同造成的,难以完全消除。在这种情况下,后续处理和解释时需要充分意识到这种偏好可能对生物学结论带来的影响,必要时通过补充其他实验来验证和修正通过高通量测序得到的生物结论。

葛博

2010年05月

转录组测序问题集锦

转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。

Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序, Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA全长测序。但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高 ,而Illumina Solexa GA IIx和AB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。

转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区 SNP研究),非编码区域功能研究(Non-coding RNA研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。

研究转录组的方法有哪些?

目前研究转录组的方法主要三种,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,基于sanger测序法的SAGE (serial analysis of gene expression)、LongSAGE和MPSS(massively parallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq。

转录组测序比其他研究方法有哪些优势?

(1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度,同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题;

(2)灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本;

(3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNP,UTR区域。

(4)检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。

转录组测序有什么样的样品要求?

(1) 样品纯度要求: OD值应在1.8至2.2之间;电泳检测28S:18S至少大于

1.8。

(2)样品浓度: total RNA浓度不低于400 ng/μg。

(3)total RNA样品请置于-20℃保存;请提供total RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。

(4)样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm封口。建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

mRNA的纯化分离方法?

进行mRNA研究中,首先需要对样本进行总RNA抽提,抽提得到的RNA除含有mRNA外,还含有rRNA和tRNA,为防止这两类RNA对转录组研究的影响,因此我们需要对mRNA进行分离纯化。真核细胞的mRNA分子最显著的结构特征是具有5’端帽子结构(m7G)和3’端的Poly(A)尾巴。绝大多数哺乳类动物细胞mRNA的3’端存在20-30个腺苷酸组成的Poly(A)尾,通常用Poly(A+)表示。这种结构为真核mRNA的提取,提供了极为方便的选择性标志,寡聚(dT)纤维素或寡聚(U)琼脂糖亲合层析分离纯化mRNA的理论基础就在于此。 mRNA的分离方法较多,其中以寡聚(dT)-纤维素柱层析法最为有效,已成为常规方法。此法利用mRNA 3’末端含有Poly(A+)的特点,在RNA流经寡聚(dT)纤维素柱时,在高盐缓冲液的作用下,mRNA被特异地结合在柱上,当逐渐降低盐的浓度时或在低盐溶液和蒸馏水的情况下,mRNA被洗脱,经过两次寡聚(dT)纤维柱后,即可得到较高纯度的mRNA。

使用Solexa进行转录组测序时,样本RNA如何进行片段化处理? cDNA插入片段长度的选择?

Solexa转录组测序文库构建时采用专用的打断Buffer对RNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。mRNA-seq可以既可以采用单端测序(single read) 还可以采用双端测序( paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所获得的产物长度比插入的cDNA长度要长。

文库准备过程中,反转录引物的选择?

在进行cDNA合成过程中,经常用到的有两种引物:oligo dT引物和随机引物。

在RNA反转录过程中使用oligo dT引物进行扩增可以保证扩增产物包括mRNA的3'末端,减少rRNA的干扰,但是采用oligo dT 引物扩增有一个问题,就是扩增片段的长度偏短和扩增产物所包含的信息量偏向3’端的问题,之所以有长度偏短,一方面与RNA完整性有关,但最重要的限制在于逆转录酶的延伸能力。 用

oligo dT 引物扩增出来的片段长度短,虽然都有mRNA的3'端,但是序列信息多位于3'-UTR附近,若扩增序列太短,则有用信息很少,不利于序列的识别和分析。

使用Random primer扩增,虽然扩增偏短长度也很短, 但是由于它的逆转录并不一定在mRNA的末端起始,而是在随机位置起始,所以它的扩增片段带有更多CDS的信息,但是如果是用总RNA逆转录的话,有可能会受到rRNA的干扰。 采用Solexa进行转录组测序,测序文库准备过程中,由于实验之前已经采用oligo dT微磁珠进行纯化,而且mRNA已经进行了片段化处理后才进行反转录,因此反转录只能采用随机引物进行cDNA的合成,如果采用oligo dT进行扩增,只能得到mRNA的3'端序列,无法得到完整的mRNA序列。

Solexa进行转录组测序,测序文库的制备方法及质控标准?

首先会样本进行质量检测,检测合格后,对样本进行测序前处理,构建测序文库,构建步骤为:

(1)首先利用oligo dT微珠纯化mRNA;

(2)将纯化得到的mRNA进行片段化处理;

(3)利用逆转录酶反转录合成cDNA第一链;

(4)以cDNA第一链为模板合成双链cDNA;

(5)对双链cDNA进行末端修复并在3’末端加’A”;

(6)在DNA片段的两端连接上特定的测序接头;

(7)割胶纯化连接好的cDNA片段(一般回收200-500bp之间的片段);

(8)利用高保真聚合酶扩增测序文库;

(9)检测测序文库。对于测序文库,需要进行质量控制,一般通过 Aligent Technologies 2100分析仪和电泳观察两种方法检测测序文库的大小,纯度及浓度。 转录组测序结果的影响因素?

RNA的降解严重影响测序的质量,RNA降解后,加入poly-A后无法捕获纯化mRNA,因此,随机引物反转录无法得到全部的cDNA,导致测序结果出现明显的3‘-和5’-偏向。文库中的poly-A多聚物的存在会对测序信号产生干扰,影响测序结果的准确性;同时由于转录组中转录本的丰度不一致,实验前需要对样本进行均一化处理,否则高丰度的表达基因会掩盖低丰度表达基因,导致寻找新基因失败或者是获得大量无意义的重复序列。

转录组测序需要多大的测序量才能得到有意义的结果?

转录组测序前,需要对物种转录组的大小进行评估,评估方法如下:

(1)对于有reference genome的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。

(2)对于无reference genome的物种则只能参考相近物种的转录组大小。

由于转录组需要进行表达量的分析,因此在转录组测序中不推荐覆盖度,在进行不同基因和不同实验间的基因表达差异分析时,人们提出了RPM和RPKM的概念。 RPM(Reads Per Million reads)即每百万reads中来自于某基因的reads数,考虑了测序深度对读段计数的影响。RPKM(Reads Per Kilo bases per Million reads)是每百万reads中来自于某基因每千碱基长度的reads数。因此,在确定转录组的测序量时,最好以产生的读长数目做依据,参照转录组大小,估计需要的读长数目,来确定转录组需要的测序量。

如何处理转录组测序中存在的系统噪音和偏差?

虽然深度测序技术的准确性较以前的技术有了很大提高,但仍然存在错误和噪声。比如内含子区内有一些不连续的reads,很可能由系统噪声造成,如样品污染、测序错误和不恰当的read定位策略等。另外,外显子区域内的read信号分布有时也很不均匀。有文献报道,序列组成尤其是GC含量、RNA二级结构等也有可能是导致read不均匀分布的原因。这些噪声和分布偏好将影响新基因的识别和对剪接异构体形式和表达水平推断。

合理地建模RNA-seq数据中的系统噪声和偏好是解决上述问题最有效的办法。基本的思路可以是:首先根据实验原理寻找可能产生系统噪音或偏差的因素,并尽可能将这些因素转化成可量化的特征,如序列特征、二级结构等;然后,将用实验数据对这些特征做统计分析,构造和训练模型,用模型来对数据进行校正。需要注意的是,某些偏好是由当前的测序技术和分析方法共同造成的,难以完全消除。在这种情况下,后续处理和解释时需要充分意识到这种偏好可能对生物学结论带来的影响,必要时通过补充其他实验来验证和修正通过高通量测序得到的生物结论。

葛博

2010年05月


相关内容

  • 基于第二代测序技术的细菌基因组与转录组研究策略简介
  • 微生物学通报 Microbiology China [email protected] NOV 20, 2011, 38(11): 1705−1714 2011 by Institute of Microbiology, CAS 摘 要: 随着基于第二代测序技术的细菌基因组与转录组研究越来越广泛, 选 ...

  • 微生物群落研究各种组学比较
  • 随着高通量测序技术的普及,微生物研究逐渐进入大数据时代.在微生物群落研究当中,常用的高通量测序方法有扩增子测序(以16S rRNA为代表),宏基因组测序和宏转录组测序三种.多一种方法,代表着多一种手段来解决问题,但我们在群落研究的时候往往不知道应该挑选哪一种方法:16S与宏基因组都可以研究微生物组成 ...

  • 元转录组学在微生物群落研究中的应用
  • Microbiology China 微生物学通报 FEB 20, 2012, 39(2): 237−245 2012 by Institute of Microbiology, CAS [email protected] 摘 要: 环境微生物多样性复杂庞大, 蕴藏着丰富的基因资源, 随着分子生物学研 ...

  • 高通量测序技术在宏基因组学中的应用
  • 196 中国医药生物技术 2013年6月第8卷第3期 Chin Med Biotechnol, June 2013, Vol. 8, No. 3 DOI:10.3969/cmba.j.issn.1673-713X.2013.03.008 ·综述· 高通量测序技术在宏基因组学中的应用 刘莉扬,崔鸿飞, ...

  • 生物芯片与第二代测序技术是两种重要的高通量基因组学研究方法
  • 生物芯片与第二代测序技术是两种重要的高通量基因组学研究方法,在生命科学研究领域有着极其广泛的应用前景.经过近20年的发展,生物芯片技术逐渐成熟,正在向着 "高密度,灵活定制,微量样品" 的方向发展,从一个实验室技术发展成一个基因组学研究所依赖的,快速产生海量数据的常规手段,正在逐 ...

  • miRNA差异表达分析时reads数目的校准(TPM)问题
  • 校准表达量测序差异表达序列文库转录 标题: miRNA差异表达分析时reads数目的校准(TPM)问题 摘要: [miRNA差异表达分析时reads数目的校准(TPM)问题] 在做miRNA的差异表达分析时,很多文章里都要使用TPM(Transcripts per million,公式为:单一miR ...

  • 1RNA-seq质量控制
  • RNA-seq 质量控制 1 建库流程 1.1 Total RNA样品检测 1.1.1 琼脂糖凝胶电泳分析RNA 降解程度以及是否有污染 一句话总结:琼脂检测主要观察28s 和18s .判断RNA 好坏的标准是28s ,18s 是否清晰,尤其是28S 亮度比18s 亮度大 28s ,主要是剪切前的前 ...

  • PacBio RS II 的高通量测序应用
  • PacBio RS II 的高通量测序应用 Pacific Biosciences 公司的PacBio RS II单分子实时测序(single molecule, real-time,SMRT )测序反应是在其专利SMRT cell中进行的,每个SMRT cell中有150,000个ZMW (纳米级 ...

  • 分子生物学与基因工程原理
  • 分子生物学与基因工程原理 复习资料 一.名词解释 1. 分子生物学:是研究核酸.蛋白质等生物大分子的形态.结构特征及其重要性.规律性和相互关系的科学:是人类从分子水平上真正揭开生物世界的奥秘,由被动地适应自然界转向主动地改造和重组自然界的基础学科. 2. 染色体:是细胞在有丝分裂时遗传物质存在的特定 ...