转录组数据中RPKM代表什么..._转录表达_克隆和表达_分子类_知道

游客	收藏 \| 举报 2018-03-01 13:59 关注：1001 回答：5 转录组数据中RPKM代表什么... 已解决悬赏分：0 - 解决时间 2025-02-19 00:15 转录组数据中RPKM代表什么

游客	举报 2018-03-09 19:18 转录组数据中，RPKM是Reads Per Kilo bases per Million reads的缩写，代表每百万reads中来自于某基因每千碱基长度的reads数。转录是遗传信息由DNA转换到RNA的过程。作为蛋白质生物合成的第一步，转录是mRNA以及非编码RNA（tRNA、rRNA等）的合成步骤。是遗传信息从DNA流向RNA的过程。即以双链DNA中的确定的一条链（模板链用于转录，编码链不用于转录）为模板，以ATP、CTP、GTP、UTP四种核苷三磷酸为原料，在RNA聚合酶催化下合成RNA的过程。

游客

举报 2018-03-05 08:58

Reads per kilobase transcriptome per million mapped reads ,是一种计算机因表达量的标准化方式，比如说计算转录本A的标准化表达量公式是RPKM(A)=10^6C/(NL/10^3),C是唯一比对到A的reads数量，N是唯一比对到所有转录本的reads数量，L是A的长度，这里进行了两个标准化，用10^6C/N是将比对上的reads数标准化（Reads per million mapped reads ），L/10^3是表示长度的标准化（Reads per kilobase transcriptome ），不知道这样你可以理解不。

游客	举报 2018-03-05 01:50 谢谢你的提问这对我也很有利，因为我也刚刚涉足转录组测序。经过搜索我才知道RPKM（Reads Per Kilo bases per Million reads）是每百万reads中来自于某基因每千碱基长度的reads数。就像是在你手中的100个鸡蛋里有几个是你喜欢的意思？如此可以评估你要看的目的基因的表达水平。希望对你有所帮助！

游客

举报 2018-03-11 21:13

RPKM是将map到基因的read数除以map到genome的所有read数(以million为单位)与RNA的长度(以KB为单位)。

　　RNA-seq是透过次世代定序的技术来侦测基因表现量的方法，在衡量基因表现量时，若是单纯以map到的read数来计算基因的表现量，在统计上是一件相当不合理事，因为在随机抽样的情况下，序列较长的基因被抽到的机率本来就会比序列短的基因较高，如此一来，序列长的基因永远会被认为表现量较高，而错估基因真正的表现量，所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。[1]
　　其公式为:

　　
计算公式
　　以下就用一个简化的例子来说明RPKM的运用方式与概念:

　　假设一基因体只有两个基因，一个9 KB，一个1 KB，如今有一sample，其map 到9 KB 的read 有18 million 个，map 到1 KB 的有2 million 个，

　　对于9 KB 的基因而言，

　　Total exon reads=18 million

　　Mapped reads=18+2=20 million

　　Exon length=9 KB

　　RPKM =18/(20*9)=0.1

　　对于1 KB 的基因而言，

　　Total exon reads=2 million

　　Mapped reads=18+2=20 million

　　Exon length=1 KB

　　RPKM =2/(20*1)=0.1

　　由此我们可以知道这两个基因表现量没有差别。

　　假设此时我们有另一个sample，其表现如下图所示:

　　

　　我们可以发现此sample中9 KB基因的read数明显比上一个sample少，如果我们计算RPKM可以得到RPKM = 9/((9+1)*9)=0.1，却与上一个sample相同，这可能是因为cDNA浓度较低或是其他sample备制过程的问题，造成整体read变少，但是对9 KB基因而言，其read数占所有read数的比例并没有发生改变，所以其表现量会和上一个sample相同。[2]

参考资料
1． RPKM简介．Public Library of Bioinformatics[引用日期2012-09-3] ．
2． 27.1.4.3 Definition of RPKM ．clcbio[引用日期2012-09-3] ．展开

游客	举报 2018-03-01 22:34 RPKM（Reads Per Kilo bases per Million reads）是每百万reads中来自于某基因每千碱基长度的reads数。详见链接：http://www.plob.org/2011/10/24/294.html

全部问答分类

转录组数据中RPKM代表什么...