发帖回复

当前位置: 首页 » 商圈 » 技术服务 » 蛋白质和糖学技术讨论圈

蛋白质和糖学技术讨论

212成员
34主题

管理本圈

加入本圈

收藏本贴

开贴回复质谱-蛋白质组学相关问题

楼主收藏举报帖子创建时间: 2016-11-11 14:46 回复：36 关注量：460

质谱-蛋白质组学应用

蛋白质组学本质上指的是在大规模水平上研究蛋白质的特征，包括蛋白质的表达水平（Increased or decreased levels in different groups），翻译后的修饰（Post-translational modifications，PTM，磷酸化，泛素化等），蛋白与蛋白相互作用（Protein-protein interaction）等，由此获得蛋白质水平上的关于疾病发生，细胞代谢等过程的整体而全面的认识。随着近年来超高分辨质量分析器，Orbitrap（静电场轨道阱）的面世，使质谱在更为宽松的环境条件下保持高度的稳定性而将蛋白组学的发展持续推进。Orbitrap腔体体积小能保持真空度高，上游的C trap组件又能够很好的帮助肽段离子继续到更高的浓度，从而使MS仪器的分辨率提高产出的二级碎片质谱信息（MS/MS）更加的丰富和清晰。根据官方的数据统计，CNS系列刊物中涉及到Orbitrap MS技术的论文数量已经达到2-3篇/天的惊人数量，也体现了科学界对质谱MS用于生物医学研究稳定性和可靠性的认可。

相关链接：

Orbitrap的过去、现在和未来： http://wiki.antpedia.com/rbitrapdeguoquxianzaiheweilai-346181-news

Orbitrap LC-MS http://www.thermofisher.com/cn/zh/home/industrial/mass-spectrometry/liquid-chromatography-mass-spectrometry-lc-ms/lc-ms-systems/orbitrap-lc-ms.html

分享到：

更多圈贴本圈首页

手机扫一扫，随时随地看商友圈

蓝魂1205407213 2016-11-11 15:11
#1

我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！
蓝魂1205407213 2016-11-14 16:38
#2

青木书生
蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。
首先，需要对质谱的打分原理做一个简单了结：
1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.
peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。
举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.
匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。

非常感谢您的回复，明白了很多呢，嘻嘻。根据我的理解（可能理解会有误）又有2个新的问题：
根据您的回答，越小的蛋白其实鉴定的假阳性越高，那10k以下的蛋白（即使是纯蛋白）鉴定的话应该也是非常困难，已知蛋白的话根据序列还能预测大概酶切几条肽段，判断是否可以检测，如果是未知蛋白好像没有办法去判断，有没有什么特殊方案去解决呢？
还有您提到了点突变和PTM，假如看某个蛋白是否发生点突变或者PTM的话，首先没有办法判断点突变或者发生修饰的肽段的位置，所以也有可能因为肽段太小或者太大而检测不到，这种情况会有吧？即使可以检测到，如果是依赖匹配数据库，做修饰的话在搜库时人工加修饰去搜库这个可以解决，但是点突变没有好像没有办法通过人工改变去匹配数据库。这种情况下，有什么方法去寻找这个突变的点呢？（我的理解是某一肽段被质谱检测到了，但是搜库时因为点突变而不能完全匹配到数据库，所以这个肽段就不会有显示结果，不知道这样理解是否有误）
期待您关于第4和5问题的解答。再次感谢您的回复。
青木书生 2016-11-11 14:52
#3

持续更新ing......................................
蛋白组学研究常见类型

1.未知相互作用蛋白ID的鉴定

2. PTM 蛋白翻译后修饰位点鉴定（磷酸化，泛素化位点鉴定）

3. 蛋白分子量鉴定（单抗，单抗-化药偶联物的鉴定）

4. 蛋白质定量研究

质谱前定量 2D-gel

一级质谱定量 SILAC, ICAT

二级质谱定量 iTRAQ，TMT

5.进阶：

多维分离HPLC技术研发

MUDPIT

靶向蛋白质组学

MRM/SRM

PRM

SWATH/DIA
蓝魂1205407213 2016-11-11 15:11
#4

我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！
生物星 2016-11-11 19:21
#5

赤裸裸的地吽啊
青木书生 2016-11-13 01:01
#6

占个楼+1，预备内容
该楼层会给大家详细的介绍你的组学样品是怎么从溶液，胶条变成大数据的。希望大家收藏投票。
青木书生 2016-11-13 01:10
#7

蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。
首先，需要对质谱的打分原理做一个简单了结：
1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.
peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。
举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.
匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。
东月来星 2016-11-13 08:59
#8

顶一个，虽然不懂但感觉好牛逼的样子。
蓝魂1205407213 2016-11-14 16:38
#9

青木书生
蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。
首先，需要对质谱的打分原理做一个简单了结：
1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.
peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。
举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.
匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。

非常感谢您的回复，明白了很多呢，嘻嘻。根据我的理解（可能理解会有误）又有2个新的问题：
根据您的回答，越小的蛋白其实鉴定的假阳性越高，那10k以下的蛋白（即使是纯蛋白）鉴定的话应该也是非常困难，已知蛋白的话根据序列还能预测大概酶切几条肽段，判断是否可以检测，如果是未知蛋白好像没有办法去判断，有没有什么特殊方案去解决呢？
还有您提到了点突变和PTM，假如看某个蛋白是否发生点突变或者PTM的话，首先没有办法判断点突变或者发生修饰的肽段的位置，所以也有可能因为肽段太小或者太大而检测不到，这种情况会有吧？即使可以检测到，如果是依赖匹配数据库，做修饰的话在搜库时人工加修饰去搜库这个可以解决，但是点突变没有好像没有办法通过人工改变去匹配数据库。这种情况下，有什么方法去寻找这个突变的点呢？（我的理解是某一肽段被质谱检测到了，但是搜库时因为点突变而不能完全匹配到数据库，所以这个肽段就不会有显示结果，不知道这样理解是否有误）
期待您关于第4和5问题的解答。再次感谢您的回复。
青木书生 2016-11-14 19:49
#10

蓝魂1205407213
青木书生
蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。
首先，需要对质谱的打分原理做一个简单了结：
1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.
peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。
举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.
匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。

非常感谢您的回复，明白了很多呢，嘻嘻。根据我的理解（可能理解会有误）又有2个新的问题：
根据您的回答，越小的蛋白其实鉴定的假阳性越高，那10k以下的蛋白（即使是纯蛋白）鉴定的话应该也是非常困难，已知蛋白的话根据序列还能预测大概酶切几条肽段，判断是否可以检测，如果是未知蛋白好像没有办法去判断，有没有什么特殊方案去解决呢？
还有您提到了点突变和PTM，假如看某个蛋白是否发生点突变或者PTM的话，首先没有办法判断点突变或者发生修饰的肽段的位置，所以也有可能因为肽段太小或者太大而检测不到，这种情况会有吧？即使可以检测到，如果是依赖匹配数据库，做修饰的话在搜库时人工加修饰去搜库这个可以解决，但是点突变没有好像没有办法通过人工改变去匹配数据库。这种情况下，有什么方法去寻找这个突变的点呢？（我的理解是某一肽段被质谱检测到了，但是搜库时因为点突变而不能完全匹配到数据库，所以这个肽段就不会有显示结果，不知道这样理解是否有误）
期待您关于第4和5问题的解答。再次感谢您的回复。
首先纯化的蛋白鉴定一点也不困难，相应的，纯化蛋白的PTM相比于复杂样品也很容易得到。原因就是单位时间内共流出的肽段信息少，MS检测到的单一肽段的离子强度高，容易让质谱软件匹配打分。所以不是小蛋白假阳性高，而是小肽段容易假阳性可能会高。因为软件是识别肽段以后再去确定蛋白的，所以肽段的准确度决定了你的蛋白的可信性，而且如果这个肽段系列几个不同的蛋白都有，质谱对比数据库后会把这些蛋白都列在结果中，这就证明了为什么有些血清中没有的蛋白最后出现在血清样品中。在目前的高分辨质谱的常规设置情况下，m/z大小一般设定为300-1800，以HCD碎裂2价,3价离子较多的情况下，肽段的氨基酸个数大小在8-22左右的更容易被识别。相应的，氨基酸序列越长，其排列组合的方式越多，那么其变成某个蛋白unique peptide的概率越高，也就是说20个氨基酸的肽段是unique的概率肯定比8个氨基酸的高。因此，如果有目标蛋白并且怀疑固定位点上有潜在PTM修饰的可能性，一定考虑合适的酶去酶解，如果是复杂样品，通用胰蛋白酶。

蓝魂1205407213 帖子创建时间: 2016-11-11 15:11

我有问题想向您请教下，

1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？

2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？

3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果

4、2D-gel相比现在的技术的优势在哪里？

5、MRM和PRM本质的区别在哪里？

问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

蓝魂1205407213 帖子创建时间: 2016-11-14 16:38

青木书生
蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。
首先，需要对质谱的打分原理做一个简单了结：
1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.
peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。
举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.
匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。

非常感谢您的回复，明白了很多呢，嘻嘻。根据我的理解（可能理解会有误）又有2个新的问题：

根据您的回答，越小的蛋白其实鉴定的假阳性越高，那10k以下的蛋白（即使是纯蛋白）鉴定的话应该也是非常困难，已知蛋白的话根据序列还能预测大概酶切几条肽段，判断是否可以检测，如果是未知蛋白好像没有办法去判断，有没有什么特殊方案去解决呢？

还有您提到了点突变和PTM，假如看某个蛋白是否发生点突变或者PTM的话，首先没有办法判断点突变或者发生修饰的肽段的位置，所以也有可能因为肽段太小或者太大而检测不到，这种情况会有吧？即使可以检测到，如果是依赖匹配数据库，做修饰的话在搜库时人工加修饰去搜库这个可以解决，但是点突变没有好像没有办法通过人工改变去匹配数据库。这种情况下，有什么方法去寻找这个突变的点呢？（我的理解是某一肽段被质谱检测到了，但是搜库时因为点突变而不能完全匹配到数据库，所以这个肽段就不会有显示结果，不知道这样理解是否有误）

期待您关于第4和5问题的解答。再次感谢您的回复。

青木书生帖子创建时间: 2016-11-11 14:52

持续更新ing......................................

蛋白组学研究常见类型

1.未知相互作用蛋白ID的鉴定

2. PTM 蛋白翻译后修饰位点鉴定（磷酸化，泛素化位点鉴定）

3. 蛋白分子量鉴定（单抗，单抗-化药偶联物的鉴定）

4. 蛋白质定量研究

质谱前定量 2D-gel

一级质谱定量 SILAC, ICAT

二级质谱定量 iTRAQ，TMT

5.进阶：

多维分离HPLC技术研发

MUDPIT

靶向蛋白质组学

MRM/SRM

PRM

SWATH/DIA

蓝魂1205407213 帖子创建时间: 2016-11-11 15:11

我有问题想向您请教下，

1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？

3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果

4、2D-gel相比现在的技术的优势在哪里？

5、MRM和PRM本质的区别在哪里？

问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

生物星帖子创建时间: 2016-11-11 19:21

赤裸裸的地吽啊

青木书生帖子创建时间: 2016-11-13 01:01

占个楼+1，预备内容
该楼层会给大家详细的介绍你的组学样品是怎么从溶液，胶条变成大数据的。希望大家收藏投票。

青木书生帖子创建时间: 2016-11-13 01:10

蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。

1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？

这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。

首先，需要对质谱的打分原理做一个简单了结：

1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.

peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。

举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.

匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。

3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果

复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？

5、MRM和PRM本质的区别在哪里？

休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。

东月来星帖子创建时间: 2016-11-13 08:59

顶一个，虽然不懂但感觉好牛逼的样子。

蓝魂1205407213 帖子创建时间: 2016-11-14 16:38

青木书生
蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。
首先，需要对质谱的打分原理做一个简单了结：
1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.
peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。
举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.
匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。

非常感谢您的回复，明白了很多呢，嘻嘻。根据我的理解（可能理解会有误）又有2个新的问题：

期待您关于第4和5问题的解答。再次感谢您的回复。

青木书生帖子创建时间: 2016-11-14 19:49

蓝魂1205407213
青木书生
蓝魂1205407213
我有问题想向您请教下，
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？
2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
问题有点多，这是我一直有疑问的问题，中间自己查了，但是还是觉得一知半解，希望大神帮忙解惑。谢谢！

感谢蓝魂战友的回帖。这几个问题我就综合的浅说一下个人的经验。
1、质谱检测后的数据protein score、peptide score和eMPAI是怎么计算得来的？2、各自又有什么含义呢？也就是说我判断鉴定到这个蛋白是否可信是以什么标准呢？如果说按照上面三个，打分越高可信度越高，但是三个之前不是同一趋向性时应该怎么判断？
这两个问题我一起回答一下。关于算法问题，因为我本身并不是专业的做方法和计算的，只能浅显的谈一谈。目前流行的MS软件中，纵然是各不相同，但核心原理基本一致。MS方法高度依赖数据库(目前是冗余较少的uniport比较常见，NCBI 有一定的冗余度，即是开源网站相同的蛋白氨基酸序列可能被提交了不同的ID号，目前NCBI也在致力于清除冗余，目前最简便的建议使用uniport源，http://www.uniprot.org/)，打开了以后长这个样子（Unreviewed代表还没有被确定的蛋白质；同一个蛋白质可能有不同的Isoform, Natural variation,已知的PTM位点修饰等等）。
首先，需要对质谱的打分原理做一个简单了结：
1.Sample-还原烷基化-酶解（胰酶等）-肽段脱盐-HPLC分离-MS检测一级谱图（母离子）-MS检测二级谱图(碎片离子) 2.数据库选择-模拟酶切（一级谱图大小匹配）--模拟碎裂(二级碎片离子谱图匹配)-质谱预测打分评价.
peptide score的分数会根据其计算机模拟碎裂的离子大小和实际二级谱图中的匹配程度进行计算，取匹配最高(得分最高)的一个作为鉴定的结果。（m/z误差通常控制在的5-10ppm以内，ppm=百万分之一.）protein score 由peptide score和unique peptides（检索的数据库中的唯一蛋白所含的特异肽段）的数量综合得到，eMPAI的具体算法感兴趣的可以自己检索一下。判断一个蛋白结果是否可信，如果你的样品是纯化的蛋白，那么除了常规的Coverange，PSMs，peptides,还有看Unique peptides，归根到底要判断MS鉴定到的肽段离子（MS/MS谱图）的可信度。在原始谱图中有各种信息，尤其是其不同的同位素峰的丰度同样重要。如果样品是一个标准样品并且你知道它的组成，那么与期望的蛋白质序列匹配的结果可以定义为理想结果。如果是未知样品，则定义正确的结果时候要谨慎，尤其是涉及氨基酸位点修饰（翻译后修饰，PTM）的鉴定，比如STY的磷酸化等。
举个栗子~ Thermo QE Raw质谱数据中的一个某一个时间点二级碎片离子质谱图（MS/MS 原始Data）.
匹配到的候选肽段（大家看到第一条匹配的数量最多，得分最高。通俗的说，软件认为第一条肽段得分远远超过了其他的候选肽段，因此可以认为这个结果是可信的。相当于一个班的同学考试，得分最高的95，其他的都是65，60，62~甚至不及格，因此可以认为95分的同学就是我们寻找的肽段）：

从上图的数据大家也能看出来，3个不同的肽段大小非常非常接近，但是氨基酸的序列和肽段长短都有差别，因此软件通过各自肽段模拟的碎裂离子去匹配质谱谱图，综合得分以后给出结论。当然，如果是认为这个蛋白对你的研究非常重要，可以打开原始数据，用人工的判断该蛋白的肽段同位素峰的峰型再去确认一下，这里特别建议那些做PTM的同学使用。
3、以您的经验来看质谱鉴定的假阳性概率是多少？怎么去辨别分析假阳性结果
复杂蛋白样品，看Coverage（检测到的peptides序列在整个蛋白序列的覆盖率）和unique peptides（该蛋白特有的氨基酸序列肽段）数量。一般来说，现在质谱的分辨率已经非常高了，碎片离子的误差都能控在5-10ppm内的结果是非常可信的了。从正面看，理论上肽段越小假阳性越高。而因为质谱的限制，太小的肽段和太大的肽段都不能被检测到可能会造成漏检。从反面看，正是因为质谱的分辨率太高，而且高度依赖搜库匹配数据，如果你的目的蛋白或者目的肽段存在任何的未知修饰或者突变，是一定会漏检的。分辨质谱的结果需要结合你的实验目的，如果是相对简单的样品（比如pull-down的），有不确定的结果就让做质谱的技术人员给你多搜几次库，多加几个可能的可变修饰。如果是复杂的样品，比如血清，组织等等就很难说了。如果你对你的样品中检测到的某一个Coverage低，unique peptide的蛋白感兴趣，最好是看看原始数据，如果有特别的例子的时候再来解释也比较好。

4、2D-gel相比现在的技术的优势在哪里？
5、MRM和PRM本质的区别在哪里？
休息一下，后面回答~其实2D胶这个问题非常好！由于MS已经开启了无标记定量技术（lable –free Quant，既在无任何处理的情况下进行两组样品中的全部蛋白质的相对含量的对比），目前关于这个吵得也比较厉害。

非常感谢您的回复，明白了很多呢，嘻嘻。根据我的理解（可能理解会有误）又有2个新的问题：
根据您的回答，越小的蛋白其实鉴定的假阳性越高，那10k以下的蛋白（即使是纯蛋白）鉴定的话应该也是非常困难，已知蛋白的话根据序列还能预测大概酶切几条肽段，判断是否可以检测，如果是未知蛋白好像没有办法去判断，有没有什么特殊方案去解决呢？
还有您提到了点突变和PTM，假如看某个蛋白是否发生点突变或者PTM的话，首先没有办法判断点突变或者发生修饰的肽段的位置，所以也有可能因为肽段太小或者太大而检测不到，这种情况会有吧？即使可以检测到，如果是依赖匹配数据库，做修饰的话在搜库时人工加修饰去搜库这个可以解决，但是点突变没有好像没有办法通过人工改变去匹配数据库。这种情况下，有什么方法去寻找这个突变的点呢？（我的理解是某一肽段被质谱检测到了，但是搜库时因为点突变而不能完全匹配到数据库，所以这个肽段就不会有显示结果，不知道这样理解是否有误）
期待您关于第4和5问题的解答。再次感谢您的回复。

首先纯化的蛋白鉴定一点也不困难，相应的，纯化蛋白的PTM相比于复杂样品也很容易得到。原因就是单位时间内共流出的肽段信息少，MS检测到的单一肽段的离子强度高，容易让质谱软件匹配打分。所以不是小蛋白假阳性高，而是小肽段容易假阳性可能会高。因为软件是识别肽段以后再去确定蛋白的，所以肽段的准确度决定了你的蛋白的可信性，而且如果这个肽段系列几个不同的蛋白都有，质谱对比数据库后会把这些蛋白都列在结果中，这就证明了为什么有些血清中没有的蛋白最后出现在血清样品中。在目前的高分辨质谱的常规设置情况下，m/z大小一般设定为300-1800，以HCD碎裂2价,3价离子较多的情况下，肽段的氨基酸个数大小在8-22左右的更容易被识别。相应的，氨基酸序列越长，其排列组合的方式越多，那么其变成某个蛋白unique peptide的概率越高，也就是说20个氨基酸的肽段是unique的概率肯定比8个氨基酸的高。因此，如果有目标蛋白并且怀疑固定位点上有潜在PTM修饰的可能性，一定考虑合适的酶去酶解，如果是复杂样品，通用胰蛋白酶。