8月13日,Cell Discovery在线发表了中国科学院上海生科院营养健康研究所——马普计算生物学研究所邵振课题组联合复旦医学院周峰课题组和美国西南医学中心徐剑课题组等多家机构的研究论文MAP: model-based analysis of proteomic data to detect proteins with significant abundance changes,报道了一种新计算模型MAP,用于统计分析基于同位素标记产生的定量蛋白质组数据并鉴定其中差异表达的蛋白质。


中科院等开发新计算模型MAP 用于定量蛋白质组数据差异表达分析


在MAP模型中,研究人员发展了一种新颖的分步回归(step-by-step regression)分析流程,实现直接对被比较的两个iTRAQ样本构建技术误差模型。在此类研究中,一个常用的经验假设是技术误差对样本间每个蛋白质iTRAQ信号log2比率(log2-ratio)的贡献服从以0为中心的正态分布N (0, σ2) 。其中,方差σ2依赖于该蛋白质的信号强度,并且常被用一个指数衰减函数来刻画其依赖关系,即所要构建的全局误差函数。MAP模型首先使用滑动窗口扫描被比较的两个样本的M-A图,同时对窗口中0附近的log2比率进行线性建模,以其斜率的平方作为误差函数的局域估计。然后,对所得局域估计进行第二轮指数拟合,获得被比较样本的全局误差函数,并以它为参照计算每个蛋白质信号差异的显著性P值(图1)。


中科院等开发新计算模型MAP 用于定量蛋白质组数据差异表达分析

图1:MAP模型的分步回归分析流程:(a)局域线性拟合;(b)全局指数拟合构建技术误差模型;(c)计算每个蛋白质信号差异的显著性P值。


同位素标记定量蛋白质组数据长期存在比率压缩的难题。研究人员使用MAP模型分别比较分析了三个批次产生的小鼠胚胎干细胞分化前后蛋白质组数据,发现蛋白质iTRAQ信号log2比率在不同批次间关联很低(图2a),可能是因为技术误差对其贡献所服从的正态分布N (0, σ2) 在批次间各不相同。根据MAP模型,研究人员提出使用每个批次的全局误差函数对其中每个蛋白质iTRAQ信号的log2比率进行重标度(rescaling),使得在不同批次中技术误差对其贡献均服从标准正态分布N (0, 1) ,从而发展了一个新的Z统计量。比较不同批次蛋白质Z统计量之间的关联,可以发现它具有明显更好的可重复性(图2b)。


中科院等开发新计算模型MAP 用于定量蛋白质组数据差异表达分析

图2:不同批次蛋白质iTRAQ信号的log2比率(a)和Z统计量(b)的皮尔森关联系数。


为方便蛋白质组领域研究者使用MAP模型进行数据分析,研究人员搭建了一个网络服务平台(http://bioinfo.sibs.ac.cn/shaolab/MAP)。该平台额外搭载了一个整合分析模块,能够通过整合多个批次生物重复所得的比较结果来最终鉴定差异表达蛋白质。研究发现,基于多次比较的次优P值或者平均Z统计量这两种统计量所定义的最终差异表达基因具有明显优于单次比较结果的可信度(图3a)。最后,研究人员开发了一种分析方法用于估测基于这些统计量所定义差异表达蛋白质的错误发现率(FDR),并发现其结果能够很好地被基于技术重复的比较分析所支持(图3b)。


中科院等开发新计算模型MAP 用于定量蛋白质组数据差异表达分析

图3:(a)不同方法定义的差异表达蛋白质与相应核糖体结合测序数据的一致性得分;b)不同途径计算的差异表达蛋白质的错误发现率之间的一致性。


此外,在面向双样本比较的MAP模型基础上,研究人员通过分别用样本方差和卡方分布分位数取代原分步回归建模流程中所使用的log2比率和标准正态分布分位数,进一步发展了适用于多样本比较的拓展eMAP模型。


中科院等开发新计算模型MAP 用于定量蛋白质组数据差异表达分析

图4:多样本比较eMAP模型的分步回归分析流程。


中科院上海营养健康所——马普计算生物所研究助理李木山(现为美国宾州州立大学生物统计系博士研究生)和博士研究生涂世奇为本文并列第一作者,邵振研究员为通讯作者。本文定量蛋白质组数据由复旦大学上海医学院周峰课题组生成,并得到周峰教授、中科院植物生理生态研究所张一婧研究员和美国西南医学中心徐剑教授等在数据分析和网络平台搭建等方面的大力支持和帮助。


研究背景


基于同位素标记和质谱技术的定量蛋白质组实验(如iTRAQ、TMT和SILAC等)能同时检测数千甚至上万个蛋白质在不同样本间的相对丰度或表达差异,被广泛用于蛋白质表达的相对定量分析。这类数据已有的差异表达分析方法大多依赖于对并行或已有的技术重复数据进行前期比较来构建实验的技术误差模型,并以它为基础检验每个蛋白质在被比较样本之间表达差异的统计显著性。该方法占用了有限的实验通道,也难以保证误差模型的精确适用性。

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~