日前,中科院新疆理化所王延斌在尤著宏研究员指导下,提出一种使用蛋白质序列信息预测蛋白质相互作用的计算方法。相关成果发布于《国际分子科学杂志》。
随着蛋白质相互作用实验技术的发展,人们能够获得大量的蛋白质相互作用数据,甚至能够在全基因组范围内对蛋白质相互作用进行分析。然而,由于实验技术的限制,很多高通量实验方法测得的蛋白质相互作用数据的错误率都比较高。此外,传统实验的方法不适用于检测大规模数据。
为了获得重要的蛋白质信息,科研人员首先使用位置打分矩阵(PSSM)去表示每一个蛋白质序列。研究发现,打分矩阵的表示方法不仅保留了序列的位置信息,还保留了蛋白质的化学信息。同时,为了开发PCVMZM预测模型,科研人员首先在不同尺度的PSSM打分矩阵上提取到准确的、有代表性的蛋白质信息,并将每一个信息表示成一个特征向量作为特征,运用一个强分类器去预测蛋白质的交互。
研究结果表明,此方法能够提供精确、稳定、覆盖率高的预测信息,为基因组学研究提供了一个有用的决策工具。
(原载于《中国科学报》 2017-08-01 第4版 综合)