癌症是人类健康最致命的杀手,在全球范围内每年造成数百万人的死亡。传统的物理和化学方法,包括靶向治疗,化疗和放射治疗等医疗实践中常见的治疗手段,在一定程度上能杀死病变癌细胞,但是同时也会杀死大量正常的细胞,带来严重的副作用。这些治疗手段费用昂贵且预后效果不佳,迫切需要开发新的定向清除癌细胞,治疗癌症的有效方法。
抗癌多肽(anticancer peptides,ACP),一种长度通常小于50氨基酸的阳离子型多肽的发现为癌症治疗开辟了新前景。ACP多发现自抗菌多肽(antimicrobial peptides, AMP)中,具有很多优良的特性,包括高特异性,广谱性,安全性,易于合成和定制,成本低廉等。抗癌多肽可以特异性的结合癌细胞的阴离子细胞膜分子,而对正常细胞没有影响。因此,它们可以选择性的杀死癌细胞,而不带来副作用。多年来,ACP疗法在临床的不同阶段被广泛探索和应用,但是只有少数被最终用于临床治疗。ACP的鉴定高度受限于实验室,昂贵且周期漫长。计算预测的方法在帮助筛选,发现和预测抗癌多肽中的作用越来越迫切和明显。
在这项工作中,基于序列信息来预测潜在的抗癌多肽的深度学习方法首次被开发和提出。首先,研究人员基于现有的研究,整理构建了用于机器学习的抗癌多肽数据集,其中,正样本为实验验证的ACP,负样本为不具有抗癌活性的AMP。然后,保留氨基酸残基组分和位置信息的高效多肽序列特征提取技术被提出,将生物序列信息转化为数字特征。最后,基于长短时记忆模型的深度学习模型被构建和训练以预测新型ACP。严格的实验结果表明,所开发的方法具有高准确性,鲁棒性,可以作为相关生物医学研究的有效工具。
本工作以“ACP-DL: A Deep Learning Long Short-Term Memory Model to Predict Anticancer Peptides Using High-Efficiency Feature Representation”为题,于近日发表于JCR一区期刊《Molecular Therapy-Nucleic Acids》,第一作者为中科院新疆理化所研究生易海成,指导老师为尤著宏研究员。本工作得到国家自然科学基金优秀青年科学基金和中科院项目的支持。
论文连接:https://www.cell.com/molecular-therapy-family/nucleic-acids/fulltext/S2162-2531(19)30098-8
图 1.抗癌多肽数据集中各氨基酸组分及预测模型性能表现