当前位置:网站首页>论文阅读 (56):Mutli-features Predction of Protein Translational Modification Sites (任务)
论文阅读 (56):Mutli-features Predction of Protein Translational Modification Sites (任务)
2022-06-23 16:49:00 【因吉】
1 引入
1.1 题目
2017:蛋白质翻译修饰位点的多特征预测 (Mutli-features predction of protein translational modification sites)
1.2 概述
翻译后修饰 (Post translational modification, PTM) 在生物加工中起着重要作用。潜在的翻译后修饰由中心位点和相邻的氨基酸残基组成,它们是基本的蛋白质序列残基,有助于发挥它们的生物学功能,且有助于理解作为蛋白质设计和药物设计基础的分子机制。现有的修饰位点预测算法往往存在稳定性和准确性较低等不足。
本文结合了蛋白质的物理、化学、统计和生物学特性,提出了一种新的框架来预测蛋白质的翻译后修饰位点。调用多层神经网络和支持向量机来预测具有所选特征的潜在修饰位点,这些特征包括氨基酸残基的组成、蛋白质片段的E-H描述以及AAIndex数据库中的几个属性。考虑到可能的冗余信息,在处理步骤中引入了特征选择。实验结果表明,所提方法能够提高该分类问题的准确率。
1.3 Bib
@article{
Bao:2017:14531460,
author = {
Wen Zheng Bao and Chang-An Yuan and You Hua Zhang and Kyungsook Han and Asoke K Nandi and Barry Honig and De-Shuang Huang},
title = {
Mutli-features prediction of protein translational modification sites},
journal = {
{
IEEE}/{
ACM} Transactions on Computational Biology and Bioinformatics},
volume = {
15},
number = {
5},
pages = {
1453--1460},
year = {
2017},
doi = {
10.1109/TCBB.2017.2752703}
}
2 方法
2.1 数据集
蛋白质的功能决定于蛋白质的空间构象。因此,蛋白质片段的空间结构可能有助于分析并找出潜在修饰位点的特征。
实验数据集是PTM预测领域的基准数据集:
1)蛋白质翻译后修饰领域的著名数据库CPLM。该数据库包含2500多个作为正样本的赖氨酸琥珀酰化位点和 24000个作为负样本的非琥珀酰化位点,已从896个蛋白质序列中提取。上述所有蛋白质片段和多肽序列均来自UniProt,这是生物信息学领域著名的蛋白质数据库。 它已被用于酶特异性 (ES) 以及蛋白质-蛋白质结合位点 (PPB) 的研究。
2)用于预测蛋白质序列中多种K-PTM类型的修饰位点的框架,其包含6394个潜在修饰位点,这些位点被视为来自 27元组肽的样。有1750个样本不属于四种K-PTM类型中的任何一种,3895个样本属于一种K-PTM,740个样本属于两种PTM类型,9个样本属于三种PTM类型,而所有四种类型都没有。
3)翻译后修饰片段数据集。三个物种的赖氨酸乙酰化位点数据集,包括智人、小家鼠和酿酒酵母,来自多个来源,包括 PhosphoSite、UniProtKB/Swiss-Prot、UbiProt 和 SCUD,这些都是蛋白质组学领域的知名数据库。由于泛素似乎在一定程度上附着在蛋白质的赖氨酸残基上。因此,我们在工作中仅考虑了上述三个物种中的赖氨酸泛素化。原始数据集包括11547 个涵盖不同物种的蛋白质序列;在这些序列中,超过8000个来自H.sapiens,大约3300个来自M.musculus,超过4500个来自S.cerevisiae。去除3种样品的冗余蛋白片段后,提取到3种样品的多个样品,其中分别为6323份H.sapiens样品、2342份M.musculus样品和7863份S.cerevisiaes样品。之后,从三个物种的每个数据集中随机选择20个蛋白质形成独立的测试集,其余的 6303、2322和7843个蛋白质分别用于构建训练集。
2.2 特征选择
一般来说,蛋白质特征的种类可以达到4万多。这些各种类型的特征,包括氨基酸组成模型 (AAC) 假氨基酸组成模型 (PseAAC) 和蛋白质特征的其他相关信息[26]。 然而,这些特征很难满足有效和准确描述预测的修饰位点和相邻氨基酸残基之间相互作用的需要。因此,本文引入了一个典型的、特殊的特征,它具有描述蛋白质肽段的能力。
首先,当涉及到氨基酸残基的组成时,生物信息学和计算生物学领域的许多研究人员通常利用蛋白质序列的统计信息。 这些特征仅描述了统计方面潜在的修改段。当然,在这类特征集中,关键特征的选择可能被视为一项艰巨的任务。
发现有20种氨基酸残基在3类特殊结构元素:螺旋、链和螺旋中具有被吞噬的趋势。这些功能选自PSIPRED。 PSIPRED的开发人员尝试用神经网络技术预测蛋白质序列中的特殊趋势。
有效地考虑 α \alpha α螺旋和 β \beta β链的分布,我们用E-H序列描述表示预测的蛋白质片段。 下表包含E-H描述的几个特征。从上述特征中,基本特征和新特征都可以描述预测修改段的E和H类型的统计信息。由于上述所有特征都包含一些冗余信息和噪声。 因此,选择的特征如下表。


最流行和最知名的氨基酸特征索引是AAindex,它是一个数字索引的网站数据库,包括氨基酸残基的各种生物学、物理和化学性质以及其他形式的蛋白质序列的特征。同时,AAindex 包含三种蛋白质特性信息:AAindex1、AAindex2 和AAindex3 [27-29]。 因此,本研究采用了几种氨基酸的特征。
边栏推荐
- 手机开户流程是什么?现在网上开户安全么?
- MySQL的 安装、配置、卸载
- How code 39 check bits are calculated
- Year end: the "time value" and business methodology of live broadcast E-commerce
- console. Log() is an asynchronous operation???
- How to make validity table
- January 5, 2022: there are four kinds of rhythms: AABB, ABAB and ABB
- MySQL transaction and its characteristics and locking mechanism
- [go] calling Alipay to scan code for payment in a sandbox environment
- Intranet penetration token stealing
猜你喜欢

CRMEB 二开短信功能教程

千呼万唤,5G双卡双通到底有多重要?

Performance test bottleneck tuning in 10 minutes! If you want to enter a large factory, you must know

MySQL事务及其特性与锁机制
![[mae]masked autoencoders mask self encoder](/img/08/5ab2b0d5b81c723919046699bb6f6d.png)
[mae]masked autoencoders mask self encoder

qYKVEtqdDg

Meituan Sanmian: how do you understand the principle of redis master-slave replication?

Self supervised learning (SSL)
![QT layout manager [qvboxlayout, qhboxlayout, qgridlayout]](/img/62/a0425a325f123ba91a7a69cf854d2c.png)
QT layout manager [qvboxlayout, qhboxlayout, qgridlayout]

酒店入住时间和离店时间的日期选择
随机推荐
MySQL的 安装、配置、卸载
How code 39 check bits are calculated
B. AND 0, Sum Big-Codeforces Round #716 (Div. 2)
Réponse 02: pourquoi le cercle Smith peut - il "se sentir haut et bas et se tenir à droite et à droite"?
January 5, 2022: there are four kinds of rhythms: AABB, ABAB and ABB
History of storage technology: from tape to hardware liquefaction
Bypass rights
Single fire wire design series article 10: expanding application - single fire switch realizes double control
13. IP address and subnet partitioning (VLSM)
Digital intelligent supply chain collaboration solution for new energy industry
console. Log() is an asynchronous operation???
How to choose an account opening broker? Is it safe to open an account online now?
《MPLS和VP体系结构》
Nodejs implements multi process
How to design a seckill system - geek course notes
Date to localdatetime
How important is 5g dual card dual access?
Intranet penetration token stealing
Codeforces Round #620 (Div. 2)ABC
QT当中的【QSetting和.ini配置文件】以及【创建Resources.qrc】