当前位置:网站首页>2020 Bioinformatics | GraphDTA: predicting drug target binding affinity with graph neural networks
2020 Bioinformatics | GraphDTA: predicting drug target binding affinity with graph neural networks
2022-07-06 13:50:00 【发呆的比目鱼】
2020 Bioinformatics | GraphDTA: predicting drug target binding affinity with graph neural networks
Paper: https://academic.oup.com/bioinformatics/article/37/8/1140/5942970?login=false
Code:https://github.com/thinng/GraphDTA
摘要
新药的开发成本高、耗时长,而且往往伴随着安全问题。药物再利用可以通过为已批准的药物寻找新用途来避免昂贵且冗长的药物开发过程。为了有效地重新利用药物,了解哪些蛋白质被哪些药物靶向是有用的。估计新药物-靶点对相互作用强度的计算模型有可能加快药物再利用。已经为这项任务提出了几个模型。然而,这些模型将药物表示为字符串,这不是表示分子的自然方式。我们提出了一个名为GraphDTA的新模型它将药物表示为图形,并使用图形神经网络来预测药物与靶点的亲和力。我们表明,图神经网络不仅比非深度学习模型更好地预测药物-目标亲和力,而且优于竞争的深度学习方法。我们的结果证实,深度学习模型适用于药物-靶点结合亲和力预测,并且将药物表示为图形可以导致进一步的改进。
介绍
药物-靶标亲和力 (DTA) 预测计算方法有几种方法:
- 分子对接,它通过评分函数预测药物-靶标复合物的稳定 3D 结构。
- 使用协同过滤。例如,SimBoost模型使用药物之间和目标之间的亲和力相似性来构建新特征。
- 使用在药物和蛋白质序列的一维表示上训练的神经网络。例如,DeepDTA模型使用一维表示和一维卷积层(带有池化)来捕获数据中的预测模式
药物表征
SMILES可通过rdkit开源软件生成graph的形式,然后通过图卷积网络表示学习得到药物特征向量。其中每个节点是一个多维01特征向量,表达了五条信息:原子符号、相邻原子个数、相邻氢原子个数、原子的隐含值、原子是否处于芳香结构中。
蛋白表征
由于蛋白表示图结构比较困难, 蛋白质结果特征以one-hot编码表示。目标的基因名称从 UniProt 数据库中获取蛋白质序列。该序列是一串代表氨基酸的 ASCII 字符。每种氨基酸类型根据其相关的字母符号用一个整数编码[例如,丙氨酸 (A) 为 1,胱氨酸 为 3,天冬氨酸 (D) 为 4,依此类推],使蛋白质可以表示为一个整数序列。
分子图模型结构
作者提出了一种新的基于图神经网络和传统 CNN 的 DTA 预测模型。如下图所示。首先对蛋白质序列进行分类编码,然后将嵌入层添加到序列中,其中每个(编码)字符由 128 维向量表示。接下来,使用三个 1D 卷积层从输入中学习不同级别的抽象特征。最后,应用最大池化层来获得输入蛋白质序列的表示向量。这种方法类似于现有的基线模型。对于药物,我们使用分子图并试验了四种图神经网络变体,包括 GCN ( Kipf and Welling, 2017 )、GAT ( Veličković et al., 2018 ))、GIN ( Xu et al., 2019 ) 和组合的 GAT-GCN 架构。
实验与结果
研究人员主要通过对比非深度学习模型与比较流行的深度学习模型,通过测量计算一致性指数CI(指示预测值与实际值的一致性)与均方误差MSE这两个指标来表示模型的好坏。为了使实验结果具有比较性,分别在Davis与Kiba数据集对模型进行测量。
Davis数据集模型测量结果
两种数据集中的测量结果都表示在基于GAT-GCN结合的图表示模型中预测性能最佳。
结论
本项工作中,研究人员提出了一种计算药物-靶标结合亲和力的新方法,称为GraphDTA;旨在降低药物开发的难度,减少发现新药物靶标相互作用在时间与成本上的花费,缩短药物开发周期。该模型使用由SMILES数据重构得来的二维图结构数据,能够表达药物的较完整信息,因此该方法能够获得较好的预测性能。
参考
边栏推荐
- The underlying implementation of string
- JPEG2000 matlab source code implementation
- Leveldb source code analysis series - main process
- 语谱图怎么看
- JS learning notes OO create suspicious objects
- C language: comprehensive application of if, def and ifndef
- The relationship between root and coefficient of quadratic equation with one variable
- JS method to stop foreach
- SQL:存储过程和触发器~笔记
- Intelligent online customer service system source code Gofly development log - 2 Develop command line applications
猜你喜欢
关于程序员的职业操守,从《匠艺整洁之道》谈起
AI 企业多云存储架构实践 | 深势科技分享
Basic introduction of figure
Why is the cluster mode of spark on Yan better than the client mode
GPS从入门到放弃(十六)、卫星时钟误差和卫星星历误差
Reptile practice (V): climbing watercress top250
Write a rotation verification code annotation gadget with aardio
Digital transformation takes the lead to resume production and work, and online and offline full integration rebuilds business logic
uni-app App端半屏连续扫码
GPS from entry to abandonment (XVII), tropospheric delay
随机推荐
What can one line of code do?
20 large visual screens that are highly praised by the boss, with source code templates!
GPS从入门到放弃(二十)、天线偏移
jvm:大对象在老年代的分配
Some problems about the use of char[] array assignment through scanf..
Happy sound 2[sing.2]
关于char[]数组通过scanf赋值使用上的一些问题。。
Dialogue with Jia Yangqing, vice president of Alibaba: pursuing a big model is not a bad thing
uni-app App端半屏连续扫码
【sciter Bug篇】多行隐藏
guava:Collections. The collection created by unmodifiablexxx is not immutable
GPS从入门到放弃(十七) 、对流层延时
GPS从入门到放弃(十三)、接收机自主完好性监测(RAIM)
麦趣尔砸了小众奶招牌
bat脚本学习(一)
Reinforcement learning - learning notes 5 | alphago
Digital transformation takes the lead to resume production and work, and online and offline full integration rebuilds business logic
设置状态栏样式Demo
[Chongqing Guangdong education] Information Literacy of Sichuan Normal University: a new engine for efficiency improvement and lifelong learning reference materials
保存和检索字符串