当前位置:网站首页>2019 NeurIPS | Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation
2019 NeurIPS | Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation
2022-07-31 07:55:00 【发呆的比目鱼】
2019 NeurIPS | Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

Paper: http://papers.neurips.cc/paper/7877-graph-convolutional-policy-network-for-goal-directed-molecular-graph-generation.pdf
Code: https://github.com/bowenliu16/rl_graph_generation
目标导向分子图生成的图卷积策略网络
分子图生成任务是发现具有所需特性(如药物样和合成可及性)的新分子,同时遵守物理定律(如化学价)。然而,设计模型以找到优化所需特性同时结合高度复杂和不可微的规则的分子仍然是一项艰巨的任务。因此,作者提出了基于图卷积网络的通用模型–GCPN网络。模型是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的,并在包含特定领域规则的环境中发挥作用。
模型
将图 G G G表示为 ( A , E , F ) ( A , E , F ) (A,E,F) ,其中
- A ∈ { 0 , 1 } n × n A \in \{0,1\}^{n \times n} A∈{ 0,1}n×n是邻接矩阵
- F ∈ R n × d F \in R^{n \times d} F∈Rn×d是顶点特征矩阵,每个顶点有d dd维特征
- 定义 E ∈ { 0 , 1 } b × n × n E \in \{0, 1\}^{b \times n \times n} E∈{ 0,1}b×n×n为离散边条件相邻向量,假设有 b b b种类型边。如果顶点 j j j和 k k k之间有 i i i种类型的边,则 E i , j , k = 1 E_{i,j,k} = 1 Ei,j,k=1且 A = ∑ i = 1 b E i A=\sum^b_{i=1}E_i A=∑i=1bEi
目标是生成最大化给定特性函数 S ( G ) ∈ R S(G) \in R S(G)∈R的图,例如最大化 E G ′ [ S ( G ′ ) ] E_G'[S(G')] EG′[S(G′)],其中 G ′ G' G′是产生的图, S S S可以是一个或多个感兴趣的特定于域的统计信息。

图生成的马尔可夫决策过程
构建该模型的关键任务是指定一个生成过程。作者设计一个迭代的图生成过程,并将它表述为一个通用决策过程,它包括: - 一个包含所有中间和结果图的状态的集合 - 描述每个时间步对当前图可能的修改的行为集合 - 执行某个操作的可能结果的转换动态 - 到达某状态后指定奖励的奖励函数。
(1) State Space
作者将环境的状态定义为某一时间步的中间图,它完全通过 RL 智能体来观察。
(2) Action Space
首先作者定义一个候选子图集合,它在图生成过程中被添加。给定某一时间步的图,作者定义一个对应的扩展图,它是其中一个候选子图和该时间步图的并集。在此定义下,行为可以对应于将新子图连接到上一时间步的图中的节点,也可以将该时间步图中的现有节点连接。一旦采取行为,其余的断开连接的候选子图将被删除。
(3) State Transition Dynamics
特定于域的规则已纳入状态转换动态中。环境执行符合给定规则的动作。策略网络提出的不可行操作被拒绝,状态保持不变。对于分子生成的任务,环境结合了化学规则。
(4) Reward design
中间奖励和最终奖励均用于指导 RL 智能体的行为。我们将最终奖励定义为特定领域奖励和对抗性奖励的总和。特定领域的奖励包括最终属性得分(的组合),例如辛醇-水分配系数(logP),药物相似性(QED)和分子量(MW)。特定领域的奖励还包括根据各种标准对不切实际的分子进行惩罚,例如过度的空间应变和违反ZINC官能团过滤器的官能团的存在。中间奖励包括逐步有效性奖励和对抗性奖励。 如果操作不违反效价规则,则分配少量的正面奖励,否则分配较小的负面奖励。
为了确保生成的分子类似于给定的分子集,我们采用了生成对抗网络(GAN)框架来定义对抗性奖励 V ( π θ , D ϕ ) V(\pi_{\theta}, D_{\phi}) V(πθ,Dϕ):
其中 π θ \pi_{\theta} πθ是策略网络, D ϕ D_{\phi} Dϕ是鉴别器网络, x x x表示输入图 p d a t a p_{data} pdata是在最终图(用于最终奖励)或中间图(用于中间奖励)上定义的基础数据分布。但是,只能使用随机梯度下降来训练 D ϕ D_{\phi} Dϕ,因为 x x x是相对于参数 ϕ \phi ϕ不可微的图形对象。 取而代之的是,我们将 V ( π θ , D ϕ ) V(\pi_{\theta}, D_{\phi}) V(πθ,Dϕ) 与其他奖励一起用作附加奖励,并使用策略梯度方法优化总奖励。 鉴别器网络采用策略网络的相同结构来计算节点嵌入,然后将其嵌入到图嵌入中并转换为标量预测。
图卷积策略网络
计算结点嵌入 为了执行链接预测,该模型首先使用图卷积神经网络计算输入图的结点嵌入。GCN 是一个在分子表示学习上取得最先进性能的技术。总体的想法是对每种边类型执行总共L层的消息传递。
行为预测 基于行为的链接预测是 4 个组件的拼接:两个结点的选择,边类型的预测,终止预测。具体而言,每个组件通过公式 3、4 表示的预测的分布进行采样。
策略梯度训练
基于策略梯度的方法被广泛用于优化策略网络。 在这里,我们采用最新的策略优化(PPO)[35],这是最新的策略梯度方法之一。 PPO的目标函数定义如下:
其中 r t ( θ ) r_{t}(\theta) rt(θ)是裁剪到 [ 1 − ϵ , 1 + ϵ ] [1-\epsilon, 1+\epsilon] [1−ϵ,1+ϵ]范围的概率比,使 L C L I P ( θ ) L^{\mathrm{CLIP}}(\theta) LCLIP(θ)成为保守策略迭代目标的下限, A ^ t \hat{A}_{t} A^t是估计优势 函数包括学习值函数 V ω ( ⋅ ) V_{\omega}(\cdot) Vω(⋅),以减少估计的方差。 在GCPN中, V ω ( ⋅ ) V_{\omega}(\cdot) Vω(⋅)是一个MLP,它映射计算的图嵌入。
数据
数据集: ZINC250k分子数据集,其中包含250,000种药物,例如市售的最大原子数为38的分子。
指标
属性优化
- logP
- QED
定位属性 - 分子量(MW)
边栏推荐
- MySQL 5.7 安装教程(全步骤、保姆级教程)
- 《c语言小游戏》入门级三子棋游戏(机器人加强版)
- 【pytorch记录】pytorch的分布式 torch.distributed.launch 命令在做什么呢
- 一、MySQL主从复制原理
- ScheduledExecutorService - 定时周期执行任务
- 动态顺序表的增删查改(C语言实现)
- The torch distributed training
- [Mini Program Project Development--Jingdong Mall] Custom Search Component of uni-app (Part 1)--Component UI
- MySQL 8.0.29 解压版安装教程(亲测有效)
- 【云原生与5G】微服务加持5G核心网
猜你喜欢

sqlmap使用教程大全命令大全(图文)

【黄啊码】MySQL入门—3、我用select ,老板直接赶我坐火车回家去,买的还是站票

Ubuntu22.04安装mysql

First acquaintance with NK-RTU980 development board
![[Cloud native] Introduction and use of Feign of microservices](/img/39/05cf7673155954c90e75a8a2eecd96.jpg)
[Cloud native] Introduction and use of Feign of microservices

How on one machine (Windows) to install two MYSQL database

【云原生与5G】微服务加持5G核心网

使用PageHelper实现分页查询(详细)

免安装版的Mysql安装与配置——详细教程

SSM框架简单介绍
随机推荐
力扣 593. 有效的正方形
How to Install MySQL on Linux
mysql insert new field method
Docker-compose安装mysql
[What is the role of auto_increment in MySQL?】
[Yellow ah code] Introduction to MySQL - 3. I use select, the boss directly drives me to take the train home, and I still buy a station ticket
7/28-7/29 Expectation + thinking + suffix array + ST table
Open Source | Commodity Recognition Recommender System
SQL 入门之第一讲——MySQL 8.0.29安装教程(windows 64位)
regex bypass
关于Error EPERM operation not permitted, mkdir...几种解决办法的比较
【C#】说说 C# 9 新特性的实际运用
Flutter Paystack 所有选项实现
shell/bash脚本命令教程
会话技术之Coookie && Session详解
The first part of the R language
Vscode: Project-tree plugin
C语言三子棋(井字棋)小游戏
R语言 第一部分
免安装版的Mysql安装与配置——详细教程