当前位置：网站首页>2019 NeurIPS | Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

2019 NeurIPS | Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

2022-07-31 07:55:00 【发呆的比目鱼】

2019 NeurIPS | Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

Paper: http://papers.neurips.cc/paper/7877-graph-convolutional-policy-network-for-goal-directed-molecular-graph-generation.pdf
Code: https://github.com/bowenliu16/rl_graph_generation

目标导向分子图生成的图卷积策略网络

分子图生成任务是发现具有所需特性（如药物样和合成可及性）的新分子，同时遵守物理定律（如化学价）。然而，设计模型以找到优化所需特性同时结合高度复杂和不可微的规则的分子仍然是一项艰巨的任务。因此，作者提出了基于图卷积网络的通用模型–GCPN网络。模型是通过策略梯度来优化特定领域的奖励和竞争性损失来训练的，并在包含特定领域规则的环境中发挥作用。

模型

将图 $G$ 表示为 $(A, E, F)$ ，其中

$\in \{0,1\}^{n \times n}$ 是邻接矩阵
$\in R^{n \times d}$ 是顶点特征矩阵，每个顶点有d dd维特征
定义 $\in \{0, 1\}^{b \times n \times n}$ 为离散边条件相邻向量，假设有 $b$ 种类型边。如果顶点 $j$ 和 $k$ 之间有 $i$ 种类型的边，则 $E_{i,j,k} = 1$ 且 $A=\sum^b_{i=1}E_i$

目标是生成最大化给定特性函数 $\in R$ 的图,例如最大化 $E_G'[S(G')]$ ,其中 $G^{'}$ 是产生的图， $S$ 可以是一个或多个感兴趣的特定于域的统计信息。

图生成的马尔可夫决策过程

构建该模型的关键任务是指定一个生成过程。作者设计一个迭代的图生成过程，并将它表述为一个通用决策过程，它包括： - 一个包含所有中间和结果图的状态的集合 - 描述每个时间步对当前图可能的修改的行为集合 - 执行某个操作的可能结果的转换动态 - 到达某状态后指定奖励的奖励函数。

(1) State Space
作者将环境的状态定义为某一时间步的中间图，它完全通过 RL 智能体来观察。
(2) Action Space
首先作者定义一个候选子图集合，它在图生成过程中被添加。给定某一时间步的图，作者定义一个对应的扩展图，它是其中一个候选子图和该时间步图的并集。在此定义下，行为可以对应于将新子图连接到上一时间步的图中的节点，也可以将该时间步图中的现有节点连接。一旦采取行为，其余的断开连接的候选子图将被删除。

(3) State Transition Dynamics
特定于域的规则已纳入状态转换动态中。环境执行符合给定规则的动作。策略网络提出的不可行操作被拒绝，状态保持不变。对于分子生成的任务，环境结合了化学规则。

(4) Reward design
中间奖励和最终奖励均用于指导 RL 智能体的行为。我们将最终奖励定义为特定领域奖励和对抗性奖励的总和。特定领域的奖励包括最终属性得分（的组合），例如辛醇-水分配系数（logP），药物相似性（QED）和分子量（MW）。特定领域的奖励还包括根据各种标准对不切实际的分子进行惩罚，例如过度的空间应变和违反ZINC官能团过滤器的官能团的存在。中间奖励包括逐步有效性奖励和对抗性奖励。如果操作不违反效价规则，则分配少量的正面奖励，否则分配较小的负面奖励。

为了确保生成的分子类似于给定的分子集，我们采用了生成对抗网络（GAN）框架来定义对抗性奖励 $V(\pi_{\theta}, D_{\phi})$ :

其中 $\pi_{\theta}$ 是策略网络， $D_{\phi}$ 是鉴别器网络， $x$ 表示输入图 $p_{data}$ 是在最终图（用于最终奖励）或中间图（用于中间奖励）上定义的基础数据分布。但是，只能使用随机梯度下降来训练 $D_{\phi}$ ，因为 $x$ 是相对于参数 $\phi$ 不可微的图形对象。取而代之的是，我们将 $V(\pi_{\theta}, D_{\phi})$ 与其他奖励一起用作附加奖励，并使用策略梯度方法优化总奖励。鉴别器网络采用策略网络的相同结构来计算节点嵌入，然后将其嵌入到图嵌入中并转换为标量预测。

图卷积策略网络

计算结点嵌入 为了执行链接预测，该模型首先使用图卷积神经网络计算输入图的结点嵌入。GCN 是一个在分子表示学习上取得最先进性能的技术。总体的想法是对每种边类型执行总共L层的消息传递。

行为预测 基于行为的链接预测是 4 个组件的拼接：两个结点的选择，边类型的预测，终止预测。具体而言，每个组件通过公式 3、4 表示的预测的分布进行采样。

策略梯度训练

基于策略梯度的方法被广泛用于优化策略网络。在这里，我们采用最新的策略优化（PPO）[35]，这是最新的策略梯度方法之一。 PPO的目标函数定义如下：

其中 $r_{t}(\theta)$ 是裁剪到 $[1-\epsilon, 1+\epsilon]$ 范围的概率比，使 $L^{\mathrm{CLIP}}(\theta)$ 成为保守策略迭代目标的下限， $\hat{A}_{t}$ 是估计优势函数包括学习值函数 $V_{\omega}(\cdot)$ ，以减少估计的方差。在GCPN中， $V_{\omega}(\cdot)$ 是一个MLP，它映射计算的图嵌入。