当前位置：网站首页>《CGNF: CONDITIONAL GRAPH NEURAL FIELDS》阅读笔记

《CGNF: CONDITIONAL GRAPH NEURAL FIELDS》阅读笔记

2022-07-02 05:33:00 【斯曦巍峨】

一.文章概述

在大多数GNNs中，并没有考虑节点标签间的依赖性。为此，作者将条件随机场（Conditional Random Fields, CRF）和图卷积网络整合在一起提出了CGNF（Conditional Graph Neural Network），该模型显式地建模了整个节点标签集的联合概率，从而在节点标签预测任务中能够利用邻域标签信息。

二.背景知识

2.1 图卷积网络

GCN中图卷积层的数学形式如下：
$\boldsymbol{H}^{(l+1)}=\sigma\left(\tilde{\boldsymbol{D}}^{-\frac{1}{2}} \tilde{\boldsymbol{A}} \tilde{\boldsymbol{D}}^{-\frac{1}{2}} \boldsymbol{H}^{(l)} \boldsymbol{W}^{(l)}\right)$
其中 $\tilde{A}=\boldsymbol{A}+\boldsymbol{I}$ 表示添加了自环的邻接矩阵， $\tilde{D}$ 是 $\tilde{A}$ 对应的度矩阵（对角阵）， $\boldsymbol{H}^{(l)}$ 表示第 $l$ 层的节点表示， $\boldsymbol{W}^{(l)}$ 表示第 $l$ 层的权重矩阵， $\sigma$ 表示激活函数，常用的为ReLU。

2.2 条件随机场

条件随机场（CRF）是一种无向概率图模型，通常用于结构预测任务。给定输入特征 $\in \mathbb{R}^{d}$ ，CRF旨在找到最大化条件概率 $P(\boldsymbol{y} \mid \boldsymbol{x})$ 的标签集 $\boldsymbol{y}$ 。在无向图上，CRF计算联合概率分布的方式是因子分解，即：
$P(\boldsymbol{y} \mid \boldsymbol{x})=\frac{1}{Z(\boldsymbol{x})} \prod_{c} \Phi_{a}\left(\boldsymbol{x}_{c}, \boldsymbol{y}_{c}\right)$
其中 $c$ 表示图中的团， $\boldsymbol{x}_{c}$ 表示团 $c$ 中所有顶点对应的特征， $\Phi_{c}$ 表示势函数， $Z(\boldsymbol{x})=\sum_{\boldsymbol{y}_{c}^{\prime}} \prod_{c} \Phi_{a}\left(\boldsymbol{x}_{c}, \boldsymbol{y}_{c}^{\prime}\right)$ 表示归一化因子（用来保证计算出的概率值是合法的）。

团指的是所有顶点都有边连接的子图。

三.CGNF详细介绍

首先给出符号表以方便后续介绍：

CGNF_Notation

3.1 训练

CGNF的第一步是将输入图 $G=\{\boldsymbol{X}, \boldsymbol{Y}, \boldsymbol{A}\}$ 过一下Kipf和Welling提出来的2层GCN模型，即：
$\boldsymbol{H}=f(\boldsymbol{X}, \boldsymbol{A})=\operatorname{Softmax}\left(\hat{\boldsymbol{A}} \operatorname{ReLu}\left(\hat{\boldsymbol{A}} \boldsymbol{X} \boldsymbol{W}^{0}\right) \boldsymbol{W}^{1}\right)$
随后，作者考虑节点特征和标签依赖性的影响，定义能量函数（energy function）如下：
$E(\boldsymbol{Y}, \boldsymbol{X}, \boldsymbol{A})=E_{c}\left(\boldsymbol{Y}_{c}, \boldsymbol{X}_{c}, \boldsymbol{A}\right)=\sum_{i} \psi\left(\boldsymbol{y}_{i}, \boldsymbol{x}_{i}\right)+\gamma \sum_{(i, j) \in \mathcal{E}, i<j} \phi\left(\boldsymbol{y}_{i}, \boldsymbol{y}_{j}, A_{i, j}\right)$
其中 $c$ 表示团， $\mathcal{E}$ 表示边集， $\psi(\cdot)$ 为一元势函数（用来策略观测节点 $x_i$ 与标签 $y_i$ 间的相容性compatibility，即观测值为 $x_i$ 时属于 $y_i$ 类的概率），成对势函数 $\phi(\cdot)$ 用于捕捉标签相关性。基于该能量函数，可以导出Gibbs分布：
$P(\boldsymbol{Y} \mid \boldsymbol{X}, \boldsymbol{A})=\frac{\exp (-E(\boldsymbol{Y}, \boldsymbol{X}, \boldsymbol{A}))}{\sum_{\boldsymbol{Y}^{\prime} \in \mathcal{Y}} \exp \left(-E\left(\boldsymbol{Y}^{\prime}, \boldsymbol{X}, \boldsymbol{A}\right)\right)}=\frac{\exp (-E(\boldsymbol{Y}, \boldsymbol{X}, \boldsymbol{A}))}{Z(\boldsymbol{X}, \boldsymbol{A})}$
作者的目标便是最大化该条件概率，即：
$\begin{aligned} E(\boldsymbol{Y}, \boldsymbol{X}, \boldsymbol{A}) &=\sum_{i} \psi\left(\boldsymbol{y}_{i}, \boldsymbol{h}_{\boldsymbol{i}}\right)+\gamma \sum_{(i, j) \in \mathcal{E}, i<j} \phi\left(\boldsymbol{y}_{i}, \boldsymbol{y}_{j}, \hat{A}_{i, j}\right) \\ &=\sum_{i}\left(\psi\left(\boldsymbol{y}_{i}, \boldsymbol{h}_{i}\right)+\frac{\gamma}{2} \sum_{j \in N(i)} \phi\left(\boldsymbol{y}_{i}, \boldsymbol{y}_{j}, \hat{A}_{i, j}\right)\right) \end{aligned}$
其中 $h_i$ 是通过2层GCN模型获取到的节点表示， $\hat{A}_{i, j}$ 是正则化后的邻接矩阵中的原始, $N (i)$ 是节点 $i$ 的邻域。两个势函数的计算公式如下：
$\begin{aligned} \psi\left(\boldsymbol{y}_{i}, \boldsymbol{h}_{i}\right) &=-\log p\left(\boldsymbol{y}_{i} \mid \boldsymbol{h}_{i}\right)=-\sum_{k} y_{i, k} \log h_{i, k} \\ \phi\left(\boldsymbol{y}_{i}, \boldsymbol{y}_{j}, \hat{A}_{i, j}\right) &=-2 \hat{A}_{i, j} U_{y_{i}, y_{j}} \end{aligned}$
从上述公式可以看出 $\psi\left(\boldsymbol{y}_{i}, \boldsymbol{h}_{i}\right)$ 实际就是交叉熵， $U_{y_{i}, y_{j}} \in \boldsymbol{U}$ 是标签 $y_i$ 和 $y_j$ 之间可学习的相关性权重。采用类似传统CRF的做法，作者使用负对数似然来作为训练的目标函数：
$\begin{aligned} -\log P(\boldsymbol{Y} \mid \boldsymbol{X}, \boldsymbol{A}) &=E(\boldsymbol{Y}, \boldsymbol{X}, \boldsymbol{A})+\log Z(\boldsymbol{X}, \boldsymbol{A}) \\ &=E(\boldsymbol{Y}, \boldsymbol{X}, \boldsymbol{A})+\log \sum_{\boldsymbol{Y}^{\prime}} \exp \left(-E\left(\boldsymbol{Y}^{\prime}, \boldsymbol{X}, \boldsymbol{A}\right)\right) \end{aligned}$
在推断（inference）的时候，只需 $\min _{\boldsymbol{Y}} E(\boldsymbol{Y}, \boldsymbol{X}, \boldsymbol{A})$ 即可。但比上述训练目标优化比较困难，为此作者采用伪似然来对其进行近似：
$P(\boldsymbol{Y} \mid \boldsymbol{X}, \boldsymbol{A}) \approx P L(\boldsymbol{Y} \mid \boldsymbol{X}, \boldsymbol{A})=\prod_{i} P\left(\boldsymbol{y}_{i} \mid \boldsymbol{y}_{N(i)}, \boldsymbol{X}, \boldsymbol{A}\right)$
其中：
$\begin{aligned} P\left(\boldsymbol{y}_{i} \mid \boldsymbol{y}_{N(i)}, \boldsymbol{X}, \boldsymbol{A}\right) &=\frac{\exp \left(-\psi\left(\boldsymbol{y}_{i}, \boldsymbol{h}_{\boldsymbol{i}}\right)-\gamma \sum_{j \in N(i)} \phi\left(\boldsymbol{y}_{i}, \boldsymbol{y}_{j}, \hat{A}_{i, j}\right)\right.}{\sum_{\boldsymbol{y}_{i}^{\prime}}\left(\exp \left(-\psi\left(\boldsymbol{y}_{i}^{\prime}, \boldsymbol{h}_{\boldsymbol{i}}\right)-\gamma \sum_{j \in N(i)} \phi\left(\boldsymbol{y}_{i}^{\prime}, \boldsymbol{y}_{j}, \hat{A}_{i, j}\right)\right)\right.} \\ &=\frac{\exp \left(-\log p\left(\boldsymbol{y}_{i} \mid \boldsymbol{h}_{\boldsymbol{i}}\right)-2 \gamma \sum_{j \in N(i)} \hat{A}_{i, j} U_{y_{i}, y_{j}}\right.}{\sum_{\boldsymbol{y}_{i}^{\prime}}\left(\exp \left(-\log p\left(\boldsymbol{y}_{i}^{\prime} \mid \boldsymbol{h}_{\boldsymbol{i}}\right)-2 \gamma \sum_{j \in N(i)} \hat{A}_{i, j} U_{y_{i}^{\prime}, y_{j}}\right)\right.} \end{aligned}$
$\boldsymbol{y}_{i}^{\prime}$ 是节点 $\boldsymbol{x}_{i}$ 的所有可能标签。因此，新的训练目标为：
$\begin{aligned} &-\log P L(\boldsymbol{Y} \mid \boldsymbol{X}, \boldsymbol{A})=\sum_{i}-\log P\left(\boldsymbol{y}_{i} \mid \boldsymbol{y}_{N(i)}, \boldsymbol{X}, \boldsymbol{A}\right)= \\ &\sum_{i}\left(\psi\left(\boldsymbol{y}_{i}, \boldsymbol{h}_{i}\right)+\gamma \sum_{j \in N(i)} \phi\left(\boldsymbol{y}_{i}, \boldsymbol{y}_{j}, \hat{A}_{i, j}\right)+\log \sum_{\boldsymbol{y}_{i}^{\prime}}\left(\exp \left(-\psi\left(\boldsymbol{y}_{i}^{\prime}, \boldsymbol{h}_{\boldsymbol{i}}\right)-\gamma \sum_{j \in N(i)} \phi\left(\boldsymbol{y}_{i}^{\prime}, \boldsymbol{y}_{j}, \hat{A}_{i, j}\right)\right)\right)\right. \\ &=-\sum_{i, k}(\boldsymbol{Y} \odot \log \boldsymbol{H})_{i, k}-2 \gamma \sum_{i, j, i \neq j}\left(\hat{\boldsymbol{A}} \odot\left(\boldsymbol{Y} \boldsymbol{U} \boldsymbol{Y}^{T}\right)\right)_{i, j}+\sum_{i} \log \sum_{k}(\boldsymbol{H} \odot \exp (2 \gamma \hat{\boldsymbol{A}} \boldsymbol{Y} \boldsymbol{U}))_{i, k} \end{aligned}$
$\odot$ 表示逐元素乘法。

3.2 推断

如前文介绍的，在推断的时候仅需优化如下目标：
$\min _{\hat{\boldsymbol{Y}}_{t e}} E\left(\hat{\boldsymbol{Y}}_{t e}, \boldsymbol{X}, \boldsymbol{A}, \boldsymbol{Y}_{t r}\right)=\min _{\hat{\boldsymbol{Y}}_{t e}}\left[-\log p\left(\hat{\boldsymbol{Y}}_{t e} \mid \boldsymbol{H}\right)-\gamma \sum_{i \neq j}\left(\hat{\boldsymbol{A}} \odot\left(\hat{\boldsymbol{Y}} \boldsymbol{U} \hat{\boldsymbol{Y}}^{T}\right)\right)_{i, j}\right]$
其中 $\hat{\boldsymbol{Y}}=$ concatenate $\left(\boldsymbol{Y}_{t r}, \hat{\boldsymbol{Y}}_{t e}\right)$ 。作者在论文中提到了两种推断方法。

3.2.1 推断方法一

最简单的推断方法是不考虑标签间的相关性，即：
$y_{i}=\underset{y_{j}}{\arg \min } E\left(\boldsymbol{y}_{i}, \boldsymbol{Y}_{t r}, \boldsymbol{X}, \boldsymbol{A}\right)=\underset{j}{\arg \min }\left[-\log \left(\boldsymbol{h}_{i}\right)-2 \gamma \hat{\boldsymbol{A}}_{t r} \boldsymbol{Y} \boldsymbol{U}^{T}\right]_{j}$