论文速读<二>:GNN系列

论文速读<二>:GNN系列

论文速读系列的第二期,论文速读主要提取论文的Key Idea,本期为GNN系列的论文速读,选取了4篇经典论文和3篇近期的论文。上期为知识图谱领域的关系抽取。

Key Idea

Semi-supervised Classification with Graph Convolutional Networks[1]

GCN的核心公式如下,其中\(\sigma\)表示激活函数,\(\tilde A=A+I\),也就是给每个结点加个自环,\(\tilde D=\sum_i A_{ij}\)\(H^{(l)}\)为第\(l\)层的embedding,\(W\)是参数矩阵。它的形式看起来非常简单。 \[ H^{(l+1)}=\sigma (\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}H^{(l)}W^{(l)}) \] 从卷积的参数共享角度来看,其实就是每个结点的将自己与附近的参数聚合。第1次聚合后每个结点获取了直接邻居结点的特征,但第2次聚合就可以获取间接邻居的特征(因为直接邻居包含了它的邻居的特征)。所以在多层聚合下,每个结点可以获得全局的信息。

Graph Attention Networks[2]

GAN就是在GNN中加入注意力机制

以下是注意力的计算公式,其中\(\vec h_i,shape(F,1);W,shape(F',F);\vec a,shape(2F',1)\)\(||\)表示连接。看起来就是对2个向量进行线性变换后连接,再通过\(\vec a\)他们获取之间的相关性,再做一个归一化。

\[ \alpha_{ij}=\frac{\exp(LeakyReLU(\vec a^T[W\vec h_i|| W\vec h_j]))}{\sum_{k\in N_i}\exp(LeakyReLU(\vec a^T[W\vec h_i||W\vec h_j]))} \] 和普通神经网络的注意力机制相同,GAN中也分为多头和单头的注意力机制。

\(\vec h_i\)的更新,单头注意力 \[ \vec h'_i = \sigma(\sum_{j\in N_i} \alpha_{ij}W\vec h^i) \] 2种多头注意力的实现 \[ \vec h'_i = ||^{K}_{k=1} \sigma(\sum_{j\in N_i} \alpha^k_{ij}W^k\vec h^i)\\ \vec h'_i = \sigma(\frac{1}{K}\sum^{K}_{k=1}\sum_{j\in N_i} \alpha^k_{ij}W^k\vec h^i) \]

How Powerful are Graph Neural Networks?[3]

这篇文章理论方面证明了GNN的上限是WL test(图同构测试)的上接,总结了信息聚合的方法以及对GNN的评价指标。 \[ h_{k+1}(u) = MLP((1+\epsilon) h_k(u) + \sum_{(u,v) \in E} h_k(v)) \] 其中\(\epsilon\)是一个可学习的无理数参数。该论证证明了其可以达到WL test的上界。

Inductive Representation Learning on Large Graphs[4]

如上图所示,GraphSAGE可以分为3个步骤:1. 对图中每个顶点邻居顶点进行采样;2. 根据聚合函数聚合邻居顶点蕴含的信息;3. 得到图中各顶点的向量表示供下游任务使用。

每层的embedding生成可以用如上图的伪代码表示。其中AGGREGATE可以使用均值、池化以及LSTM函数。

Finding Global Homophily in Graph Neural Networks When Meeting Heterophily[5]

全局同质性、异质图。现有的网络通过多次的领域聚合获取远距离的信息。本文通过相关系数矩阵(类似于注意力机制)获取全局信息。且相关系数矩阵可转换为有闭式解的优化问题,经过简化,可将计算复杂度缩小至线性。

GloGNN,GloGNN++(系数矩阵加上了自相关)。

核心公式 \[ H^{(0)}=(1-\alpha)MLP_1(X)+\alpha MLP_2(A)\\ H^{(l+1)}=(1-\gamma)Z^{(l)*}H^{(l)}+\gamma H^{(0)}\\ \] \(Z^{(l)*}\)通过求解优化问题的闭式解获得。

Grouping Effect:通过证明可得,\(Z^{(l*)},(Z^{(l*)})^T,H^{(l+1)}\)都具有grouping effect。即当特征足够接近、结构足够接近时,对应结点的特征表示也足够接近,相关系数也足够接近。

Large Scale Learning on Non-Homophilous Graphs: New Benchmarks and Strong Simple Methods[6]

LINKX是一个看起来很简单的模型,是基于MLP,并没有作卷积操作。它首先将结点的特征矩阵与邻接矩阵经过分别经过2个MLP,然后再做一个连接,接着与参数矩阵\(W\)相乘,和前面经过MLP层的输出(类似于ResNet)

相加,接着经过一个激活函数和MLP,输出结果。

Gnnautoscale: Scalable and expressive graph neural networks via historical embeddings[7]

改论文主要聚焦于如何减小大型图数据训练的计算和内存开销。

GAS 框架有两个主要组成部分:

首先,第一部分是构建一个小批量节点(执行快速随机子采样)并修剪 GNN 计算图以仅保留小批量内的节点及其 1 跳邻居节点——这意味着 GAS 的尺度独立于 GNN 深度。其次,每当 GNN 聚合需要小批量节点嵌入时,GAS 就会从存储在 CPU 上的历史嵌入中检索它们。同时,当前小批量节点的历史嵌入也不断更新。

第二部分是与子采样的关键区别——能够使 GNN 最大限度地表达信息,并将当前的小批量数据和历史嵌入组合起来,得到完整的邻域信息并加以利用,同时确保对大型图的可扩展性。

GAS 的作者还将他们的想法整合到流行的 PyTorch 几何库中。于是可以在非常大的图上训练大多数的消息传递 GNN,同时降低 GPU 内存需求并保持接近全批次的性能(即在全图上训练时的性能)。

参考资料


论文速读<二>:GNN系列
http://vitaminzl.com/2022/09/02/gnn/lun-wen-su-du-2-gnn-xi-lie/
作者
vitaminzl
发布于
2022年9月2日
许可协议