论文分享|[DASFAA 2024]AoSE-GCN: 用于空间增强GCN的注意感知聚合算子

来源: 安春燕/

内蒙古大学

1725

2024-07-26 10:29:36

2024-07-26

本次分享由安春燕团队投稿在 DASFAA 2024的论文《AoSE-GCN: Attention-aware Aggregation Operator for Spatial-Enhanced GCN》。该论文一作是2022级研究生叶家震，通讯作者是安春燕。该论文提出了一个名为L_att的注意力感知聚合算子（attention-aware aggregation operator）并从空间角度提出了邻域聚合增强的AoSE-GCN模型。AoSE-GCN弥补了GCN在捕捉局部邻域细节的不足，同时包含了拉氏算子天然携带的全局结构视野，使其可以感知图网络全局和局部两种不同的域。此外，该文章为我们研究GCN等谱图网络提供了一种从空间增强的新视角。

摘要：图神经网络(Graph Neural Networks, gnn)在各种与图相关的应用中取得了显著的成功，大致可分为基于空间和基于频谱的方法。特别是，空间方法可以很好地捕获局部邻域，但缺乏全局结构洞察力，因为它们是基于聚合算子在局部节点上定义的。相反，光谱方法包含全局结构信息，但由于拉普拉斯矩阵的性质而难以获得局部细节。值得注意的是，频谱方法在滤波器上采用频率分量调整来实现有效的卷积，但与空间方法相比，它们仍然不那么灵活。挑战在于平衡这些方法，使GNN模型能够捕获全局级和局部级信息，从而促进图表示学习。为了解决这个问题，我们引入了一个新的注意力感知聚合算子，表示为Latt，通过在拉普拉斯矩阵中附加注意力得分作为附加权重。受其优点的启发，我们将Latt集成到GCN模型中，以感知不同层次的场，称为AoSE-GCN。值得注意的是，我们的Latt并不局限于GCN，任何光谱方法都可以很容易地插入。在基准数据集上的大量实验验证了AoSE-GCN在全监督或半监督设置下节点分类任务的优越性。

1 Introduction

图神经网络(GNN)在各种与图相关的应用中取得了显著的成功，包括社会分析[3]、流量预测[12]和推荐系统[4]。它们有效学习图中复杂关系的能力使其适用于节点分类 [32,19]、链接预测[26]和图分类[1]等任务。

各种类型的GNN已经被开发出来[13,30,2,7,19,24]，根据卷积算子可以将其分为空间域和谱域图卷积。在空间域中，直接在节点域中定义卷积，使用聚集算子收集局部邻域信息来学习节点表示。这个过程通常通过消息传递框架[11]进行封装和泛化。例如，GraphSAGE[13]通过随机抽样聚合加权的相邻节点，生成节点表示。类似地，GAT[30]基于注意机制计算相邻节点的权重，MoNet[24]通过平均相邻节点上定义的加权函数来学习节点表示。虽然这些方法对于捕获局部节点邻域的信息是有效的，但它们往往忽略了对全局结构的洞察。另一方面，光谱方法包含全局结构信息，但由于拉普拉斯矩阵的性质，往往难以获得局部细节。频谱GNN基于卷积定理定义卷积。例如，SCNN[2]全局使用拉普拉斯特征分解在谱域进行图表示，而不是局部化。此外，ChebyNet[7]和GCN[19]使用Chebyshev多项式作为卷积核参数，实现了局部卷积。为了更有效地捕获局部结构的信息， ChebyNet- II[15]通过Chebyshev插值增强了原始ChebyNet的逼近能力。 BernNet[14]模型采用Bernstein多项式来近似图滤波器的频率响应，使其能够学习任意滤波器。GPR-GNN[6]模型通过基于单项的图卷积近似来推导低通或高通滤波器。虽然频谱方法调整滤波器的频率成分以获得有效的卷积，但与空间域方法不同，它们在直接和灵活地从空间背景下的局部邻域结构中聚合信息方面面临挑战。因此，在这些方法之间取得平衡对于释放基于图的学习的全部潜力至关重要。

为了研究全局结构信息的最佳利用和局部相邻细节的灵活聚集，我们通过光谱方法的空间解释来解决这个问题。频谱方法通过调整滤波器频率分量有效地实现卷积，其中局部聚集中相邻节点的权重与这些频率分量权重的调整很好地对应，正如Chen[5]在一项全面调查中所强调的那样。此外，MPNN[11]提供了频谱方法的简洁总结，使用拉普拉斯矩阵多项式来捕获消息传递过程中的局部结构。在这个过程中，拉普拉斯矩阵作为图拉普拉斯算子[28]，在卷积逼近中包含全局和局部信息。值得注意的是，在 ChebyNet和GCN等近似卷积过程中，可以绕过拉普拉斯矩阵的特征值分解，从光谱方法的空间角度来看，使其更类似于聚合算子。然而，必须注意的是，该算子仅限于捕获基本的邻域节点关系，从而限制了其有效性。

为了解决这些挑战，我们提出了一种新颖的注意力感知聚合算子，表示为 L_att，其中注意力得分作为额外的权重附加。这种添加允许在拉普拉斯矩阵的邻域节点之间调整扰动增益。为了实证证明聚合算子L_att的有效性，我们将其无缝集成到图卷积网络(GCN)模型中，从而增强了空间域内的近似卷积过程。特别地，我们引入了一种新的GCN变体，称为AoSE-GCN，它使用Latt代替拉普拉斯矩阵来捕获局部邻域内的有效信息。这种战略替代确保了我们的模型不仅封装了全局信息，而且还识别了局部结构内邻近节点的重要性。值得注意的是，我们设计的聚合算子并不仅仅局限于GCN模型，它通过对拉普拉斯矩阵的微小修改，提供了与各种光谱方法集成的多功能性。

我们的贡献可以总结如下:

从理论上分析拉普拉斯矩阵在获取图上节点的局部结构时的摄动增益，它可以被概念化为作用于空间域内图的简单聚合算子。
我们提出了一个注意力感知聚合算子L_att来取代卷积近似中的拉普拉斯算子，以平衡全局和局部信息。我们还通过将L_att纳入基本GCN模型，提出了用于图表示学习的AoSE-GCN模型。
实验结果表明，注意感知聚合算子L_att有效地增强了各种基准图数据集上的模型。

2 Related Work

2.1 Spatial Graph Neural Networks

在空间图神经网络(GNNs)中，卷积是在节点域中定义的，展示了利用各种聚合函数灵活捕获局部邻域信息的非凡能力。例如，GraphSAGE[13]采用邻域节点的随机抽样和一组不同的聚类函数来进行节点表示学习。GAT[30]利用注意机制定义聚合函数，实现有效的节点表示学习。DCNN[1]利用从随机行走中获得的K-hop转移概率作为节点间的权重聚合。GAM[22]采用注意机制引导的随机行走对有效节点进行采样，捕获图结构中的关键区域连通性信息。 ConfGCN[29]为每个节点学习一个置信度函数，影响节点相关性并修正聚合函数。HGNN[9]将边缘扩展为连接多个节点的超边缘，并定义超边缘上的聚合函数，用于节点特征传播。MoNet[24]将每个节点的局部结构映射到相同大小的向量，并在映射结果上学习共享卷积核。PGC[34]定义了一个采样函数来构建节点邻域，并与卷积过程的特定加权函数相乘。

虽然空间方法在捕获邻域信息方面表现出丰富而灵活的手段，但它们的重点往往放在局部邻域上，往往忽略了全局结构的洞察力。相比之下，我们提出的方法引入了注意力感知聚合算子L_att来近似卷积操作。这一创新允许同时考虑全局视图和局部结构，有效地补偿了空间方法在全局洞察力方面的局限性。

2.2 Spectral Graph Neural Networks

谱图神经网络(GNNs )基于谱图理论定义图卷积，通过学习滤波器调整频率分量，实现有效的卷积。SCNN[2]开创了谱域图卷积，直接学习图卷积的滤波器系数。GCN[19]使用一阶切比雪夫多项式近似，被认为是一种有效的低频滤波器。GraphHeat[32]增强低频滤波器，并使用热核抑制高频波。 APPNP[20]和GDC[21]使用perpersonalized PageRank (PPR)设置低频滤波的过滤权值。GNN-LF/HF[37]设计滤波器，从图形优化器的角度模拟高通和低通滤波器。ChebNet[7]采用切比雪夫多项式近似滤波运算来学习任意滤波器。Chebynet-II[15]通过切比雪夫插值增强了切比雪夫多项式近似，以更好地学习任意图卷积。GPR-GNN[6]通过图卷积的基于单项式的近似派生出低通或高通滤波器。BernNet[14]使用Bernstein多项式来近似图滤波器的频率响应，使其能够学习任意滤波器。

虽然这些频谱方法专注于学习有效滤波器，但它们通常不如空间方法灵活，后者直接从空间角度定义卷积ag-gregates。在我们的方法中，我们引入了注意力感知聚合算子L_att作为拉普拉斯算子在逼近卷积运算中的替代品。L_att直接在空间域上使用注意算子有效地执行局部聚合，与传统的光谱方法相比，提供了更强的灵活性。

2.3 Other Graph Neural Networks

有很多方法专门用于不同类型的图，包括同构图和异构图。例如，GCN和 Graph-SAGE专注于同构图。此外，还提出了许多方法，如HetGNN[36]、 RGCN[26]、HAN[31]等，来学习异构图表示。例如，Metapath2vec[8]通过基于元路径和随机漫步策略捕获不同类型节点和关系的结构和语义相关性来学习图表示。HIN2vec[10]在异构网络中探索丰富的信息和网络结构。

通过捕获节点之间的多个元路径。HetGNN[36]通过带重启策略的随机行走对节点的异构邻居进行强相关采样，并聚合这些邻居信息，生成最终的节点 em- bedingrepresentation。R-GCN[26]分别学习不同类型关系下节点的节点表示，最后叠加更新最终节点嵌入表示。HAN[31]通过学习节点级和语义级的关注，充分考虑了节点和元路径的重要性，增强了模型学习异构图节点表示的能力。值得注意的是，很少有文献探讨空间/光谱GNN 与异构图的结合。在应用拉普拉斯算子进行邻居信息聚合时，如何设计融合异构节点和边缘信息的GNN模型是一个挑战。

3 Preliminary

3.1 Notations

无向图通常定义为G = (V, E)， V表示一组节点，E表示一组边。设A表示邻接矩阵，A_ij表示图G的节点i和节点j之间的连接，D表示度矩阵，D_ii= 求和 A_{i j}。因此，图拉普拉斯矩阵可以定义为L = D−A，它的标准和规范化形式通常表示为L ~ =I_n−D^−1/2AD^{− 1/2}，其中In是一个单位矩阵。由于L ~是一个实对称的正半定矩阵，它可以被特征分解为L ~ = UΛU⁻¹，其中U是由特征向量组成的酉矩阵，Λ是由特征值组成的对角矩阵。根据图信号理论，信号x∈Rⁿ在图G上的卷积运算定义为y =Ug_θU^Tx，其中g_θ为卷积核，y表示信号x经过卷积运算后的结果。

3.2 Spectral GNNs

基于图信号理论的图卷积方法需要对拉普拉斯矩阵进行特征分解，耗时长，且不能保证局部连接。幸运的是，Chebynet和GCN通过使用拉普拉斯算子的多项式近似卷积操作来避免这些弱点。接下来，我们将介绍两种基本的谱方法。

Chebynet。ChebyNet直接将卷积核替换为k阶Chebyshev多项式[7]，其定义如下:

式中T_k为第k项Chebyshev多项式，θ_k为第k项多项式的系数。它将图卷积运算简化为拉普拉斯矩阵L的Chebyshev多项式的和，避免了L的特征分解，同时通过多项式性质保持卷积的局域化。最后，Chebynet的卷积定义如下:

一般GCN。GCN通过简化Chebynet，使用一阶Chebyshev多项式近似进行图卷积，即设k = 1， θ= θ₀=−θ₁，卷积定义如下:

3.3 Laplacian Operator

离散拉普拉斯算子从周围节点的梯度差中得到中心节点的扰动增益效应。同样，拉普拉斯矩阵L是图G上拉普拉斯算子的离散对应，它描述了图[28]上节点的扰动增益效应。重要的是要注意，分析拉普拉斯矩阵的扰动增益揭示了图的局部和全局属性，以及节点之间的关联程度。

在局部性质中，我们得到节点j∈N_i对节点i的扰动增益△f_i，其中△为拉普拉斯运算符号，f∈R n表示图G上的任意节点信号，N_i为图中节点i的一个邻域。计算如下:

在全局属性中，我们可以得到整个图G中每个节点的扰动增益值。我们用F = (f₁，f₂，···f_n ))来表示图G具有全部N个节点的信号，图的扰动增益表示为

从两个性质点可以看出，拉普拉斯矩阵揭示了图结构上局部节点之间的关联和全局节点之间的关联。在拉普拉斯矩阵的计算中，图中的每个节点i与其相邻节点的特征进行直接聚合。因此，拉普拉斯矩阵可以概念化为作用于空间域内图的一个聚集算子，它只是一个简单的直接聚集。

4 AoSE-GCN: Proposed Model

4.1 Motivation

考虑到拉普拉斯矩阵特征值分解的耗时问题，有必要将原始卷积核简化为多项式核。特别是，我们利用卷积近似以拉普拉斯矩阵多项式乘积与图信号相乘的形式代替卷积核(参见Eq. 2和3)。另一方面，拉普拉斯矩阵可以很好地表示节点之间的关系，以捕获全局结构信息。在对目标节点的邻居特征进行聚合时，受拉普拉斯矩阵空间聚合的影响，可将其视为一个空间聚合算子(参见Eq. 4和5)，但其有效区分不同邻居的能力有限。因为它主要捕获简单的邻居关系。为了解决这一限制，我们创新地设计了一个注意力感知聚合算子，从空间角度取代了原来的拉普拉斯矩阵。该算子在增强频谱 GNN模型的能力方面起着关键作用。

随后的部分将详细介绍注意力感知聚合算子，阐明其功能，并强调如何将其无缝集成到频谱GNN模型中以增强性能。

4.2 Attention-aware Aggregation Operator

基于Eq. 4的见解，通过拉普拉斯计算获得的节点扰动的增益被表述为加权集合，对其相邻节点的加权求和。为了方便这个过程，我们引入了一组可学习的参数，表示为µ_ij。这些参数作为注意力放大系数，在聚合过程中动态捕捉相邻节点j对中心节点i的影响。

因此，对于图中所有N个节点，整个图的摄动增益表示为△F。

其中L_att= D−M⊙A表示替换拉普拉斯矩阵的注意力感知聚合算子。M是一个关注矩阵M_ij=µ_ij，其结构与邻接矩阵a相同，值得注意的是，M_ij=M_ji 表示M是不对称的。与Eq. 5中的拉普拉斯矩阵相反，L_att的参与导致了这种不对称性，从而破坏了拉普拉斯矩阵的频谱分解。因此，我们将L_att单独作为一个空间增强的聚合算子进行强制。特别是，受图注意力网络 (GAT)模型[30]的启发，我们采用了一种注意力机制来动态计算每个相邻节点的注意力系数µ_ij，如下所示:

其中h_i∈R^F表示节点i的特征，F表示节点特征的通道数，W∈R^F’×F是可学习的线性变换参数，α(·)是单层前馈神经网络。e_ij计算节点I和节点j之间的关联程度∈Ni。µ_ij是我们上面提到的注意力放大系数，取值范围在[1, 2]中。

L_att引入的基本创新在于，在拉普拉斯矩阵框架内，在计算图中每个节点的扰动增益时，将注意力得分作为补充权重。这个算子的设计是为了解决拉普拉斯矩阵的局限性，传统上，它捕捉的是直接的本地关系。通过无缝集成注意力分数，L_att增强了节点聚合的适应性，在本地聚合过程中提供了一种更灵活的机制来捕获和整合来自相邻节点的细微信息。

4.3 AoSE-GCN

将聚合算子L_att引入到谱GCN模型中，得到AoSE-GCN模型，该模型通过空间聚合进行图表示学习，增强了GCN模型。特别地，我们使用随机游走归一化将L_att表示为L^rw_att = I_n−D⁻¹ (M⊙A)，并将其代入Eq. 3，作为原始拉普拉斯矩阵的替换:

随后，我们采用重整化技巧[19]，将D⁻¹(M⊙a)替换为a ~ att。最后，我们有:

当将图信号扩展到每个节点特征向量具有f维的节点特征矩阵X∈R^n×F时，卷积操作定义如下:

其中H (r)∈R^n×F′为第r层的卷积输出特征，H (0) = X, W (r)∈R^{F′×C ′}为第r层的可学习权参数矩阵。形式上，我们认为双层AoSE-GCN为:

Y∈R ^n×C表示节点分类的预测结果。

AoSE-GCN的关键创新在于用注意力感知聚合算子取代传统的拉普拉斯近似卷积算子。该算子赋予全局视角，并为每个邻域节点分配不同的注意力分数。通过这样做，AoSE-GCN在局部聚合过程中获得了识别和考虑单个邻域节点重要性的能力。这种向个性化注意力分数的转变促进了图数据中信息聚合和传播的更适应性、更精确和更灵活的过程。值得注意的是，我们的L_att并不局限于GCN，任何光谱方法都可以很容易地插入。

4.4 Objective Function

我们使用交叉熵损失函数来量化节点分类任务中预测结果和实际结果之间的差异。

其中C是类的数量，yL是带标签的节点索引集。Ylc表示属于c类的节点l的实际标签值，Yˆlc为对应的预测概率值。

5 Experiments

在本节中，我们评估了AoSE-GCN的性能，并将其与几个公共图数据集上的基线模型进行了比较。此外，为了突出注意力感知聚合算子Latt的有效性，我们将它们与频谱GNN(即Chebynet和GCN)集成，以评估它们的性能。最后，我们可视化了不同模型的学习嵌入，以说明我们方法的优势。

5.1 Datasets

为了评估我们方法的有效性，我们在不同的数据集上进行了半监督和完全监督的实验。表1提供了数据集统计的概述。我们还提供了每个数据集的详细解释，并描述了我们实验中使用的具体数据分区。

半监督数据集。我们利用Cora、Citeseer和Pubmed[27]这三个广泛使用的引文网络数据集进行半监督节点分类。在引文网络中，图结构保持同构，其中节点表示文档，边表示文档之间的引文关系。每个节点都与特征嵌入相关联，特征嵌入对相应文档中的代表性单词进行编码。为了进行我们的半监督实验，我们遵循了将数据集[35]分成训练集、验证集和测试集的既定方法。具体来说，对于数据集中的每个类，我们使用每个类20个节点进行训练，500个节点进行验证， 1000个节点进行测试。

全监督数据集。我们使用了一个名为actor[16]的行动者共现网络以及三个网页数据集:Cornell, Texas和wisconsin -sin[25]，用于完全监督节点分类。Actor 数据集捕获从维基百科页面中提取的参与者之间的共现关系，其中节点特征是基于从参与者各自的维基百科页面中获得的相关关键字构建的。在网页数据集中，节点表示不同网页之间的超链接，每个节点的特征对应于与网页内容相关的代词的嵌入表示。为了确保标准化的方法，我们遵循了先前研究中提出的方法来进行完全监督的实验。具体来说，对于每个数据集，我们将每个类的节点随机划分为训练集(60%)、验证集(20%)和测试集(20%)。所有模型的性能在10个随机分割的测试集上进行测量。

5.2 Baselines

为了评估我们方法的有效性，我们与几种成熟的深度学习方法进行了比较实验。LP (Label Prop-agation)[38]采用高斯随机场模型来探索结构和标签信息。 JK-Net[33]通过考虑每个节点不同的邻域范围，利用密集连接来改进学习表示。Chebynet[7]使用Chebyshev多项式近似有效地执行谱图卷积。GCN[19]是 Chebynet的简化，只关注一阶Chebyshev多项式。GAT[30]采用注意机制学习不同的节点权重得分。

5.3 Experimental Setup

对于包括LP、JK-Net和GAT在内的几种基线方法，我们使用文章[17]中报告的结果进行比较。对于其余的方法，我们根据作者指定的pa- parameter设置在我们的实验环境中手动实现。此外，为了进一步有效地演示所提出的注意力感知聚合算子L_att，我们简单地将其合并到Chebynet模型中，命名为AoSEChebynet，以进行比较。

对于半监督和全监督实验的评价任务，我们设置Adam SGD[18]作为优化算法。在训练过程中，我们通过监测验证集上的最佳训练性能，以固定的epoch数实现早期停止，以减轻过度拟合的风险。我们使用模型隐藏层的 L2范数和权重衰减系数作为损失函数的惩罚项，这提高了模型的泛化能力。对于我们模型中使用的超参数，表2总结了AoSE-GCN，它在验证数据集上达到了最佳性能。

5.4 Experimental Results

表3给出了半监督分类的各种指标的结果。正如我们所看到的，就所有指标而言，AoSE-GCN比基线GCN模型表现得更好。同样，与Chebynet基线模型相比，AoSE-Chebynet也获得了具有竞争力的结果。这一观察得出的结论是，我们的注意力感知聚合算子有效地增强了像GCN和Chebynet这样的模型，它们都依赖于Chebyshev多项式近似的卷积。当应用于同构图数据集时，这种增强尤为显著。

在表4中，我们给出了异构图数据集上完全监督节点分类的结果。值得注意的是，基线模型Chebynet在异构图结构上下文中惊人地优于GCN方法。这种现象可能归因于GCN模型是拉普拉斯平滑的一种特殊情况，它可以更快地进行过度平滑，特别是在较小的数据集上，如[23]所示。然而，AoSEGCN和AoSE-Chebynet模型的引入证明了这一点，应用于异构图时，与基本模型相比，性能上的改进。

5.5 Visualization and Efffciency Analysis

在图1中，我们使用t-SNE来可视化地表示我们的模型和基本模型在Pubmed 数据集上提取的节点嵌入。我们可以通过L_att改进的模型，即AoSE-GCN和 AoSE-Chebynet，可以更好地分离不同的节点组。这意味着Latt通过同时考虑全局和局部信息来提示图表示学习。

此外，我们在图2中比较了基本模型和增强模型在学术数据集上的收敛速度。我们观察到AoSE-GCN和AoSE-Chebynet具有更快的收敛速度。这可以归因于邻域特征的加权聚合。

6 Conclusion

通过深入研究拉普拉斯矩阵在GNN聚合过程中的关键作用，我们的创新采用了注意力感知聚合算子的形式，旨在取代拉普拉斯矩阵的传统使用。该算子无缝集成到图卷积网络(GCN)模型中，从而产生了新的AoSE-GCN方法。L_att 的结合。

授权模型通过注意机制选择性地聚合相邻信息。从空间角度来看，这一添加有效地提升了GCN和Chebynet等经典GNN模式。在未来的工作中，我们的目标是通过将AoSE-GCN与剩余机制和多尺度机制等先进技术协同作用来解决平滑问题。

登录用户可以查看和发表评论，请前往登录或注册。