ICLR 2020丨论“邻里关系”的学问:度量和改进图信息在图神经网络中的使用

      最后更新:2020-05-25 10:09:39 手机定位技术交流文章

      本文介绍了香港中文大学计算机科学系二年级研究生侯逸凡的ICLR 2020论文《图形神经网络中图形信息的测量与改进》。

      文|侯逸凡

      在一系列的结尾

      论文地址:https://openreview.net/pdf? Id = rkeIIkHKvS近年来,图形神经网络(GNN)已经越来越广泛地应用于社交网络、知识地图、推荐系统甚至生命科学。然而,在复杂的图形数据中,我们很难有效地利用实体之间的相互依赖性。在清华大学计算机系主办的人工智能时代博士工作室,香港中文大学计算机系二年级研究生侯逸凡分享了他的团队在ICLR (2020)发表的研究成果,被称为“深度学习的顶级会议”。让我们看看这个学生如何巧妙地利用节点的“邻域关系”来选择图形数据和改进图形神经网络。

      1

      背景知识a)图形数据和数据分类图是强大的数据结构,可以容易地表示实体(即节点)之间的各种关系(即边)。

      实体可以是社交网络中的个人用户,也可以是分子结构图中的原子。

      关系可以是朋友关系、相似关系等。社交网络中的用户之间,或者分子结构图中原子之间的相互关系。

      通常,在图形数据中,节点(实体)的选择是固定的,但是边的构造方法是多种多样的。例如,在社交网络中,不仅用户可以基于他们的相似性,而且他们的交互行为和朋友关系可以被构建成边缘以形成网络。

      因此,当难以对具有相对均匀分布的原始数据进行分类时,如果能够根据一些附加的关系信息来“缩小”相似点之间的距离,从而有效地调整数据分布,那么分类的边界选择将更加容易,从而其任务性能将得到很好的提高。

      图神经网络图神经网络(GNN)广泛用于图形数据表示学习。它可以利用图中的关系信息来捕捉节点邻居的丰富特征,从而提高基于图数据的下游任务性能。

      GNN框架的一般施工方法如下:

      步骤1:使用聚合器来聚合邻居的特性。

      不同节点的邻居数量不同,因此该步骤可以将任意数量的邻居点的特征向量集成为固定长度的向量。

      汇总方法:平均值、总和、加权总和…...

      从降噪的角度来看:均值(可以抑制噪声)> =加权和>;池化>。求和(放大噪声)。

      步骤2:将聚集的特征向量和节点自身的特征向量组合成一个新的特征向量。

      组合方法:组合、平均、加权和...

      从保留信息的能力开始:连接(乘以参数矩阵以确定向量的有用部分) >均值=加权和

      事实上,并非所有节点的邻居都包含特定任务的信息。因此,数据关系可能提供正面信息和负面干扰!例如,在图中,缩小不同类型点之间的距离会使分类问题更加复杂。这样使用附加信息会产生相反的效果!

      问题出现了:什么样的图形数据(关系)适合当前的图形神经网络?

      答:使用数据关系带来的性能提升与原始图形数据中节点从邻居处获得的信息的“数量”和“质量”有关!因此,可以使用两种平滑度测量方法来测量这两个方面!

      两个平滑度测量a)背景:KL散度(或信息增益)

      原系统C(环境)在S(环境)之后的信息增益是已知的:一般来说,C和S之间的欧几里德距离越大,它们的特征越不相似,并且相邻节点可以带来的信息增益越大,导致节点特征的更大变化。

      b)背景:图像信号处理后的平滑度

      λ(傅立叶变换的频率)非常小,表明信号频率和非常低,平滑度非常高。

      当λ大时,表示信号频率高,信号不平滑(平滑度很低)。

      c)信息测量1:特征平滑度

      对于图上的所有节点,计算每个节点与其邻居之间距离总和的平方,然后将所有节点相加,取曼哈顿距离,最后通过除以特征维数和边数获得特征平滑度。数学证明KL散度与特征平滑度成正比,即信息增益的大小与特征平滑度成正比。

      d)信息度量2:标签平滑度对于图形中的所有边,计算连接不同类别的节点的边的比例,以获得范围从0到1的值。直觉上,当标签平滑度为零时,只有相似的数据会被“放大”。

      注意:测试集的标签信息在现实中是未知的,所以真实位置的标签平滑度可以用训练集中已知的标签平滑度来近似。

      13魔术CS-GNN模型

      为此,侯逸凡提出了一种新的模型CS-GNN,该模型利用这两个平滑指标有选择地聚合邻居信息,扩大有用信息,减少负面干扰!

      请注意,有一个折衷:选择尽可能多的相同类别的不同(增加信息增益的大小)邻居(确保信息增益的质量)。

      实验结果证明了测量给定任务的图形平滑值的方法的有效性,并且CS-GNN可以获得比现有方法更有用的信息以获得更好的性能!

      4

      问答互动问题:在结果部分,OOM指的是什么?程序需要运行哪种服务器?答:一般来说,图形数据经常出现内存不足的情况。通常,16G卡的GNN节点数不能超过10W。如果太大,只能通过邻居采样等方法进行优化,或者可以通过IO连续读取几个批次。问:对于特征平滑度和标签平滑度是否有特定的阈值?例如,什么范围是图形数据的最佳效果?答:因为这两个值是信息增益的近似值,所以很难用它们来得出一些准确的结论。然而,这两个值仍然可以用来帮助人们选择图形数据或理解改进的图形神经网络。

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/7325.html

          热门文章

          文章分类