2024 年 8 月 28 日,Bryan Perozzi 及其团队因论文《DeepWalk: Online Learning of Social Representations》获得了 ACM SIGKDD Test of Time 奖。这篇论文自 2014 年发表以来,为图神经网络(GNN)研究奠定了基础。
《DeepWalk: Online Learning of Social Representations》论文由 Bryan Perozzi、Rami Al-Rfou 和 Steven Skiena 共同撰写,发表于 2014 年。该论文提出了一种新的图嵌入方法,称为 DeepWalk,通过随机游走和 Skip-Gram 模型将图结构数据转化为低维向量表示。这种方法能够捕捉图中的社区结构和节点之间的关系,从而在社交网络分析、推荐系统等应用中表现良好。
DeepWalk 的核心思想是通过模拟随机游走生成节点序列,然后使用 Skip-Gram 模型对这些序列进行训练,从而学习到每个节点的向量表示。这种方法能够在大规模图数据上实现良好的性能。论文中,作者在多个数据集上进行了实验,结果表明 DeepWalk 在节点分类、链接预测等任务上优于传统方法。
自发表以来,DeepWalk 论文在学术界和工业界都产生了影响。根据 Google Scholar 的数据,该论文的引用次数已经超过了 5000 次,成为图神经网络领域的重要研究之一。许多后续研究在 DeepWalk 的基础上进行了改进和扩展,例如 Node2Vec、GraphSAGE 等方法,这些方法进一步提升了图嵌入的效果和应用范围。
图神经网络(GNN)作为一种能够处理图结构数据的深度学习模型,近年来得到了广泛关注和研究。GNN 通过聚合节点邻居的信息来更新节点表示,从而能够捕捉图中的复杂关系和结构特征。DeepWalk 作为早期的图嵌入方法,为 GNN 的发展奠定了基础,并启发了许多后续研究。
在实际应用中,DeepWalk 和 GNN 已经被应用于社交网络分析、推荐系统、知识图谱、药物发现等领域。例如,在社交网络分析中,DeepWalk 可以用于社区检测、用户兴趣预测等任务;在推荐系统中,GNN 可以用于用户 – 物品关系建模,从而提高推荐效果;在知识图谱中,GNN 可以用于实体链接、关系预测等任务;在药物发现中,GNN 可以用于分子结构分析、药物 – 靶点相互作用预测等任务。
Node2Vec 是 DeepWalk 的一个改进版本,由 Aditya Grover 和 Jure Leskovec 在 2016 年提出。Node2Vec 通过引入参数化的随机游走策略,能够在 DFS(深度优先搜索)和 BFS(广度优先搜索)之间进行平衡,从而更好地捕捉图中的局部和全局结构。实验结果表明,Node2Vec 在多个图分析任务上优于 DeepWalk。
GraphSAGE 是另一种基于 DeepWalk 的图嵌入方法,由 William Hamilton、Rex Ying 和 Jure Leskovec 在 2017 年提出。GraphSAGE 通过聚合节点邻居的信息来更新节点表示,从而能够处理大规模图数据。GraphSAGE 的一个特点是能够进行归纳学习,即在训练过程中学习到的模型可以直接应用于未见过的节点和图。实验结果表明,GraphSAGE 在节点分类、链接预测等任务上表现良好。