论文介绍
在移动互联网的发展和去中心化技术的进步过程中,网络信息在数据库中的知识发现中发挥着至关重要的作用。然而,网络是非结构化的,不能轻易用作现代机器学习中不可或缺的结构化知识库。为了解决这个问题,网络嵌入方法被提出并被互联网系统中的许多应用程序广泛采用,例如社交推荐和可视化。
网络嵌入的关键在于为每个顶点找到一个低维向量表示,以保留学习向量空间中的局部和全局结构信息。大量研究工作致力于通过最大化顶点与其邻居之间的接近度来保持网络结构。不同之处在于,早期的作品专注于一阶邻近度,而最近的作品倾向于保留高阶邻近度或将它们结合起来。然而,仍然存在两大挑战:
顶点的个性化
个性化的概念最初是在推荐系统中引入的,其中个人偏好是多种多样的,为他们推荐的项目应该是独特的。然而,很少有研究工作集中在网络嵌入领域的顶点个性化上。例如,一定数量的作品最小化整个网络中所有链接共现的联合概率。这些方法平等对待网络中的所有顶点。然而,顶点的属性在真实网络中是多样化的。一些顶点有数百个邻居,而某些顶点只有几个邻居。因此,在训练模型时应以个性化的方式处理每个顶点。
顶点的自然排名
直观上,目标顶点比其2跳邻居更接近其1跳邻居,并且某些先前的工作考虑了顶点的自然排名。例如Bojchevski等人提出的Graph2Gauss方法,该方法利用相邻节点的自然排名来捕获网络结构。然而,高阶邻居的数量通常远大于低阶邻居的数量。因此,实例采样过程中存在偏差,而现有方法无法平衡这种偏差。
为了解决上述两个挑战,我们提出了个性化邻近保留网络嵌入方法,该方法借鉴了贝叶斯个性化排序方法的思想。
【个性化】我们利用个性化排名损失来捕捉每个顶点的个性化。更具体地说,我们将一阶和高阶邻居视为目标顶点的特定“上下文”,并且只有上下文节点用于学习目标顶点的表示。它类似于推荐系统中的场景,其中用户收集/购买的物品被用来学习他们的特征。
【自然排名】在我们的方法中,目标顶点比它的高阶邻居更接近它的低阶邻居,例如比它的二阶邻居更接近它的一阶邻居。由于顶点的二阶邻居通常比其一阶邻居多得多,因此我们利用正则化方法来平衡这种偏差。
总而言之,这项工作的贡献如下:
1.我们设计了一个无监督的个性化排名公式,同时保留一阶和二阶邻近度,以捕获顶点的个性化信息量。
2.我们提出了一种用于网络嵌入的新模型(PPPNE),利用每个顶点的自然排名。他们的邻居通过建议的排名公式,扩展了复杂网络中相似性度量的能力。
3.我们在五个真实世界网络和三个常用应用程序上进行实验,包括链路预测、顶点分类和可视化。结果表明,我们的方法可以胜过所有最先进的基线并实现显着改进。
论文地址
https://www.sciencedirect.com/science/article/abs/pii/S0925231221017367