层次聚类是一种强大的无监督学习技术,用于根据距离或相似性度量将相似的观察结果分组在一起。层次聚类中使用的链接方法决定了如何计算聚类之间的距离。
本文就来介绍下层次聚类中使用的链接方法,包括单链接、完全链接、平均链接和离差平方和法。
单链接(Single linkage)也称为最近邻链接,将两个簇之间的距离确定为两个簇中任意两点之间的最短距离。换句话说,两个簇之间的距离由它们最近点之间的距离定义。这种方法往往会产生长链状集群,这些集群对数据中的异常值和噪声很敏感。
完全链接(Ccomplete linkage)也称为最远邻居链接,将两个簇之间的距离确定为两个簇中任意两点之间的最长距离。换句话说,两个簇之间的距离由它们最远点之间的距离定义。此方法倾向于生成紧凑的球形集群,这些集群对数据中的异常值和噪声不太敏感。
平均链接(Average linkage)将两个聚类之间的距离确定为两个聚类中所有点对之间的平均距离。这种方法倾向于生成介于单链接生成的长链状集群和完整链接生成的紧凑球形集群之间的集群。
离差平方和法(Ward linkage),也称为最小方差链接,通过最小化两个聚类合并时方差的增加来确定两个聚类之间的距离。此方法倾向于生成具有相似方差和大小的聚类。
层次聚类中使用的链接方法的选择会极大地影响聚类输出。单链接倾向于产生长链状集群,完全链接产生紧凑的球形集群,平均链接产生介于两者之间的集群,而离差平方和法产生具有相似方差和大小的集群。在选择特定的链接方法之前,仔细考虑数据的特征和当下的任务目标很重要。