在机器学习的应用中,相似性度量是用于衡量两个样本对象的相似程度的指标,通常会使用距离度量来表示,有效的距离度量可以提高机器学习模型的性能。
不过从数值关系上,相似性度量和距离度量恰好相反。
相似性度量一般表示为数值,当数据样本越相似时数值就越高。数值通常通过转换表示为0和1之间的数字,其中0表示相似度低,即数据对象不相似;1表示相似度高,数据对象非常相似。
而距离度量则是当距离数值越大,表示数据对象越不相似;当距离数值越小,表示数据对象越相似。
常用的距离度量
欧氏距离(Euclidean Distance)
即欧几里得度量,它是两点之间的最小距离,大多数机器学习算法都使用此距离度量来衡量观察结果的相似性。
曼哈顿距离(Manhattan Distance)
曼哈顿距离是两个地方在所有维度上的总差异。因为在城市中几乎不可能沿直线移动,建筑物被分组为阻挡直线路径的网格。“曼哈顿距离”一词经常用来指代两个城市街区之间的距离。
闵可夫斯基距离(Minkowski Distance)
是欧几里德距离和曼哈顿距离的广义形式,定义nD空间中两个观测值之间的距离。
汉明距离(Hamming Distance)
汉明距离衡量两个相同长度的字符串的相似程度。汉明距离是相同长度的两个字符串之间对应字符不同的点数。
余弦距离(Cosine Similarity)
该指标广泛用于文本挖掘、自然语言处理和信息检索系统,用来衡量两个给定文档之间的相似性。
切比雪夫距离(Chebyshev Distance)
两个nD观测值或向量之间的切比雪夫距离等于数据样本坐标之间变化的最大绝对值。在二维世界中,数据点之间的切比雪夫距离可以确定为其二维坐标的绝对差之和。
马氏距离(Mahalanobis Distance)
主要用于多元统计测试,测量数据点与分布的距离。
卡方距离(Chi-square Distance)
卡方距离通常用于计算机视觉,同时进行纹理分析以找到归一化直方图之间的相似性,称为“直方图匹配”。
皮尔逊相关系数(Pearson Correlation)
皮尔逊相关系数量化了两个属性之间线性单调关系的强度,衡量两个数据集合是否在一条线上。
斯皮尔曼相关系数(Spearman Correlation)
斯皮尔曼相关系数衡量两个变量的依赖性的非参数指标,它利用单调方程评价两个统计变量的相关性。斯皮尔曼相关系数常用于假设检验。