自组织映射,又叫Self Organizing Maps,缩写为SOM,是芬兰赫尔辛基大学教授Teuvo Kohonen于1981年提出的,因此也被称为Kohonen映射,Kohonen地图。
自组织映射是一种人工神经网络算法,通过无监督学习进行训练,从训练样本的输入空间生成低维、离散化表示,因此是一种降维的方法,自组织映射与其他人工神经网络有很大不同,因为其应用了竞争性学习算法,这与其他使用误差校正学习算法的方法不同,自组织映射使用邻域函数来保留输入空间内的所有拓扑属性。
自组织映射工作原理详解
自组织映射通过将输入数据映射到低维空间来工作。该算法从权重的随机初始化开始。然后将输入数据馈入网络并更新权重,以最小化输入数据和网络输出之间的误差。
具体为:
自组织映射的映射步骤从将权重初始化为向量开始。在此之后,选择一个随机向量作为样本,并搜索映射向量以找到最能代表所选样本的权重。每个加权向量都有与其接近的相邻权重。然后通过能够成为随机样本向量来奖励所选择的权重。这有助于地图增长并形成不同的形状。
自组织映射不使用随机梯度下降的反向传播来更新权重,这种无监督的人工神经网络使用竞争性学习来更新其权重,即竞争、合作和适应。
输出层的每个神经元都带有一个维度为n的向量。计算出现在输出层的每个神经元与输入数据之间的距离。距离最短的神经元被称为最合适的拟合。在最终过程中更新合适神经元的向量被称为适应,以及它的邻域被称为合作。选择合适的神经元及其邻域后,我们处理神经元进行更新。神经元和输入之间的距离越大,数据增长得越多。
检查每个节点以计算哪些合适的权重与输入向量相似。合适的节点通常称为最佳匹配单元。
然后计算最佳匹配单元的邻域值。邻居的数量往往会随着时间的推移而减少。
合适的权重会通过过渡到更像样本向量而得到进一步奖励。邻居像选择的样本向量一样过渡。一个节点离最佳匹配单元越近,它的权重改变得越多,而邻居离该节点越远,它学习的越少。
重复进行N次迭代。
自组织映射的架构
自组织映射有两层,第一层是输入层,第二层是输出层,这两个关键层构成了自组织地图,通常称为特征图。
与其他人工神经网络不同,自组织映射在神经元中没有激活函数,我们直接将权重传递给输出层而不做任何操作。输入层是自组织映射中的初始层。每个数据集的数据点互相竞争以便被激活。向量权重的初始化启动了自组织映射的映射过程。
自组织映射中的“映射”概念
自组织映射的神经元通常形成二维空间,因此创建了从高维空间到低纬平面的映射。映射保留点之间计算的相对距离。输入空间内彼此靠近的点被映射到自组织映射中附近的地图单元。自组织映射因此可以作为高维数据的聚类分析工具。自组织地图还具有泛化能力。在泛化过程中,网络可以识别或表征它以前从未将其视为数据的输入。新输入被映射单元占用,因此被映射。
自组织映射的应用
1.自组织映射在维护来自训练数据的结构信息方面具有优势。
对高维数据使用主成分分析可能只会在维度被减少为两个时导致数据丢失。如果数据包含很多维度,并且每个维度预设都是有用的,那么在这种情况下,自组织映射在PCA降维方面非常有用。该方法在数据集中找到特征组织,并形成有组织的关系集群。然而,这些集群可能具有或不具有任何物理类似物。因此,需要一种将这些集群与现实联系起来的校准方法,而自组织映射可以完成这项工作。这种校准方法定义了组与测量的物理特性之间的映射。
2.文本聚类也可以通过自组织映射执行,这是一种有助于验证当前文本如何转换为数学表达式以供进一步分析和处理的方法。
3.探索性数据分析和可视化也是自组织映射最重要的应用。
自组织映射的优缺点
自组织映射有几个优点和缺点,其中一些如下:
优点
1.借助降维和网格聚类等技术,可以轻松解释和理解数据。
2.自组织映射能够处理多种类型的分类问题,同时从数据中提供有用且智能的摘要。
缺点
1.自组织映射不会为数据创建生成模型,因此该模型不了解数据是如何创建的。
2.自组织映射在处理分类数据时表现不佳,在处理混合类型数据时表现更差。
3.模型准备时间相对非常慢,并且很难针对缓慢变化的数据进行训练。