数据预处理是一种将数据从原始形式转换为更可用或期望的形式的方法,即通过重新缩放、标准化、二值化、单热编码和标签编码使数据更有意义。
可以总结为一下步骤:
1、重新缩放数据
2、标准化数据
3、二值化数据
4、一种热编码
5、标签编码
重新缩放数据
顾名思义,重新缩放数据是使数据集属性统一的过程。重新缩放方法在优化算法中很有用,例如梯度下降。
标准化数据
标准化数据有助于我们将具有不同均值和不同标准差的高斯分布的属性转换为均值为0、标准差为1的标准高斯分布。
二值化数据
所有高于阈值的值都被转换为1,等于或低于阈值的值都被转换为0。二值化是使用Binarizer类完成的。
一种热编码
在处理分类数据时,使用OneHotEncoder类执行一种热编码。
标签编码
标签可以是单词或数字。通常,训练数据会用单词标记以使其可读。标签编码将单词标签转换为数字,让算法对其进行处理。