数据清洗在构建算法模型中起着非常重要的作用。在算法领域很大一部分人觉得优质的数据胜过高级的算法,因为成熟的算法必须经过训练和学习,因此,有一个经过噪音清洗的数据集,即便是简单的算法也能获得准确的结果。
清洗不同类型的数据需要不同类型的清理方式。下面我们来具体了解一下吧。
数据清洗步骤
1、删除重复、不相关的数据
从数据集中删除重复、冗余或不相关的数据。在数据收集过程中,大量的数据积累很容易出现重复,重复的数据会到导致算法效率下降,影响算法结果准确性;而不相关的数据即是不适合当前算法,可以直接删除。
2、修复结构错误
在测量、传输数据等情况下出现的错误称为结构错误。常见的结构错误包括名称拼写错误、具有不同名称的相同属性、错误标记的类或大小写不一致。
算法结构错误会导致算法模型效率低下并给出错误结果。
3、删除不需要的异常值
算法中的异常值并不是直接删除,有些异常值不影响算法甚至能帮助改进,但有些异常值会导致算法模型出现问题,比如说线性回归模型对异常值的鲁棒性不如决策树模型。
因此在遇到异常值时需要进行评估,根据算法运行情况,再做是否删除打算。
4、处理缺失数据
数据缺失在算法问题中是相对棘手的,处理数据缺失可以通过这2种方式:
①删除具有缺失数据
②根据数据估算、恢复缺失数据