什么是数据清洗 数据清洗步骤

发布:2022-10-21 10:29:06
阅读:1750
作者:网络整理
分享:复制链接

数据清洗在构建算法模型中起着非常重要的作用。在算法领域很大一部分人觉得优质的数据胜过高级的算法,因为成熟的算法必须经过训练和学习,因此,有一个经过噪音清洗的数据集,即便是简单的算法也能获得准确的结果。

清洗不同类型的数据需要不同类型的清理方式。下面我们来具体了解一下吧。

数据清洗步骤

1、删除重复、不相关的数据

从数据集中删除重复、冗余或不相关的数据。在数据收集过程中,大量的数据积累很容易出现重复,重复的数据会到导致算法效率下降,影响算法结果准确性;而不相关的数据即是不适合当前算法,可以直接删除。

2、修复结构错误

在测量、传输数据等情况下出现的错误称为结构错误。常见的结构错误包括名称拼写错误、具有不同名称的相同属性、错误标记的类或大小写不一致。

算法结构错误会导致算法模型效率低下并给出错误结果。

3、删除不需要的异常值

算法中的异常值并不是直接删除,有些异常值不影响算法甚至能帮助改进,但有些异常值会导致算法模型出现问题,比如说线性回归模型对异常值的鲁棒性不如决策树模型。

因此在遇到异常值时需要进行评估,根据算法运行情况,再做是否删除打算。

4、处理缺失数据

数据缺失在算法问题中是相对棘手的,处理数据缺失可以通过这2种方式:

①删除具有缺失数据

②根据数据估算、恢复缺失数据

扫码进群
微信群
免费体验AI服务