Crisp-DM又叫做跨行业数据挖掘标准过程,本文介绍如何基于Crisp-DM方法组织机器学习项目。
步骤如下:
步骤一:业务理解。这需要了解业务问题,确定问题的严重程度,对可能的解决方案进行研究,根据对问题的理解确定是否需要机器学习解决方案来解决问题,确定潜在的替代方案,并定义一个可量化的目标。
步骤二:数据理解。理解业务问题后,下一步就是理解所提供数据的复杂性。这包括分析可用数据源和验证数据质量,即数据是否准确、完整、可靠、相关和最新?
步骤三:数据准备。采取额外的步骤来转换数据,以便在确认数据质量后适合机器学习算法。其中一些步骤包括数据清理、转换、特征工程等。
步骤四:建模。对先前准备的数据使用不同的机器学习算法来选择性能最佳的模型。
步骤五:评估。评估模型的性能并确定它是否达到预期结果。看参考这几点模型的表现如何?是否达到既定目标?。如果模型足够好,可以在评估后部署,反之则需要重新检查该过程。
步骤六:部署。当机器学习解决方案部署到生产环境时,它就可以用于实际应用。这通常是通过将模型集成到软件系统中来完成的。部署后,将持续监控算法以确保其质量和可维护性。
值得注意的是,机器学习解决方案可能需要多次迭代。迭代通常包括从简单开始、从反馈中学习以及根据需要改进模型。
总的来说,遵循Crisp-DM方法可实现结构良好且失败风险较低的项目。