机器学习中最大的问题之一是了解各种模型如何得出最终预测。通过很多现成的算法模型我们能知道算法是“做什么”,但很难解释“为什么”。而解释性算法则帮助识别我们感兴趣的结果及有意义的变量影响。
解释性算法使我们能够理解模型中变量之间的关系,而不是仅仅使用模型来预测结果。因此可以使用多种算法更好地理解给定模型的自变量和因变量之间的关系。
解释性算法
线性/逻辑回归:一种对因变量与一个或多个自变量之间的线性关系建模的统计方法,可用于根据检验和系数了解变量之间的关系。
决策树:一种机器学习算法,它创建决策的树状模型。通过查看拆分分支的规则,它们对于理解变量之间的关系很有用。
主成分分析(PCA):一种降维技术,可将数据投射到低维空间,同时保留尽可能多的方差。PCA可用于简化数据或确定特征重要性。
LIME(Local Interpretable Model-Agnostic Explanations):通过使用线性回归或决策树等技术构建更简单的模型,在预测周围近似模型来解释任何机器学习模型的预测。
SHAPLEY(Shapley Additive explanations):通过使用基于“边际贡献”概念的方法计算每个特征对预测的贡献来解释任何机器学习模型的预测。在某些情况下,它比SHAP更准确。
SHAP(Shapley Approximation):通过估计每个特征在预测中的重要性来解释任何机器学习模型的预测方法。SHAP使用一种称为“联合博弈”的方法来近似Shapley值,并且通常比SHAPLEY更快。