论文介绍
在数据挖掘和机器学习中,通常假设训练和测试数据共享相同的总体分布。然而,由于样本选择偏差,这种假设在实践中经常被违反,这可能会导致从训练数据到测试数据的分布转移。这种与模型无关的分布偏移通常会导致未知测试数据的预测不稳定。
本文提出了一种基于部分因子设计理论的新型平衡子采样稳定预测(BSSP)算法。它将每个预测变量的明显影响与混杂变量隔离开来。设计理论分析表明,所提出的方法可以减少由分布偏移引起的预测变量之间的混杂效应,提高参数估计的准确性和未知测试数据的预测稳定性。对合成数据集和真实数据集的数值实验表明,我们的BSSP算法可以显着优于基线方法,以在未知测试数据中进行稳定预测。
论文地址
https://dl.acm.org/doi/abs/10.1145/3477052