评估和提高模型的预测性能

交叉验证是用于评估A的模型评估技术机器学习算法在对其尚未培训的新数据集进行预测方面的性能。这是通过划分数据集来完成并使用子集进行培训算法和剩余数据进行测试。因为交叉验证不使用所有数据来构建模型,所以它是一种常用的方法,可以防止在训练期间过度拟合。

每一轮交叉验证都涉及将原始数据集随机分区为a培训集A.测试集。然后使用训练集来训练a监督学习算法和测试集用于评估其性能。此过程重复几次,并且平均交叉验证误差用作性能指示符。

常见的交叉验证技术包括:

  • K-Fold.:将数据分区为k随机选择的子集(或折叠)大小的大小。一个子集用于验证使用剩余子集训练的模型。该过程重复k倍,使得每个子集完全用于验证一次。
  • 坚持:将数据分为分为指定比率的两个子集(或折叠)以进行培训和验证。
  • 忽略:使用k折叠方法分区数据,其中k等于数据中的观察总数。也称为休假交叉验证。
  • 重复随机子采样: 施行蒙特卡洛在所有运行中重复随机分区数据和聚合结果。
  • 分层:对数据进行分区,使训练集和测试集在响应或目标中具有大致相同的类比例。
  • 重组:没有分区数据;使用培训数据进行验证。通常会产生过度乐观的性能估计,如果有足够的数据,必须避免。

由于培训和验证完成了多次,交叉验证可以是计算密集型操作。由于每个分区集是独立的,因此可以并行执行此分析以加速过程。

有关使用交叉验证的更多信息机器学习问题,见统计和机器学习工具箱™深度学习工具箱™

也可以看看:统计和机器学习工具箱机器学习监督学习功能选择正则化线性模型

机器学习的挑战:选择最佳分类模型和避免过拟合