应用机器学习，第3部分：封锁率优化

亚当•Filion MathWorks

机器学习就是将模型与 数据相匹配。 这个 过程通常涉及使用最小化模型误差的迭代算法。控制机器学习算法行为的参数称为超参数。 取决于您为超参数选择的值，您可能会得到一个完全不同的模型。因此，通过改变超参数的值，您可以找到不同的，希望是更好的 模型。    

本视频介绍超参数优化技术，包括网格搜索、随机搜索和贝叶斯优化。它解释了为什么随机搜索和贝叶斯优化优于标准网格搜索，并描述了超参数与特征工程在模型优化中的关系。

机器学习是关于拟合模型的数据。该模型由参数组成，我们发现通过拟合过程的值。该过程通常涉及某种类型的迭代算法，其最小化模型错误。该算法具有控制它的工作原理的参数，并且这些是我们所说的超级参数。

在深度学习中，我们也称决定层特征的参数为超参数。今天，我们将讨论这两种技术。

我们为什么要关心超参数呢?事实证明大多数机器学习问题都是非凸的。这意味着根据我们为超参数选择的值，我们可能会得到一个完全不同的模型。通过改变超参数的值，我们可以找到不同的，希望是更好的模型。

好的，所以我们知道我们有HyperParameters，我们知道我们想要调整它们，但我们如何做到这一点？一些超级参数是连续的，有些是二进制，其他人可能会采用任何数量的离散值。这使得艰难的优化问题。几乎总是不可能彻底搜索超级参数空间，因为它需要太长。

因此，传统上，工程师和研究人员已经使用了栅栏搜索和随机搜索等超级计数器优化的技术。在此示例中，我正在使用网格搜索方法来改变2个超参数 - 框约束和内核比例 - 对于SVM模型。如您所见，结果模型的错误对于超级参数的不同值不同。在100次试验之后，搜索已发现12.8和2.6是这些超参数的最有希望的值。

最近，随机搜索变得比网格搜索更受欢迎。

“那怎么样？”你可能会问。

网格搜索在均匀探索超参数空间方面不是做得更好吗?

假设你有两个超参数，A和B。你的模型对A很敏感但对b不敏感如果我们做一个3x3的网格搜索，我们只会计算3个不同的a值但如果我们做一个随机搜索，我们可能会得到9个不同的a值，尽管有些可能很接近。因此，我们有更好的机会为“a”找到一个好的值。在机器学习中，我们通常有很多超参数。有些对结果有很大的影响，有些则没有。所以随机搜索通常是一个更好的选择。

网格搜索和随机搜索都很好，因为很容易理解正在发生的事情。然而，它们仍然需要许多函数计算。它们也没有利用这样一个事实:当我们评估越来越多的超参数组合时，我们了解了这些值如何影响我们的结果。出于这个原因，您可以使用创建代理模型的技术——或者将误差近似作为超参数的函数。

贝叶斯优化是一种这样的技术。在这里，我们看到了运行的贝叶斯优化算法的一个例子，其中每个点对应于超级分数的不同组合。我们还可以看到算法的代理模型，这里显示为曲面，它使用它用于选择下一组的超参数。

关于贝叶斯优化的另一个非常酷的事情是它不只是看模型的准确性。它也可以考虑训练需要多长时间。可能存在一组超级参数，导致培训时间增加100个或更多的因素，如果我们试图达到截止日期，这可能不会那么伟大。您可以以多种方式配置贝叶斯优化，包括每秒预期的改进，这惩罚了预期的乘坐了很长时间才能训练。

现在，做封路计优化的主要原因是改善模型。并且，尽管我们可以做些其他事情来改进它，但我喜欢认为近似参数优化是一种低成本，高计算的方法。这与特征工程类似的东西相反，您可以在那里创建新功能的努力，但您需要更少的计算时间。它并不总是显而易见的是哪种活动将具有最大的影响，但是关于封锁多级优化的好处是它很好地归结为“过夜运行”，所以你可以在你的电脑工作时睡觉。

这是对Quand参数优化的快速解释。有关更多信息，请查看描述中的链接。