世界上最好的算法：贝叶斯优化（数学和直觉角度）

terry 2年前 (2023-09-27) 阅读数 86 #数据结构与算法

世界上最好的算法：贝叶斯优化。本文将尝试从数学和直觉两个角度来介绍作者对贝叶斯优化的深（粗）和深（浅）理解。

背景介绍

深度神经网络近年来开始流行，但神经网络超参数的选择一直是个问题，大多数时候都是根据形而上学的指导手动调整所有参数。和奇异博士一样，他被认为是奥术大师。为此，贝叶斯优化（Bayesian Optimization，以下简称BO）开始被很多人用来调整神经网络的超参数。在这方面，BO的主要优点是试验效率，即BO可以使用很少的步骤（每个步骤可以被认为是用一组超参数训练你的神经网络）来找到更好的超参数组合。另一个原因是BO不需要求导数（梯度），一般情况下无法求出神经网络超参数的导数。这两个原因使得BO成为当今世界上调优超参数的最佳方法（当然我可以有风扇过滤器）。

事实上，BO不仅仅用于调整超参数，因为它是一种非常通用的无梯度全局优化方法，所以它的适用场景一般有两个特点：（1）计算待优化的函数。非常耗时耗力，比如上面提到的神经网络中的超参数问题。每次训练神经网络都会烧毁大量GPU； (2)要优化的函数没有派生信息。所以，如果你遇到的问题有以上两个特点，那就闭着眼睛用BO吧。当然，这么说还是有点太激烈了，因为有一些特殊的问题结构也会影响BO的效果，比如需要调整的参数太多（类似高维BO的问题），或者参数中离散参数过多。如果这样的话，BO的效果就会受到影响。这两种场景当然也是BO当前未解决的两个问题。

贝叶斯优化算法

BO算法其实很简单理解。例如，我们要优化的函数是世界上最好的算法：贝叶斯优化（数学和intuition角度），其中域通常是紧凑的。为了简单起见，还有一些论文假设是离散的。接下来，假设我们要解决的优化问题是。

BO是一个顺序决策问题，也就是说，我们有很多重复。在每次迭代世界上最好的算法：贝叶斯优化（数学和intuition角度）中，我们选择一个输入（例如，我们为神经网络选择一组超参数），然后我们使用所选的来查看相应函数的值（例如，这组超参数对应的神经网络的验证精度）；但大多数情况下我们只能观察到一个有噪声的值，即观察到的是世界上最好的算法：贝叶斯优化（数学和intuition角度），其中是零均值高斯分布：，是噪声方差。然后，我们将新观察到的一组值添加到所有观察到的数据中，然后执行下一次迭代。

此时，整洁的同学可能已经注意到了，BO问题的核心是如何在每次迭代中选择观察哪一个世界上最好的算法：贝叶斯优化（数学和intuition角度）。 BO中，通过优化另一个函数：集合函数来选择；即。好同学可能已经注意到了，我们把一个优化问题替换成了多个优化问题，所以这个获取函数应该是非常非常容易优化的。另外，这个采集函数的设计中最重要的一点就是它必须有一个很好的平衡，这就导致了传说中的exploration-exploitation trade-off：当我们选择下一个点世界上最好的算法：贝叶斯优化（数学和intuition角度）时，我们都会尝试点在我们之前没有尝试过的领域（探索），并且想要根据我们迄今为止观察到的所有点来选择预测的值相对较大的点（探索）。为了很好地平衡这两点，对于域中的任意点世界上最好的算法：贝叶斯优化（数学和intuition角度），我们不仅需要预测对应的的值（用于开发），还需要知道对应的的不确定性（用于探索）。此时，最佳拟合模型已准备好出现：高斯过程（GP）。

关于GP这里就不详细说了。知乎上有很多精彩的文章供你回顾。这里大家需要知道的是，如果我们假设我们已经完成了BO的世界上最好的算法：贝叶斯优化（数学和intuition角度）次迭代，即我们现在拥有的数据是，那么根据GP的预测，整个域中的任意点对应的值服从一维高斯分布，对应的后验均值和后验方差可以写成闭合形式。 GP的公式这里不再重复。我们将相应的均值和方差表示为世界上最好的算法：贝叶斯优化（数学和intuition角度）和。它们可以分别理解为用于开发和探索的信息。这应该不难理解，因为预测的后验均值对应于我们的预测值，然后后验方差对应于我们的不确定性。现在上面提到的集合函数世界上最好的算法：贝叶斯优化（数学和intuition角度）可以通过和来计算。目前常用的采集函数如下：

高斯过程-上置信界（GP-UCB）：