阅读时间 1 分钟

作者: 作者图标Nicolas Hug

网上有很多关于梯度提升的资源,但很少有资源解释梯度提升与梯度下降的关系。这篇文章试图将梯度提升解释为一种(有点奇怪的)梯度下降。

我假设你对梯度提升没有任何先验知识,但这篇文章需要你对梯度下降有基本的了解。

让我们开始吧!

对于给定的样本 \(\mathbf{x}_i\),梯度提升回归器会产生以下形式的预测

\[\hat{y}_i = \sum_{m = 1}^{\text{n_iter}} h_m(\mathbf{x}_i),\]

其中每个 \(h_m\) 都是一个基础估计器(通常称为弱学习器,因为它通常不需要非常准确)的实例。由于基础估计器几乎总是决策树,我将滥用术语 GBDT(梯度提升决策树)来泛指梯度提升。

每个基础估计器 \(h_m\) 都不试图预测目标 \(y_i\)。相反,基础估计器试图预测梯度。这个总和 \(\sum_{m = 1}^{\text{n_iter}} h_m(\mathbf{x}_i)\) 实际上是在执行梯度下降。

具体来说,它是在函数空间中进行梯度下降。这与我们在许多其他机器学习算法(例如神经网络或线性回归)中习惯的梯度下降形成对比,在这些算法中,梯度下降是在参数空间中进行的。让我们简要回顾一下。

在 Nicolas 的博客上阅读完整的博客文章: 将梯度提升理解为梯度下降