目标函数的等值图(等值线图)和等高线图是相似的概念,只是应用领域不同。等高线图用于地形图中表示高度,而等值图用于表示某个函数在不同点的取值。
许多解释随机梯度下降(SGD)的例子使用等值图,这些图通常呈现多个椭圆形或圆形。这是因为这些等值图通常来源于二次型目标函数。下面详细解释:
二次型目标函数通常具有以下形式:
f ( x , y ) = a x 2 + b x y + c y 2 + d x + e y + f f(x, y) = ax^2 + bxy + cy^2 + dx + ey + f f(x,y)=ax2+bxy+cy2+dx+ey+f
对于这样的函数,等值线由方程 a x 2 + b x y + c y 2 = k ax^2 + bxy + cy^2 = k ax2+bxy+cy2=k(其中 k k k 是常数)决定。
对于线性回归和一些常见的分类方法,目标函数通常是二次型的。
线性回归的目标是最小化预测值和真实值之间的差异,通常使用均方误差(MSE)作为目标函数:
J ( w ) = 1 2 m ∑ i = 1 m ( h w ( x ( i ) ) − y ( i ) ) 2 J(\mathbf{w}) = \frac{1}{2m} \sum_{i=1}^{m} (h_{\mathbf{w}}(x^{(i)}) - y^{(i)})^2 J(w)=2m1∑i=1m(hw(x(i))−y(i))2
其中, h w ( x ) = w T x + b h_{\mathbf{w}}(x) = \mathbf{w}^T \mathbf{x} + b hw(x)=wTx+b 是线性模型的预测值。这个目标函数展开后是参数 w \mathbf{w} w 的二次函数。
逻辑回归通过最小化负对数似然损失函数来最大化似然函数:
J ( w ) = − 1 m ∑ i = 1 m [ y ( i ) log ( h w ( x ( i ) ) ) + ( 1 − y ( i ) ) log ( 1 − h w ( x ( i ) ) ) ] J(\mathbf{w}) = - \frac{1}{m} \sum_{i=1}^{m} [y^{(i)} \log(h_{\mathbf{w}}(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_{\mathbf{w}}(x^{(i)}))] J(w)=−m1∑i=1m[y(i)log(hw(x(i)))+(1−y(i))log(1−hw(x(i)))]
其中, h w ( x ) = 1 1 + e − w T x h_{\mathbf{w}}(x) = \frac{1}{1 + e^{-\mathbf{w}^T \mathbf{x}}} hw(x)=1+e−wTx1 是逻辑回归模型的预测概率。
虽然这个目标函数不是二次的,但在优化过程中可以进行二次近似。
梯度是一个向量,表示目标函数在某一点的变化率和方向。对于一个二元函数 f ( x , y ) f(x, y) f(x,y),梯度用符号 ∇ f \nabla f ∇f 表示,其分量是 ( ∂ f ∂ x , ∂ f ∂ y ) \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right) (∂x∂f,∂y∂f)。
梯度下降法通过迭代的方法来最小化目标函数。每一步迭代沿着负梯度的方向移动:
w new = w old − η ∇ f ( w old ) \mathbf{w}_{\text{new}} = \mathbf{w}_{\text{old}} - \eta \nabla f(\mathbf{w}_{\text{old}}) wnew=wold−η∇f(wold)
其中, w \mathbf{w} w 是参数向量, η \eta η 是学习率, ∇ f \nabla f ∇f 是梯度。
在等值图上,梯度下降法每一步都沿着等值线的法线方向(负梯度方向)移动。这确保每一步都朝着降低目标函数值的方向前进,从而逐步逼近目标函数的最小值。
假设目标函数为 f ( x , y ) = 3 x 2 + 2 x y + y 2 f(x, y) = 3x^2 + 2xy + y^2 f(x,y)=3x2+2xy+y2,其等值线为椭圆。随机梯度下降法会: