梯度下降法

梯度下降法（英語：Gradient descent）是一个一阶最优化算法，通常也称为最陡下降法，但是不該與近似積分的最陡下降法（英語：Method of steepest descent）混淆。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点；这个过程则被称为梯度上升法。

描述

梯度下降方法基于以下的观察：如果实值函数 $F(\mathbf {x} )$ 在点 $\mathbf {a}$ 处可微且有定义，那么函数 $F(\mathbf {x} )$ 在 $\mathbf {a}$ 点沿着梯度相反的方向 $-\nabla F(\mathbf {a} )$ 下降最多。

因而，如果

\mathbf {b} =\mathbf {a} -\gamma \nabla F(\mathbf {a} )

对于一個足够小数值 $\gamma >0$ 時成立，那么 $F(\mathbf {a} )\geq F(\mathbf {b} )$ 。

考虑到这一点，我们可以从函数 $F$ 的局部极小值的初始估计 $\mathbf {x} _{0}$ 出发，并考虑如下序列 $\mathbf {x} _{0},\mathbf {x} _{1},\mathbf {x} _{2},\dots$ 使得

\mathbf {x} _{n+1}=\mathbf {x} _{n}-\gamma _{n}\nabla F(\mathbf {x} _{n}),\ n\geq 0

。

因此可得到

F(\mathbf {x} _{0})\geq F(\mathbf {x} _{1})\geq F(\mathbf {x} _{2})\geq \cdots ,

如果顺利的话序列 $(\mathbf {x} _{n})$ 收敛到期望的局部极小值。注意每次迭代步长 $\gamma$ 可以改变。

右侧的图片示例了这一过程，这里假设 $F$ 定义在平面上，并且函数图像是一个碗形。蓝色的曲线是等高线（水平集），即函数 $F$ 为常数的集合构成的曲线。红色的箭头指向该点梯度的反方向。（一点处的梯度方向与通过该点的等高线垂直）。沿着梯度下降方向，将最终到达碗底，即函数 $F$ 局部極小值的点。

例子

梯度下降法处理一些复杂的非线性函数会出现问题，例如Rosenbrock函數

f(x,y)=(1-x)^{2}+100(y-x^{2})^{2}.\quad

其最小值在 $(x,y)=(1,1)$ 处，数值为 $f(x,y)=0$ 。但是此函数具有狭窄弯曲的山谷，最小值 $(x,y)=(1,1)$ 就在这些山谷之中，并且谷底很平。优化过程是之字形的向极小值点靠近，速度非常缓慢。

下面这个例子也鲜明的示例了"之字"的上升（非下降），这个例子用梯度上升（非梯度下降）法求 $F(x,y)=\sin \left({\frac {1}{2}}x^{2}-{\frac {1}{4}}y^{2}+3\right)\cos(2x+1-e^{y})$ 的局部极大值（非局部极小值）。

|}

缺点

梯度下降法的缺點包括：^[1]

靠近局部極小值时速度减慢。
直線搜索可能會產生一些問題。
可能會“之字型”地下降。

上述例子也已体现出了这些缺点。

参阅

参考文献

^ David W. A. Bourne. Steepest Descent Method. （原始内容存档于2009年2月10日）（英语）.

Mordecai Avriel (2003). Nonlinear Programming: Analysis and Methods. Dover Publishing. ISBN 0-486-43227-0.
Jan A. Snyman (2005). Practical Mathematical Optimization: An Introduction to Basic Optimization Theory and Classical and New Gradient-Based Algorithms. Springer Publishing. ISBN 0-387-24348-8

外部链接

（英文）Interactive examples of gradient descent and some step size selection methods （页面存档备份，存于互联网档案馆）
（英文）Using gradient descent in C++, Boost, Ublas for linear regression （页面存档备份，存于互联网档案馆）

[1] David W. A. Bourne. Steepest Descent Method. （原始内容存档于2009年2月10日）（英语）.

[1]

查论编可微分计算
概论	可微分编程自動微分张量微积分信息几何统计流形神经形态工程（英语：Neuromorphic engineering）模式识别运算学习理论（英语：Computational learning theory）归纳偏置
概念	梯度下降 SGD（英语：Stochastic gradient descent）聚类回归过拟合幻觉对抗（英语：Adversarial machine learning）注意力卷积損失函數反向传播激活函数 softmax sigmoid ReLU 正则化数据集扩散（英语：Diffusion process）自回归
应用	机器学习人工神经网络深度学习科学计算人工智能語言模型大型语言模型
硬件	TPU VPU IPU（英语：Graphcore）憶阻器 SpiNNaker（英语：SpiNNaker）
软件库	Theano TensorFlow Keras PyTorch JAX Flux.jl（英语：Flux (machine-learning framework)）
主题计算机编程技术分类人工神经网络机器学习

梯度下降法

描述

例子

缺点

参阅

参考文献

外部链接

€4.95