次梯度法:一种用于不可微凸优化问题的迭代算法。当目标函数在某些点不可导时,用“次梯度(subgradient)”替代普通梯度来更新参数,从而逐步逼近最优解。(也常用于带有非光滑正则项的机器学习训练,如 L1 正则。)
/ˌsʌbˈɡreɪdiənt ˈmɛθəd/
The subgradient method can optimize convex functions even when they are not differentiable.
次梯度法即使在函数不可导的情况下,也能优化凸函数。
In large-scale machine learning, the subgradient method is often used to minimize an objective with an L1 penalty, though it may converge more slowly than gradient-based methods on smooth problems.
在大规模机器学习中,次梯度法常用于最小化带 L1 惩罚项的目标函数,不过在光滑问题上它的收敛速度可能比基于梯度的方法更慢。
subgradient 由 sub-(“次、下一级、替代”之意)+ gradient(“梯度”)构成,表示在不可导点用来“替代梯度”的方向信息;method 来自希腊语词根,意为“方法、途径”。合起来就是“使用次梯度的优化方法”。