当前位置：网站首页>一文看懂拉格朗日乘子法、KKT条件和对偶问题

一文看懂拉格朗日乘子法、KKT条件和对偶问题

2022-07-29 23:08:00 【云端FFF】

拉格朗日乘子法是解约束优化问题的常用方法，它和 KKT 条件、Slater 条件、拉格朗日对偶性等概念常常一起出现，本文梳理说明相关概念，并从几何与代数两个角度加以解释
先有一个大概的认识
1. 对于只有等式约束的优化问题，可以直接用拉格朗日乘子法列出拉格朗日函数，将其转化为无约束优化问题求解
2. 对于包含不等式约束的优化问题，仍然可以像只有等式约束时一样列出拉格朗日函数，但此时函数中会包含对拉格朗日乘子的新约束，优化它得到的最优值结果一定满足 KKT 条件（KKT 是取最优参数值的必要条件，对于某些特殊的凸优化问题是充要条件）
3. 含有不等式约束的问题列出拉格朗日函数后仍有约束不好处理，这时我们可以将其转化为拉格朗日对偶问题，这个对偶问题一定是凸优化问题，因此易于求解。优化问题一定具有弱对偶性，但要想对偶问题和原问题同解其必须满足强对偶性，强对偶性的充分条件是Slater 条件，必要条件是 KKT 条件
参考
1. 通俗易懂讲算法-最优化之拉格朗日乘子与KKT条件
2. 《统计学习方法（第二版）》附录 C

1. 拉格朗日乘子法

本节参考：通俗易懂讲算法-最优化之拉格朗日乘子与KKT条件

1.1 只有等式约束

考虑一个只有等式约束的约束优化问题
$\begin{aligned} &\min_{x\in\mathbb{R}^n} &&f(x) \\ & \text{s.t.} &&h_i(x) = 0, \quad i=1,2,...,k \end{aligned}$ 假设只有一个约束，以 $f(x)=x_1+x_2$ , $h(x)=x_1^2+x_2^2-2$ 为例，将目标函数和约束画出

想要最小化 $f (x)$ ，在无约束时我们只要按 $f (x)$ 的负梯度方向（左下45度）做梯度下降即可，但在有约束的情况下，我们每一步都只能按约束园的切线方向（与约束面的梯度方向正交）移动

显然，要想在每一步移动时都让目标函数更优，我们移动的方向必须和目标函数负梯度方向的夹角小于 90 度，换句话说，当移动方向和目标函数负梯度方向垂直时（约束面切向方向和目标函数负梯度方向垂直；约束面梯度方向和目标函数负梯度方向平行），我们就找到了一个 critical point（如图所示）。设此位置为 $x^*$ ，可以表示为
$\triangledown_xf(x^*) = \mu \triangledown_xh(x^*)$ 从图中可以看出， $x^*$ 是优化问题最优解的充要条件为
1. 此位置目标函数负梯度方向和约束面梯度方向相同： $-\triangledown_xf(x^*) = \mu \triangledown_xh(x^*), \space\space \mu>0$
2. 此位置在约束面上： $h(x^*)=0$
3. 在此位置附近沿可行方向移动，目标函数值不会变得更好：Hessian 矩阵与可行移动方向构成的二次型是半正定的
通过上述几何角度的分析，我们可以建立起对拉格朗日乘数法的直观理解。对于有多个等式约束的优化问题
$\begin{aligned} &\min_{x\in\mathbb{R}^n} &&f(x) \\ & \text{s.t.} &&h_i(x) = 0, \quad i=1,2,...,k \end{aligned}$ 首先写出拉格朗日函数
$\mathcal{L} (x,\pmb{\mu}) = f(x)+\pmb{\mu}^\top \pmb{h}(x)$ 则目标函数在 $x^*,\mu^*$ 处取得极小值的充要条件为（这三条和上面充要条件一一对应）
1. $\triangledown_x\mathcal{L} (x^*,\pmb{\mu}^*) = 0$
2. $\triangledown_{\pmb{\mu}}\mathcal{L} (x^*,\pmb{\mu}^*) = 0$
3. $y^\top (\triangledown_{xx}^2\mathcal{L} (x^*,\pmb{\mu}^*))y\geq 0\quad \forall y\space\space\text{s.t.} \triangledown_xh(x^*)^\top y=0$ （注：这里 $y$ 是 $x^*$ 位置的约束面切线方向，即可以移动的方向，Hessian 矩阵半正定意为这里 $\mathcal{L}$ 关于 $x$ 不凹，从而保证是局部极小值）
这里求两个梯度为 0 正是使用拉格朗日乘子法的一般套路，像上面那样从几何角度可以清晰地看出其背后的原理

1.2 只有不等式约束

本节考虑只有不等式约束的约束优化问题
$\begin{aligned} &\min_{x\in\mathbb{R}^n} &&f(x) \\ & \text{s.t.} &&g_j(x) \leq 0, \quad j=1,2,...,l \end{aligned}$

1.2.1 最优解在约束范围内

假设只有一个约束，以 $f(x)=x_1^2+x_2^2$ , $g(x)=x_1^2+x_2^2-1$ 为例，将目标函数和约束画出

这时最优解为 $x=[0,0]^\top$ ，它位于约束面内部，加不加约束对于解没有影响。在 $x^*$ 处取得最优解的充要条件和无约束时相同，为
1. 此位置在约束区域内： $g(x^*)<0$
2. 此位置目标函数梯度为 0： $\triangledown_xf(x^*)=0$
3. 在此位置附近沿可行方向移动，目标函数值不会变得更好： $\triangledown_{xx}^2f(x^*)$ 是半正定的 Hessian 矩阵

1.2.2 最优解在约束范围外

假设只有一个约束，以 $f(x)=(x_1-1.1)^2+(x_2+1.1)^2$ , $g(x)=x_1^2+x_2^2-1$ 为例，将目标函数和约束画出

这时约束面影响了最优解的值，从图中可以很明显地看出，此时的最优解必然位于约束面的边缘上，即必有 $g(x^*)=0$ ，退化为和等式约束相同的情况

在 $x^*$ 处取得最优解的充要条件和等式约束时相同，为
1. 此位置在约束区域边界： $g(x^*)=0$
2. 此位置目标函数负梯度方向和约束面梯度方向相同： $-\triangledown_xf(x^*) = \lambda\triangledown_xg(x^*), \space\space \lambda>0$
3. 在此位置附近沿可行方向移动，目标函数值不会变得更好：Hessian 矩阵与可行移动方向构成的二次型是半正定的

1.2.3 综合考虑两种情况

考虑有多个不等式约束的约束优化问题
$\begin{aligned} &\min_{x\in\mathbb{R}^n} &&f(x) \\ & \text{s.t.} &&g_j(x) \leq 0, \quad j=1,2,...,l \end{aligned}$ 首先写出拉格朗日函数
$\mathcal{L} (x,\pmb{\lambda}) = f(x)+\pmb{\lambda}^\top \pmb{g}(x)$
1. 当最优解在（一个或多个）约束范围内时，这些约束等价于不存在（或者说这些约束条件是 松弛的），因此可以令 $\pmb{\lambda}^*=\pmb{0}$ 使 $\mathcal{L} (x,\pmb{\lambda}^*) =f(x)$ 。根据 1.2.1 分析，在 $x^*,\pmb{\lambda}^*$ 处取得最优解的充要条件为
  1. $g_j(x^*)<0, \space\space j=1,2,....,l$
  2. $\pmb{\lambda}^*=\pmb{0}$
  3. $\triangledown_x\mathcal{L}(x^*,\pmb{\lambda}^*)=\pmb{0}$
  4. $\triangledown_{xx}^2\mathcal{L} (x^*,\pmb{\lambda}^*)$ 是半正定的 Hessian 矩阵
2. 当最优解在（一个或多个）约束范围外时，约束条件会影响最优 $x^*$ 的取值（或者说这些约束条件是 紧致的），在 $x^*$ 处取得最优解的充要条件为
  1. $g_j(x^*)=0, \space\space j=1,2,....,l$
  2. $\lambda^*_j>0, \space\space j=1,2,....,l$
  3. $-\triangledown_xf(x^*) = \pmb{\lambda^*}^\top\triangledown_xg(x^*) \quad \Longrightarrow \triangledown_x\mathcal{L}(x^*,\pmb{\lambda}^*)=\pmb{0}$
  4. $y^\top (\triangledown_{xx}^2\mathcal{L} (x^*))y\geq 0\quad \forall y\space\space\text{s.t.} \triangledown_xg(x^*)^\top y=0$ （Hessian 矩阵与可行移动方向构成的二次型是半正定的）
以上两种情况可以合并考虑，总结出的在 $x^*,\pmb{\lambda}^*$ 处取得最优解的充要条件为
1. $\triangledown_x\mathcal{L}(x^*,\pmb{\lambda}^*)=\pmb{0}$
2. $\lambda^*_j>0, \space\space j=1,2,....,l$
3. $\lambda^*_jg_j(x^*)=0, \space\space j=1,2,....,l$
4. $g_j(x^*)\leq 0, \space\space j=1,2,....,l$
5. $\triangledown_{xx}^2\mathcal{L} (x^*,\pmb{\lambda}^*)$ 是半正定的 Hessian 矩阵

1.3 拉格朗日乘子法与 KKT 条件

首先，拉格朗日乘子法是仅仅针对等式约束优化问题的，即 1.1 节中讨论的情况，我们写出拉格朗日函数 $\mathcal{L}(x,\mu)$ 后，直接联立 $\frac{\partial\mathcal{L}}{\partial x}=0$ 和 $\frac{\partial\mathcal{L}}{\partial \mu}=0$ 求解无约束优化问题即可
我们希望把拉格朗日乘子法扩展到带不等式约束的优化问题，这时就需要将其转化为朗日对偶问题处理，并用 KKT 条件保证解的等价性。先看 KKT 条件：结合 1.1 和 1.2 节，考虑有 $k$ 个等式约束和 $l$ 个不等式约束的优化问题，假设 $f(x), h_i(x), g_j(x)$ 是定义在 $\mathbb{R}^n$ 上的连续可微函数
$\begin{aligned} &\min_{x\in\mathbb{R}^n} &&f(x) \\ & \text{s.t.} &&h_i(x) \leq 0, \quad i=1,2,...,k \\ &&&g_j(x) = 0, \quad j=1,2,...,l \end{aligned}$ 接下来构造拉格朗日函数
$\mathcal{L}(x,\pmb{\mu},\pmb{\lambda}) = f(x)+\pmb{\mu}^\top h(x)+\pmb{\lambda}^\top g(x)$ 综合 1.1 和 1.2 节的分析，优化目标在 $x^*,\pmb{\mu}^*,\pmb{\lambda}^*$ 处取得极小值的充要条件为
1. $\triangledown_x\mathcal{L}(x^*,\pmb{\lambda}^*,\pmb{\mu}^*)=\pmb{0}$
2. $\lambda^*_j>0, \space\space j=1,2,....,l$
3. $\lambda^*_jg_j(x^*)=0, \space\space j=1,2,....,l$
4. $g_j(x^*)\leq 0, \space\space j=1,2,....,l$
5. $h(x^*)=\pmb{0}$
6. $\triangledown_{xx}^2\mathcal{L} (x^*,\pmb{\lambda}^*)$ 是半正定的 Hessian 矩阵
这就是所谓的 KKT条件（通常不提第 6 条）
1. 当原始问题是凸优化问题时，可以认为 KKT 条件是在 $x^*$ 处取得极小值的充要条件（准确地说，当 $f, g$ 是凸函数， $h$ 是仿射函数，且不等式约束 $g$ 严格可行时，KKT 是充要条件）
2. 否则，KKT 条件是在 $x^*$ 处取得极小值的必要条件
观察一下 KKT 条件，其实 1,5,6 三条合起来就是拉格朗日乘子法的计算步骤，引入不等式约束后出现了 2,3,4 条，其中第 2 条是构造拉格朗日函数后新进入的不等式约束，约束无法完全去除，求解仍很困难，这时就要用到拉格朗日对偶性转换为对偶问题了

2. 拉格朗日对偶性

利用拉格朗日对偶性将原始问题转化为对偶问题，通过解对偶问题得到原问题的解，是统计学习方法中常用的一个技巧。最大熵和支持向机等模型推导中都有应用
本节参考《统计学习方法（第二版）》附录 C，符号和前文有所变化，请注意

2.1 原始问题

假设 $f(x), c_i(x), h_j(x)$ 是定义在 $\mathbb{R}^n$ 上的连续可微函数。考虑约束优化问题
$\begin{aligned} &\min_{x\in\mathbb{R}^n} &&f(x) \\ & \text{s.t.} &&c_i(x) \leq 0, \quad i=1,2,...,k \\ &&&h_j(x) = 0, \quad j=1,2,...,l \end{aligned} \tag{1}$ 称此约束优化问题为 原始优化问题/原始问题
引入拉格朗日乘子 $\beta_j$ 和 $\alpha_i\geq 0$ ，将约束项作为惩罚项合并到优化目标中，得到 广义拉格朗日函数
$\mathcal{L}(x,\alpha,\beta) = f(x)+\sum_{i=1}^k \alpha_ic_i(x) + \sum_{j=1}^l \beta_j h_j(x)$ 其中 $x=[x^{(1)},x^{(2)},...,x^{(n)}]^\top \in\mathbb{R}^n$ 。考虑 $x$ 的函数
$\theta_P(x) = \max_{\alpha,\beta:a_i\geq 0} \mathcal{L}(x,\alpha,\beta)$ 这里下标 $P$ 表示原始问题。考察这个函数，不难发现
1. 若 $x$ 违反了某个不等式约束使得 $c_i(x)>0$ ，则可令 $\alpha_i\to +\infin$ ，使得 $\theta_P(x)=+\infin$
2. 若 $x$ 违反了某个等式约束使得 $h_j(x)\neq 0$ ，则可找出某个 $\beta_j$ 使 $\beta_j(x)h_j(x)=+\infin$ ，使得 $\theta_P(x)=+\infin$
3. 若约束全部满足，则必有 $\alpha_i=0, h_j(x) = 0$ ，此时有 $\theta_P(x)=f(x)$
上述讨论可以总结为以下关系
$\theta_P(x)=\left\{ \begin{aligned} f(x) & , \quad x 满足原始约束 \\ +\infin & , \quad 其他 \end{aligned} \right.$ 所以如果我们考虑极小化问题（广义拉格朗日函数的极小极大问题）
$\min_x \theta_P(x) = \min_x\max_{\alpha,\beta:a_i\geq 0} \mathcal{L}(x,\alpha,\beta) \tag{2}$ 显然它与原始优化问题（公式(1)）是等价的，即它们拥有同样的解。这样我们就把原始的约束最优化问题表示为广义拉格朗日函数的极小极大化问题了，和 1.3 节的讨论一样，这个等价问题中引入了关于不等式约束的拉格朗日乘子的不等式约束 $\alpha_i\geq 0$
为了方便，定义原始问题的最优值 $P^* = \min_x \theta_P(x)$ ，称为 原始问题的值

2.2 对偶问题

定义 $\theta_D(\alpha,\beta) = \min_x\mathcal{L}(x,\alpha,\beta)$ ，再考虑其极大化问题（广义拉格朗日函数的极大极小问题）
$\max_{\alpha,\beta:\alpha_i\geq 0} \theta_D(\alpha,\beta) =\max_{\alpha,\beta:\alpha_i\geq 0} \min_x\mathcal{L}(x,\alpha,\beta)$ 这个问题也可以表示为约束优化问题的形式
$\begin{aligned} &\max_{\alpha,\beta} &&\theta_D(\alpha,\beta) =\max_{\alpha,\beta} \min_x\mathcal{L}(x,\alpha,\beta) \\ &\text{s.t.} &&\alpha_i \geq 0, \quad i=1,2,...,k \end{aligned}$ 这称为 原始问题的对偶问题，定义其最优值为 $D^* = \max_{\alpha,\beta:\alpha_i\geq 0} \theta_D(\alpha,\beta)$ ，称为 对偶问题的值
对偶问题有一个关键的性质：无论原问题是什么，构造的对偶问题一定是一个凸优化问题
所谓凸优化问题，就是优化目标为凸函数，可行域为凸集的优化问题
1. 优化目标： $\theta_D(\alpha,\beta) = f(x^*)+\sum_{i=1}^k \alpha_ic_i(x^*) + \sum_{j=1}^l \beta_j h_j(x^*)$ 这是关于 $\alpha,\beta$ 的线性函数，是凸函数
2. 可行域： $\{\pmb{\alpha}|\alpha_i \geq 0, \space\space i=1,2,...,k\}$ ，这是一个半空间，是凸集
注意到将原始问题转化为对偶问题得到了两个好处
1. 减少了约束数量
2. 对偶问题一定是凸优化问题

2.3 对偶问题和原问题的关系

虽然对偶问题性质很好，但它的解和原问题不一定相同，我们必须研究何时二者的解相同，这样才能用对偶问题代替原问题，转换才有意义
先把两个问题整理为易于对比的形式，对于拉格朗日函数
$\mathcal{L}(x,\alpha,\beta) = f(x)+\sum_{i=1}^k \alpha_ic_i(x) + \sum_{j=1}^l \beta_j h_j(x)$
1. 原问题
  $\begin{aligned} &\min_x\max_{\alpha,\beta} \mathcal{L}(x,\alpha,\beta)\\ &\text{s.t.} \quad a_i\geq 0 \quad i=1,2,...,k \end{aligned}$
2. 对偶问题
  $\begin{aligned} &\max_{\alpha,\beta}\min_x \mathcal{L}(x,\alpha,\beta)\\ &\text{s.t.} \quad a_i\geq 0 \quad i=1,2,...,k \end{aligned}$

2.3.1 弱对偶关系：原问题的解一定大于等于对偶问题的解

弱对偶关系：设原问题的解 $\min_x\max_{\alpha,\beta} \mathcal{L}(x,\alpha,\beta)=P^*$ ，对偶问题的解 $\max_{\alpha,\beta}\min_x \mathcal{L}(x,\alpha,\beta)=D^*$ 弱对偶关系 $P^*\geq D^*$ 一定成立。证明如下
$\begin{aligned} &\theta_P(x) = \max_{\alpha,\beta} \mathcal{L}(x,\alpha,\beta) \geq \mathcal{L}(x,\alpha,\beta) \geq\min_x \mathcal{L}(x,\alpha,\beta) = \theta_D(\alpha,\beta) \\ &\theta_P(x) \geq \min_x \theta_P(x) \geq \max_{\alpha,\beta}\theta_D(\alpha,\beta) \geq \theta_D(\alpha,\beta) \\ \Longrightarrow \quad&P^* = \min_x \theta_P(x) \geq \max_{\alpha,\beta}\theta_D(\alpha,\beta) = D^* \end{aligned}$

2.3.2 强对偶关系：原问题的解等于对偶问题的解

强对偶关系：当 $P^* = D^*$ 时称原问题和对偶问题满足强对偶关系，这是我们最关心的情况，因为这时我们就能用对偶问题替代原始问题了。这里有一个推论：设 $x^*$ 和 $\alpha^*,\beta^*$ 分别是原始问题和对偶问题的可行解，且 $P^*=D^*$ 则 $x^*,\alpha^*,\beta^*$ 分别是原始问题和对偶问题的最优解
下面从几何角度观察一下这个等号何时成立，首先对拉格朗日函数做简化处理，等式约束成立时 $\sum_{j=1}^l \beta_j h_j(x)=0$ ，有
$\begin{aligned} \mathcal{L}(x,\alpha,\beta) &= f(x)+\sum_{i=1}^k \alpha_ic_i(x) + \sum_{j=1}^l \beta_j h_j(x)\\ &=f(x)+\pmb{\alpha}^\top \pmb{c}(x) \end{aligned}$ 可以把它看作是关于 $f (x)$ 和 $\pmb{c}(x)$ 的函数，为了在二维平面中表示，假设仅有一个不等式约束，设为 $c (x) = u$ ，同时设 $f (x) = t$ 。这时原问题和对偶问题的形式和可行域为
1. 原问题： $\min_x\{t|(t,u) \in G_1, u\leq 0\}$ ，可行域 $G_1$ 为
  $\begin{aligned} G_1 &= \{(t,u)|t=f(x),u=c(x),x\in D\} \\ D &= \{x|c(x)\leq 0\} \end{aligned}$
2. 对偶问题： $\max_\lambda\min_x\{t+\lambda ·u|(t,u) \in G_2, \lambda\geq 0\}$ ，可行域 $G_2$ 为
  $G_2 = \{(t,u)|t=f(x),u=c(x),x\in \mathbb{R}^n\}$
注意到 $G_1$ 就是 $G_2$ 在 $u$ 负半轴的部分，假设对偶问题的可行域 $G_2$ 是一个非凸集， $G_2,G_1$ 可绘制如下

考察两个问题的解
1. 原问题，直接在 $G_1$ 部分找最小值即可
2. 对偶问题，注意 $t+\lambda ·u$ 是斜率为 $-\lambda$ 的直线与 $t$ 轴的截距，先假设 $\lambda\geq 0$ 是定值，则我们要在 $G_2$ 中找一个点，使得过他的以 $-\lambda$ 为斜率的直线（斜率小于等于零，一定是水平或者向右下倾斜）的截距最小，如下图面左图所示；然后考虑外层的 $\max_\lambda$ ，其实就是找一个合适的斜率使得截距最大，如下面右图所示
  
  可见，若对偶问题的可行域 $G_2$ 是非凸的，则当以 $-\lambda$ 为斜率的直线同时与 $G_2$ 下部两点相切时取到最优值 $D^*$ ，这时一定有 $P^* > D$
另一方面，从几何角度也容易看出：如果 $G_2$ 是凸集，则通常有 $P^*=Q^*$ 满足强对偶关系，下面给出两个满足等号的情况示意图
根据上述分析我们可以认为：绝大多数情况下，只要原问题是凸优化问题，则原问题和对偶问题一定满足强对偶关系，可以互相替代。注意这不是百分百成立的，下面给出严谨的充分条件和必要条件

2.3.3 强对偶关系的充分条件：Slater 条件

不想打字了直接放一个图，请注意符号
Slater 条件说白了就是：对于一个原始凸优化问题，如果至少要有一个属于仿射集的点 $x\in\mathbb{R}^n$ 在不等式约束面的内部，即不在边界上，则该问题有强对偶性（换句话说可行域不能只是不等式约束边界构成的一个壳）

2.3.4 强对偶关系的必要条件：KKT 条件

我们再把 1.3 节的 KKT 条件拿下来重新分析一下：给定若干等式约束 $h_i(x)=0$ 和不等式约束 $g_j(x)\leq 0$ ，优化目标在 $x^*,\pmb{\mu}^*,\pmb{\lambda}^*$ 处取得极小值的充要条件为
1. $\triangledown_x\mathcal{L}(x^*,\pmb{\lambda}^*,\pmb{\mu}^*)=\pmb{0}$
2. $\lambda^*_j>0, \space\space j=1,2,....,l$
3. $\lambda^*_jg_j(x^*)=0, \space\space j=1,2,....,l$
4. $g_j(x^*)\leq 0, \space\space j=1,2,....,l$
5. $h(x^*)=\pmb{0}$
6. $\triangledown_{xx}^2\mathcal{L} (x^*,\pmb{\lambda}^*)$ 是半正定的 Hessian 矩阵
这次我们从原问题和对偶问题的角度考虑，可见
1. 1/2 条满足了对偶问题的约束条件，因此他们被称为 对偶可行条件
2. 4/5 条满足了原问题的约束条件，因此他们被称为 原问题可行条件
3. 第 3 条称为 互补松弛条件，它其实对应了 2.3.2 节最后图示的满足强对偶关系的两种情况
总之，KKT 条件除了是特定凸优化问题取最优值的充要条件，也是约束优化问题有强对偶性质的必要条件

3. 总结

最后我们回顾总结本文说明的各种概念间的关系
1. 对于只有等式约束的优化问题，可以直接用拉格朗日乘子法列出拉格朗日函数，将其转化为无约束优化问题求解
2. 对于包含不等式约束的优化问题，仍然可以像只有等式约束时一样列出拉格朗日函数，但此时函数中会包含对拉格朗日乘子的新约束，优化它得到的最优值结果一定满足 KKT 条件（KKT 是取最优参数值的必要条件，对于某些特殊的凸优化问题是充要条件）
3. 含有不等式约束的问题列出拉格朗日函数后仍有约束不好处理，这时我们可以将其转化为拉格朗日对偶问题，这个对偶问题一定是凸优化问题，因此易于求解。优化问题一定具有弱对偶性，但要想对偶问题和原问题同解其必须满足强对偶性，强对偶性的充分条件是Slater 条件，必要条件是 KKT 条件