当前位置：网站首页>【南瓜书ML】(task5)支持向量机的数学推导（更新ing）

【南瓜书ML】(task5)支持向量机的数学推导（更新ing）

2022-07-29 17:14:00 【山顶夕景】

学习总结

SVM中的求解过程：

拉格朗日乘子法：把约束条件搞到目标函数里面去。
KKT条件：把约束条件为不等式的，转变为约束条件为等式。
拉格朗日对偶：把不容易解决的问题，转变为容易解决的对偶问题。
核函数：把本来线性不可分的点，投射到更高维度上去，使其变得线性可分。

文章目录

学习总结
一、间隔与支持向量
二、转为对偶问题后的求解
Reference

一、间隔与支持向量

支持向量机SVM是20世纪90年代在计算机界发展起来的一种分类算法，在许多问题中都被证明有较好的效果，被认为是适应性最广的算法之一。
在这里插入图片描述
支持向量机的基本原理：如上图，白色和蓝色的点各为一类，如果数据本身是线性可分的，让两类的点分开的超平面有很多，但现在我们的目标是找到一个【最大间隔超平面】，即该分割平面距离最近的观测点最远：

根据距离超平米那最近的点，只要同时缩放w和b可以得到： $w^Tx_1 + b = 1$ 与 $w^Tx_2+b = -1$ ，因此：

$\begin{array}{l} w^{T} x_{1}+b=1 \\ w^{T} x_{2}+b=-1 \\ \left(w^{T} x_{1}+b\right)-\left(w^{T} x_{2}+b\right)=2 \\ w^{T}\left(x_{1}-x_{2}\right)=2 \\ \qquad \begin{array}{l} w^{T}\left(x_{1}-x_{2}\right)=\|w\|_{2}\left\|x_{1}-x_{2}\right\|_{2} \cos \theta=2 \\ \left\|x_{1}-x_{2}\right\|_{2} \cos \theta=\frac{2}{\|w\|_{2}} \end{array} \\ \qquad \begin{array}{l} d_{1}=d_{2}=\frac{\left\|x_{1}-x_{2}\right\|_{2} \cos \theta}{2}=\frac{\frac{2}{\|w\|_{2}}}{2}=\frac{1}{\|w\|_{2}} \\ d_{1}+d_{2}=\frac{2}{\|w\|_{2}} \end{array} \end{array}$

由此可知道SVM模型的具体形式：
$\begin{aligned} \min _{w, b} & \frac{1}{2}\|w\|^{2} \\ \text { s.t. } & y^{(i)}\left(w^{T} x^{(i)}+b\right) \geq 1, \quad i=1, \ldots, n \end{aligned}$

几个概念：
（1）支持向量：距离超平面最近的几个训练样本满足下面条件。
假设超平面 $(w, b)$ 能将训练样本正确分类, 即对于 $\left(x_{i}, y_{i}\right) \in D$ , 若 $y_{i}=+1$ , 则有 $w^{T} x_{i}+$ $b > 0$ , 若 $y_{i}=-1$ , 则有 $w^{T} x_{i}+b<0$ , 令：
$\begin{cases}w^{T} x_{i}+b \geqslant+1, & y_{i}=+1 \\ w^{T} x_{i}+b \leqslant-1, & y_{i}=-1\end{cases}$

（2）间隔：两个异类支持向量超平面的距离之和 $\gamma=\dfrac{2}{\|w\|}$

（3）SVM的目标函数：找到最大间隔的划分超平面, 需要求解参数 $w$ 和 $b$ 使得 $\gamma$ 最大, 目标函数如下:
$\begin{array}{lc} \min _{w, b} & \dfrac{1}{2}\|w\|^{2} \\ \text { s.t. } & y_{i}\left(w^{T} x_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m \end{array}$

二、转为对偶问题后的求解

可以将上面SVM目标形式中的约束条件写为: $g_{i}(w)=-y^{(i)}\left(w^{T} x^{(i)}+b\right)+1 \leq 0$
可以将优化问题拉格朗日化
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right]$
因此：
$\mathcal{L}(w, b, \alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{n} \alpha_{i}\left[y^{(i)}\left(w^{T} x^{(i)}+b\right)-1\right]$ 欲构造 $d u a l$ 问题, 首先求拉格朗日化的问题中 $\mathrm{w}$ 和 $\mathrm{b}$ 的值, 对 $\mathrm{w}$ 求梯度, 令梯度为 0, 可求得 w:
对 b 求梯度, 令梯度为 0, 可得：
$\frac{\partial}{\partial b} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i} y^{(i)}=0$

将 $\mathrm{w}$ 带入拉格朗日化的原问题可得
$\begin{array}{l} \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)}-b \sum_{i=1}^{n} \alpha_{i} y^{(i)} \\ \mathcal{L}(w, b, \alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left(x^{(i)}\right)^{T} x^{(j)} \end{array}$
因此：
$\begin{aligned} &\text { 对拉格朗日化的原问题求最小值, 得到了 } \mathrm{w} \text { , 现在可以构造 dual 问题 }\\ &\begin{aligned} \max _{\alpha} & W(\alpha)=\sum_{i=1}^{n} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{n} y^{(i)} y^{(j)} \alpha_{i} \alpha_{j}\left\langle x^{(i)}, x^{(j)}\right\rangle \\ \text { s.t. } & \alpha_{i} \geq 0, \quad i=1, \ldots, n \\ & \sum_{i=1}^{n} \alpha_{i} y^{(i)}=0 \end{aligned}\\ &\text { 可以推导出 b的值为: } b^{*}=-\frac{\max _{i: y^{(i)}=-1} w^{* T} x^{(i)}+\min _{i: y^{(i)}=1} w^{* T} x^{(i)}}{2}\\ &\begin{array}{r} \text { SVM的决策子如下,值的符号为类别. } \\ \qquad w^{T} x+b=\left(\sum_{i=1}^{n} \alpha_{i} y^{(i)} x^{(i)}\right)^{T} x+b=\sum_{i=1}^{n} \alpha_{i} y^{(i)}\left\langle x^{(i)}, x\right\rangle+b \end{array} \end{aligned}$

Reference

[1] 陈希孺编著.概率论与数理统计[M].中国科学技术大学出版社,2009
[2] B 站视频教程：https://www.bilibili.com/video/BV1Mh411e7VU
[3] 线上南瓜书：https://datawhalechina.github.io/pumpkin-book/#/chapter1/chapter1
[4] 开源地址：https://github.com/datawhalechina/pumpkin-book
[5] 【数学基础】KKT条件
[6] 支持向量机SVM的通俗介绍
[7] SVM（三）：对偶问题最直白解释
[8] 对偶问题

原网站

版权声明
本文为[山顶夕景]所创，转载请带上原文链接，感谢
https://andyguo.blog.csdn.net/article/details/126022309