当前位置：网站首页>Week 6 Linear Models for Classification (Part B)

它是从class 1 得到的概率为： $\mathrm{P}\left(\mathrm{C}_{1} \mid \mathrm{x}\right)=\frac{\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{1}\right) \mathrm{P}\left(\mathrm{C}_{1}\right)}{\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{1}\right) \mathrm{P}\left(\mathrm{C}_{1}\right)+\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{2}\right) \mathrm{P}\left(\mathrm{C}_{2}\right)}$

它是从class 2 得到的概率为： $\mathrm{P}\left(\mathrm{C}_{2} \mid \mathrm{x}\right)=\frac{\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{2}\right) \mathrm{P}\left(\mathrm{C}_{2}\right)}{\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{1}\right) \mathrm{P}\left(\mathrm{C}_{1}\right)+\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{2}\right) \mathrm{P}\left(\mathrm{C}_{2}\right)}$

通过计算某个数据属于不同class的概率，若数据属于某个class的概率最大，则可以将数据分类为这个类别。
因此，只要知道以下数值特征，即可对数据进行分类：

P(C_1) : 数据属于Class 1的概率可以通过训练集中class 1 的占比表示

P(C_2) : 数据属于Class 2的概率可以通过训练集中class 2的占比表示

P(x|C_1) : class 1中得到 x的概率

P(x|C_2) :class 2中得到 x 的概率

这种思路叫做生成模型Generative Model。因为有了这个模型，就可以生成一个 x，可以计算某个 x 出现的概率，知道了x的分布，就可以自己产生 x 。

2、高斯分布（正态分布）`Gaussian Distribution`

使用极大似然估计法Maximum Likelihood找出高斯分布：

似然函数:

$\mathrm{L}(\mu, \Sigma)=\mathrm{f}_{\mu, \Sigma}\left(\mathrm{x}^{1}\right) \mathrm{f}_{\mu, \Sigma}\left(\mathrm{x}^{2}\right) \ldots \ldots . \mathrm{f}_{\mu, \Sigma}\left(\mathrm{x}^{\mathrm{n}}\right)$

计算方法:

$\hat \mu, \hat\Sigma=\underset{\mu, \Sigma}{\arg \max } \mathrm{L}(\mu, \Sigma)$

$\begin{aligned} &\hat\mu=\frac{1}{n} \sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{x}^{\mathrm{i}} \\ & \hat\Sigma=\frac{1}{\mathrm{n}} \sum_{\mathrm{i}=1}^{\mathrm{n}}\left(\mathrm{x}_{\mathrm{i}}-\hat \mu\right)\left(\mathrm{x_i}-\hat\mu\right)^{\mathrm{T}} \end{aligned}$

得到了期望向量和协方差矩阵，就确定了高斯分布的模型，接下来可以进行分类了。

${P}\left(\mathrm{C}_{1} \mid \mathrm{x}\right)=\frac{\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{1}\right) \mathrm{P}\left(\mathrm{C}_{1}\right)}{\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{1}\right) \mathrm{P}\left(\mathrm{C}_{1}\right)+\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{2}\right) \mathrm{P}\left(\mathrm{C}_{2}\right)}$

其中P ( C 1 ) 和P ( C 2 ) 通过占比计算：

$\mathrm{P}\left(\mathrm{C}_{1}\right)=\frac{\mathrm{C}_{1} \text { number }}{\mathrm{C}_{1} \text { number }+\mathrm{C}_{2} \text { number }}$
$\mathrm{P}\left(\mathrm{C}_{2}\right)=\frac{\mathrm{C}_{2} \text { number }}{\mathrm{C}_{1} \text { number }+\mathrm{C}_{2} \text { number }}$
$\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{1}\right)=\mathrm{f}_{\mu_1, \Sigma_1}(\mathrm{x})=\frac{1}{(2 \pi)^{\mathrm{D} / 2}} \frac{1}{\left|\Sigma_1\right|^{1 / 2}} \exp \left\{-\frac{1}{2}\left(\mathrm{x}-\mu_1\right)^{\mathrm{T}}\left(\Sigma_1\right)^{-1}\left(\mathrm{x}-\mu_1\right)\right\}$
$\mathrm{P}\left(\mathrm{x} \mid \mathrm{C}_{2}\right)=\mathrm{f}_{\mu_2, \Sigma_2}(\mathrm{x})=\frac{1}{(2 \pi)^{\mathrm{D} / 2}} \frac{1}{\left|\Sigma_2\right| 1 / 2} \exp \left\{-\frac{1}{2}\left(\mathrm{x}-\mu_2\right)^{\mathrm{T}}\left(\Sigma_2\right)^{-1}\left(\mathrm{x}-\mu_2\right)\right\}$

如果 P(C_1|x)> 0.5 * x belongs to class 1 ,如果x来自于class 1的概率大于0.5，可以认为x属于class 1。

但是，考虑了两种特征，在测试集上的正确率仅有47%，考虑了所有特征后，正确率仅有54%。于是我们进行改进模型，假设生成的概率模型满足两个类别的协方差矩阵的值相等。

极大似然函数为：

$\mathrm{L}\left(\mu_1, \mu_2, \Sigma\right)=\prod_{\mathrm{i}=1}^{\mathrm{n}_{1}} \mathrm{f}_{\mu_1, \Sigma}\left(\mathrm{x_i}\right) \times \Pi_{\mathrm{i}=1}^{\mathrm{n}_{2}} \mathrm{f}_{\mu_2, \Sigma}\left(\mathrm{x_i}\right)$

计算方法: $\mu_1$ 和 $\mu_2$ 和之前一样

$\begin{aligned} &\mu_1=\frac{1}{n_{1}} \sum_{i=1}^{n_{1}} x_i \\ &\mu_2=\frac{1}{n_{2}} \sum_{i=1}^{n_{2}} x_i \end{aligned}$

$\Sigma$ 通过 $\Sigma_1$ 和 $\Sigma_2$ 的加权平均来计算:

$\Sigma=\frac{\mathrm{C}_{1} \text { number }}{\mathrm{C}_{1} \text { number }+\mathrm{C}_{2} \text { number }} \Sigma_1+\frac{\mathrm{C}_{2} \text { number }}{\mathrm{C}_{1} \text { number }+\mathrm{C}_{2} \text { number }} \Sigma_2$

在这里插入图片描述

概率模型的说明

3、概率生成模型的三步

在这里插入图片描述

4、概率生成模型的数学推导（重点）

Posterior Probability后验概率(也叫Decision Boundary)：事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率。

数学推导1：后验概率化为z的函数

在这里插入图片描述

数学推导2：z的化简

其中：

得到后验概率的表达式：（也叫决策边界，大于0.5，归为C1类，反之归于C2类）

$P(C_1|x) = \sigma (w \cdot x + b )$

二、概率判别模型（Probabilistic Discriminative Models）

1、Logistic Regression

逻辑回归属于probabilistic discriminative model这一类的分类算法。

probabilistic discriminative mode这类算法的思路如下：

直接建模
利用最大似然估计和训练数据，估计出模型中的参数

该类想法相对于生成模型（probabilistic generated model) 有参数较少的优点。因为生成模型需要 P(x|C_k) 和先验概率 P(C_k ) 。

LR是工业界最长用的分类算法之一，其主要原因，个人认为有几点如下：

训练速度快，扛得住大数据
模型可解释度、可理解程度高，根据每个特征的系数，就可以判断出该特征在模型中的重要性，帮助判断模型是否合理
可以接受的精度

2、LR二分类

3、LR多分类

SGD更新w:

三、Discriminative 和 generative models的区别

在这里插入图片描述

四、Logistic Regression和Linear Regression区别与联系

1、Logistic Regression

应用于分类问题
除了可以解决二分类问题外，还可以解决多分类问题。
Logistic Regression 是离散的。例如预测明天天气-阴，晴，雨。分类问题是用于将事物打上一个标签，通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗，分类通常是建立在回归之上，分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念，最终正确结果只有一个，错误的就是错误的，不会有相近的概念。最常见的分类方法是逻辑回归，或者叫逻辑分类。
Logistics Regression仍然属于线性回归的范畴，因为分界面是线性的，而且Logistics Regression是广义线性模型（GLM）或者叫对数线性模型（LLM）；
Logistics Regression则取对数似然的最大，做梯度下降往正梯度方向，但有时为了与线性回归保持一致，通常会取负对数似然；
一般而言，LR指的是Logistics Regression，而非Linear Regression；
Logistics Regression与Softmax Regression是真正做分类的首选，由于方法简单，易于实现，效果良好，易于解释，除了用于分类，还可以用于推荐系统；
激活函数是 sigmoid 函数，可理解成一个被 sigmoid 函数归一化后的线性回归，sigmoid 函数把实数映射到了 [0,1] 区间。关于 Logistic 回归的参数估计求解，在此不详说。如果要预测一个未知数据 x 属于哪个类，只需要带入 sigmoid 假设函数，最简单的决策方法，如果其值在 0.5~1 之间，属于类别 1，反之属于类别 0。
采用 Logistic Regression进行多分类的思路是：选取某个分类作为正样本，其他分类作为负样本建立一个二分类模型；以此类推建立多个（有几个分类就建几个）二分类模型；对多个二分类模型的输出值进行大小比较，把样例归为输出值最大的那类。
Logistic Regression 从本质来说属于二分类问题，是基于Sigmoid函数（又叫“S型函数”）的有监督二类分类模型。

Sigmoid函数公式为：

其导数形式为：

2、Linear Regression

解决回归问题，通常是用来预测一个值。如预测房价、未来的天气情况等等，例如一个产品的实际价格为500元，通过回归分析预测值为499元，我们认为这是一个比较好的回归分析。回归是对真实值的一种逼近预测。
可以对样本是非线性的，但只要对参数是线性的，就可以使用。其表达形式为y = w'x+e，e为误差服从均值为0的正态分布。对于x是否是线性无所谓，但是需要有时候做特征选择；
Linear Regression取对数似然的最小，所以在做梯度下降时，往负梯度方向；