当前位置：网站首页>【吴恩达笔记】机器学习基础

【吴恩达笔记】机器学习基础

2022-06-24 19:25:00 【zzu菜】

机器学习基础

什么是机器学习？

一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时的性能有所提升。

我认为经验E 就是程序上万次的自我练习的经验而任务T 就是下棋。性能度量值P呢，就是它在与一些新的对手比赛时，赢得比赛的概率。

Supervised Learning有监督学习

有监督学习：数据集中不仅仅有特征feature-X，还有标签target-Y

我们以后会讲一个算法，叫支持向量机，里面有一个巧妙的数学技巧，能让计算机处理无限多个特征。

Unsupervised Learning无监督学习

无监督学习:数据集中仅仅有特征feature

聚类算法:分离不同距离的音频，区分邮箱是否为垃圾邮箱等等

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

自监督学习

解释一: 自监督学习让我们能够没有大规模标注数据也能获得优质的表征，反而我们可以使用大量的未标注数据并且优化预定义的 pretext 任务。然后我们可以使用这些特性来学习缺乏数据的新任务。

解释二: self-supervised learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务。其主要的方式就是通过自己监督自己，比如把一段话里面的几个单词去掉，用他的上下文去预测缺失的单词，或者将图片的一些部分去掉，依赖其周围的信息去预测缺失的 patch。

作用:

从无标签数据中学习到有用的信息, 以用于后续任务.

自监督任务（也称为 pretext 任务）要求我们考虑监督损失函数。然而，我们通常不关心该任务最终的性能。实际上，我们只对学习到的中间表征感兴趣，我们期望这些表征可以涵盖良好的语义或结构上的意义，并且能够有益于各种下游的实际任务。

具体了解

Linear Regression with One Variable单一变量的线性回归

单变量线性回归：

一种可能的表达方式为： $h_\theta \left( x \right)=\theta_{0} + \theta_{1}x$ ，因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

售卖房子:已经知道之前售卖的价格，根据之前的数据集预测自己朋友房子可以出售的价格。

Training Set（训练集）如下:

$m$ 代表训练集中实例的数量

$x$ 代表特征/输入变量

$y$ 代表目标变量/输出变量

$\left( x,y \right)$ 代表训练集中的实例

${ {x}^{(i)}},{ {y}^{(i)}})$ 代表第 $i$ 个观察实例

$h$ 代表学习算法的解决方案或函数也称为假设（hypothesis）

Cost Function代价函数

代价函数也被称作平方误差函数，有时也被称为平方误差代价函数。我们之所以要求出误差的平方和，是因为误差平方代价函数，对于大多数问题，特别是回归问题，都是一个合理的选择。还有其他的代价函数也能很好地发挥作用，但是平方误差代价函数可能是解决回归问题最常用的手段了。

代价函数使得我们 $h_\theta \left( x \right)=\theta_{0} + \theta_{1}x$ 更好的选择参数**parameters ** $\theta_{0}\theta_{1}$ ，以便最可能的直线和数据相互拟合。

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。

即使得代价函数 $\left( \theta_0, \theta_1 \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}$ 最小。

$\theta_{0}$ 和 $\theta_{1}$ 和 $J(\theta_{0}, \theta_{1})$ 关系的可视化

目前求得全局最小的代价函数，进行简化 $\theta_{0}=0$

对 $\theta_{1}$ 不断进行赋值求解得对应的 $J(\theta_{1})$ ，得到 $J(\theta_{1})$ 和 $\theta_{1}$ 关系

等高线图：对应的 $\theta_{0}=360$ ， $\theta_{1}=0$ ，对应在等高线图中的位置

Gradient Descent梯度下降

梯度下降：用来求解代价函数 $J(\theta_{0}, \theta_{1})$ 最小值时的 $\theta_{0}$ ， $\theta_{1}$

梯度下降背后的思想是：开始时我们随机选择一个参数的组合 $\left( {\theta_{0}},{\theta_{1}},......,{\theta_{n}} \right)$ ，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到找到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。

梯度下降算法

$a$ 是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

右边是正确的，全部值算出之后在赋值，左边是错误的

梯度下降算法如下：

${\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left(\theta \right)$

描述：对$\theta $赋值，使得$ J\left( \theta \right) $按梯度下降最快方向进行，一直迭代下去，最终得到局部最小值。其中$ a$是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。

如果只考虑 $\theta_{1}$ ， $\theta_{0}=0$ 时， $\alpha \frac{\partial }{\partial {\theta_{1}}}J\left(\theta \right)$ ，前面是学习率，后面是代价函数 $J\left( \theta \right)$ 关于 $\theta_{1}$ 的导数。

代价函数 $J\left( \theta_{1} \right)$ 和 $\theta_{1}$ 的图像，

如果学习率太小，会迭代较多的次数

如果学习率过大，可能会跨过局部最小值，来回震荡偏离局部最小值点。

将梯度下降和代价函数结合，并将其应用于具体的拟合直线的线性回归算法里。

梯度下降算法和线性回归算法如下图:

对我们之前的线性回归问题运用梯度下降法，关键在于求出代价函数的导数，即：

$\frac{\partial }{\partial { {\theta }_{j}}}J({ {\theta }_{0}},{ {\theta }_{1}})=\frac{\partial }{\partial { {\theta }_{j}}}\frac{1}{2m}{ {\sum\limits_{i=1}^{m}{\left( { {h}_{\theta }}({ {x}^{(i)}})-{ {y}^{(i)}} \right)}}^{2}}$

$j = 0$ 时： $\frac{\partial }{\partial { {\theta }_{0}}}J({ {\theta }_{0}},{ {\theta }_{1}})=\frac{1}{m}{ {\sum\limits_{i=1}^{m}{\left( { {h}_{\theta }}({ {x}^{(i)}})-{ {y}^{(i)}} \right)}}}$

$j = 1$ 时： $\frac{\partial }{\partial { {\theta }_{1}}}J({ {\theta }_{0}},{ {\theta }_{1}})=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left( { {h}_{\theta }}({ {x}^{(i)}})-{ {y}^{(i)}} \right)\cdot { {x}^{(i)}} \right)}$

则算法改写成：

Repeat {

${\theta_{0}}:={\theta_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({ {h}_{\theta }}({ {x}^{(i)}})-{ {y}^{(i)}} \right)}$

${\theta_{1}}:={\theta_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({ {h}_{\theta }}({ {x}^{(i)}})-{ {y}^{(i)}} \right)\cdot { {x}^{(i)}} \right)}$