当前位置：网站首页>深度学习基本概念

深度学习基本概念

2022-07-31 11:53:00 【sweetheart7-7】

Liner Model 太过简单，不能拟合复杂的关系

可能出现如下情况：

在这里插入图片描述
如何写更复杂的有未知参数的函数？
红色function 可以看作 一个常数 + 一群蓝色的function

在这里插入图片描述
曲线也可以通过取适当的点然后把这些点连接起来形成一个 Piecewise Liner(分段) 的 Curves，所以可以通过足够多的蓝色的 function 加起来形成任何的曲线。

在这里插入图片描述

通过 sigmoid function 来逼近蓝色的 function

sigmoid Function：S 形的 function

$\frac{1}{1 + e^{-(b+wx_1)}}$
$c ~sigmoid(b+wx_1)$

当 $w$ 为正时， $x_1$ 趋近于 ∞ 时，sigmoid 趋近于 $c$ ， $w$ 为负时，…，sigmoid 趋近于 $0$ 。

在这里插入图片描述

通过调整 $w$ 、 $b$ 和 $c$ 来得到各种形状的 sigmoid function 来拟合各种蓝色的 function。

在这里插入图片描述

所以 0、1、2、3 这 4 条蓝色的 function 都可以用 $c sigmoid(b + wx_1)$ 来表示，只是对应的 $c$ 、 $w$ 和 $b$ 不同，所以红色的 function $y$ 就可以用以下形式表示：

在这里插入图片描述
所以可以通过调整 $c_i$ 、 $b_i$ 和 $w_i$ 来拟合各种各样曲线的 function

有弹性的有未知参数 function

从线性的 $y=b + wx_1$
推广到分段曲线 function
$\sum_{i}c_i~sigmoid(b_i+w_i+x_1)$

这里只有 $x_1$ 代表只能通过当前一条数据结果来预测下一个结果。

而在上一个 blog 最后推广到可能具有周期性，所以可以通过多个 feature 来改造函数，然后再对具有多个 feature 的函数进行推广，就有

$\sum_{j}w_jx_j$ 推广为
$\sum_{i}c_i~sigmoid(b_i+\sum_{j}w_{ij}x_j)$

相当于从多个 feature 与 $y$ 有一个线性关系推广为多个 feature 与 $y$ 有一个曲线关系

在这里插入图片描述
$i$ 代表多个 $s i g m o i d 函数$ ，而 $j$ 代表多个feature

$w_{ij}$ 表示再第 $i$ 个 sigmoid 里面乘给第 $j$ 个 feature 的 $w e i g h t$

在这里插入图片描述

可以用以下向量与矩阵关系表示这个乘法关系

在这里插入图片描述
所以 $a_1 = sigmoid(r_1) = \frac{1}{1+e^{-r_{1}}}$

在这里插入图片描述

所以用线性代数表示为：
在这里插入图片描述

将未知参数 $W$ 、 $b 向量$ 、 $C^T向量$ 、 $b 常数$ 展开成 $θ$ 向量

这样就完成了 ML 的第一步
在这里插入图片描述
Loss 还是同样的方法，带入一组 $θ$ 然后求得 $y$ 并且求与 $\hat{y}$ 的差值，来判断这组 $θ$ 的好坏。

在这里插入图片描述
第三步 Optimization 的方法也没有变化

对所有的 $θ_i$ 求微分，然后得到一个向量 $g$
$g$ 就是 gradient

在这里插入图片描述

在实际的程序中，需要把大 data 随机分成多个 batch，然后对每一个 batch 进行计算 $g$ ，更新 $θ$ （一个 epoch），每一次更新参数(一个batch)叫做一次 update

batchsize 也是 hyperparameter

在这里插入图片描述

通过 Relu 来逼近蓝色的 function
需要先用 Relu 拟合 Hard sigmoid
在这里插入图片描述

sigmoid 与 Relu 统称为 activation function

我们可以重复多次进行如下扩展：

在这里插入图片描述

多个 layer

在这里插入图片描述

版权声明
本文为[sweetheart7-7]所创，转载请带上原文链接，感谢
https://whb888.blog.csdn.net/article/details/126073965

边栏推荐

猜你喜欢

随机推荐