当前位置：网站首页>动手学深度学习_卷积神经网络CNN

动手学深度学习_卷积神经网络CNN

2022-08-04 05:29:00 【CV小Rookie】

MLP到CNN的转变

transitional invariance 平移不变性

MLP到CNN的转变

传统的MLP对于图片的处理参数量太大，现在随手拍一张照片像素都在几千万吧，当我们把这张图片送入MLP，假设使用隐藏层不断的降维，里面的参数也得有几十亿，根本没办法训练。另外神经元个数太少也根本无法拟合，学习特征。

但其实图像中本就拥有丰富的结构，而这些结构可以被人类和机器学习模型使用，卷积神经网络CNN就是利用自然图像中一些已知结构的创造性方法，有效的降低了参数量。

之前在MLP中的时候，输入是一个一维的向量，权重参数W是一个二位的矩阵。现在输入改成了一张图片也就是二维的矩阵，那么对于二维矩阵来说，权重参数就映射到了四维张量：

$h_{i,j}=\sum_{k,l}w_{i,j,k,l}\ x_{k,l}=\sum_{a,b}v_{i,j,a,b} \ x_{i+a,j+b}$

这里的 $v_{i,j,a,b} \ x_{i+a,j+b}$ 其实是为了下面引出卷积做一个代表变换： $k=i+a,\ l=j+b$

可以立即成在像素 i, j 位置通过索引 a, b 在正偏移负偏移之间移动覆盖图像。

transitional invariance 平移不变性

不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应

公式 $h_{i,j}=\sum_{a,b}v_{i,j,a,b} \ x_{i+a,j+b}$ 显然不满足平移不变性，因为可以明显看到随着 i, j 的改变 $h_{i,j}$ 也发生了变化，这不是我们想看到的。究其原因就因为对于 i, j 有依赖，所以提出了新的变换： $v_{i,j,a,b}=v_{a,b}$ 原公式就变为： $h_{i,j}=\sum_{a,b}v_{a,b} \ x_{i+a,j+b}$ 这就是二维交叉相关

locality 局部性

神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，这就是“局部性”原则。最终，可以聚合这些局部特征，以在整个图像级别进行预测。

继续看上面的公式，当评估 $h_{i,j}$ 时，我们不应该去考虑离 $x_{i,j}$ 太远的参数，所以给 a, b 加上一定的限制： $while \ \left | a \right |,\left | b \right |> \Delta,\ v_{a,b}=0$ ，新的公式就变为： $h_{i,j}=\sum_{a=-\Delta}^{\Delta }\sum_{b=-\Delta }^{\Delta }v_{a,b} \ x_{i+a,j+b}$

综上所述，对全联接层使用平移不变性和局部性就可以得到卷积层！

图像卷积

互相关计算：

0 X 0 + 1 X 1 + 3 X 2 + 4 X 3 =19

卷积窗口从输入张量的左上角开始，从左到右、从上到下滑动。当卷积窗口滑动到新一个位置时，包含在该窗口中的部分张量与卷积核张量进行按元素相乘，得到的张量再求和得到一个单一的标量值，由此我们得出了这一位置的输出张量值。

输入大小 $n_{k} \times n_{w}$ ，卷积核大小 $k_{h}\times k_{w}$ ，输出大小 $(n_{h} - k_{h}+1)\times(n_{w}-k_{w}+1)$

互相关运算的pytorch实现

import torch

def corr2d(X, K):  #@save
    """计算二维互相关运算"""
    h, w = K.shape
    Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
    return Y

卷积层

前面的数学公式没看懂没问题，看图就懂！

下层的阴影就是卷积核，可以生动的看到卷积核从输入图像左上方依次遍历像素直到结束。

Conv2D 手动实现（利用前面的互相关计算）：

class Conv2D(nn.Block):
    def __init__(self, kernel_size, **kwargs):
        super().__init__(**kwargs)
        self.weight = self.params.get('weight', shape=kernel_size)
        self.bias = self.params.get('bias', shape=(1,))

    def forward(self, x):
        return corr2d(x, self.weight.data()) + self.bias.data()