当前位置:网站首页>【第三周】ResNet+ResNeXt

【第三周】ResNet+ResNeXt

2022-08-03 05:23:00 YuRDnKa

ResNet

ResNet网络结构:

网络中的亮点:

  • 超深的网络结构(突破1000层)
  • 提出residual模块
  • 使用Batch Normalization加速训练(丢弃dropout)

residual结构

主分支与shortcut的输出特征矩阵shape必须相同。GoogleNet中为拼接,ResNet中是两条分支结果相加。

左侧的结构适用于18和34层的网络,右侧的结构适用于50、101和152层的网络。1×1的卷积核用于降维和升维,使网络的参数量更小。

左侧参数量:3x3×256×256+3×3×256×256=1,179,648

右侧参数量:1×1×256×64+3×3×64×64+1×1×64×256=69,632

layer内的残差结构输入和输出shape相等,layer之间输入和输出shape不相等,因此采用右侧带虚线结构的残差结构。在主分支通过stride=2将shape缩减为原来的一半,捷径也通过stride=2将shape缩减为原来的一半,以此保证主分支和捷径的shape一样。

右侧虚线残差结构的主分支上,第一个1x1卷积层的步距是2,第二个3x3卷积层步距是1。
但在pytorch官方实现过程中是第一个1xi卷积层的步距是1,第二个3x3卷积层步距是2,这样能够在imagenet的top1上提升大概0.5%的准确率。

Batch Normalization

Batch Normalization详解以及pytorch实验

Batch Normalization的目的就是使我们的feature map满足均值为0,方差为1的分布规律,这样能够能够加速网络的收敛并提升准确率。让feature map满足某一分布规律,也就是我们计算一个Batch数据的feature map然后在进行标准化(batch越大越接近整个数据集的分布,效果越好)。

\mu\sigma^2在正向传播过程中统计得到,\gamma\beta在反向传播过程中训练得到。

使用BN时需要注意的问题:

  • 训练时要将traning参数设置为True,在验证时将trainning参数设置为False。在pytorch中可通过创建模型的model.train()和model.eval()方法控制。
  • batch size尽可能设置大点,设置小后表现可能很糟糕,设置的越大求的均值和方差越接近整个训练集的均值和方差。
  • 将bn层放在卷积层(Conv)和激活层(例如Relu)之间,且卷积层不要使用偏置bias,因为没有用。

迁移学习

使用迁移学习的优势:

1. 能够快速的训练出一个理想的结果

2. 当数据集较小时也能训练出理想的效果

注意:使用别人预训练模型参数时,要注意别人的预处理方式。

常见的迁移学习方式:

1. 载入权重后训练所有参数

2. 载入权重后只训练最后几层参数

3. 载入权重后在原网络基础上再添加一层全连接层,仅训练最后一个全连接层

ResNeXt

ResNet-50网络结构与ResNeXt-50结构对比:

分组卷积将输入特征图按通道均分为g组,然后对每一组进行常规卷积,这样可以减少运算量和参数量,相同输入输出大小的情况下,减少为原来的\frac{1}{g}

AI研习社 “猫狗大战” 比赛

    

思考题

1、Residual learning

对于一个堆积层结构,当输入为x时其学习到的特征记为H(x),现在我们希望其可以学习到残差F(x) = H(x)-x,这样其实原始的学习特征是H(x) = F(x)+x。当残差为0时,此时堆积层仅仅做了恒等映射,至少网络性能不会下降,实际上残差不会为0,这也会使得堆积层在输入特征基础上学习到新的特征,从而拥有更好的性能。

2、Batch Normailization 的原理

Batch Normalization的目的就是使我们的feature map满足均值为0,方差为1的分布规律,这样能够能够加速网络的收敛并提升准确率。

3、为什么分组卷积可以提升准确率?即然分组卷积可以提升准确率,同时还能降低计算量,分数数量尽量多不行吗?

分组卷积 Group Converlution

 在某些情况下,如每个输出与输入的一部分特征图相关联时,分组卷积可以取得比常规卷积更好的性能,如输出通道为2,它们分别只与输入的1,2和3,4通道相关,这时最好使用g=2的分组卷积,相当于直接让模型将不相关的输入通道权重设置为零,加快模型收敛。

 但对于需要考虑所有输入特征图信息的情况,分组卷积会降低模型的性能,对于这个问题,常常在两个分组卷积之间加入Channel_Shuffle模块打乱通道顺序,从而实现不同分组间的信息交换。

原网站

版权声明
本文为[YuRDnKa]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_72552263/article/details/126001709