当前位置:网站首页>Summary of CNN classic models [easy to understand]
Summary of CNN classic models [easy to understand]
2022-08-02 18:34:00 【Full stack programmer webmaster】
大家好,又见面了,我是你们的朋友全栈君.
本文主要对CNNIn the field of classical model in summary,A recent study to do a small summary.
基础知识
作为深度学习的基础,Neural network, this algorithm is a must have understanding,这里不介绍太多,A brief introduction of principle and the structure of a single neuron:
一、BP神经网络的概念
BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的.具体来说,对于如下的只含一个隐层的神经网络模型:
BP神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置.
二、单个神经元的结构
主要是通过对输入信号的加权求和加偏置(加权求和对应的w,偏置对应的b),然后通过通过激活函数引入非线性元素并将结果映射至0——1之间的数值(比如sigmoid函数).具体见下图:
Images from national Taiwan university 李宏毅 300页 PPT https://www.slideshare.net/tw_dsconf/ss-62245351 (记得FQ) 个人觉得这个PPT非常不错,从浅到深,Speak of is also very specific,有时间可以仔细看看.
CNN模型汇总
一、LeNet5 模型
LeNet5 诞生于 1994 年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展.自从 1988 年开始,在许多次成功的迭代后,这项由 Yann LeCun 完成的开拓性成果被命名为 LeNet5(参见:Gradient-Based Learning Applied to Document Recognition).
LeNet5 的架构基于这样的观点:(尤其是)图像的特征分布在整张图像上,以及带有可学习参数的卷积是一种用少量参数在多个位置上提取相似特征的有效方式.在那时候,没有 GPU 帮助训练,甚至 CPU 的速度也很慢.因此,能够保存参数以及计算过程是一个关键进展.这和将每个像素用作一个大型多层神经网络的单独输入相反.LeNet5 阐述了那些像素不应该被使用在第一层,因为图像具有很强的空间相关性,而使用图像中独立的像素作为不同的输入特征则利用不到这些相关性.
LeNet5特征能够总结为如下几点: 1)卷积神经网络使用三个层作为一个系列: 卷积,池化,非线性 2) 使用卷积提取空间特征 3)使用映射到空间均值下采样(subsample) 4)双曲线(tanh)或S型(sigmoid)形式的非线性 5)多层神经网络(MLP)作为最后的分类器 6)层与层之间的稀疏连接矩阵避免大的计算成本
总体看来,The starting point of this network is recently a lot of neural network architecture,并且也给这个领域带来了许多灵感. 从 1998 年到 2010 In neural network in the incubation stage.Most people don't realize their growing power,Other researchers, meanwhile, is slow.Due to the phone's camera and the emergence of cheap digital camera,More and more data can be used.And computing power is growing,CPU 变得更快,GPU Into a variety of utility computing tools.These trends make neural network progress,虽然速度很慢.Data and computing power makes the neural network can accomplish the task of more and more interesting.After all become clear……
二、AlexNet 模型
2012年,Hinton的学生Alex Krizhevsky提出了深度卷积神经网络模型AlexNet,它可以算是LeNet的一种更深更宽的版本.AlexNet中包含了几个比较新的技术点,也首次在CNN中成功应用了ReLU、Dropout和LRN等Trick.同时AlexNet也使用了GPU进行运算加速,The author of the open source them inGPUTraining on the convolution of the neural networkCUDA代码.AlexNet包含了6亿3000万个连接,6000万个参数和65万个神经元,拥有5个卷积层,其中3个卷积层后面连接了最大池化层,最后还有3个全连接层.
AlexNetWith significant advantage to win the competitionILSVRC 2012比赛,top-5Error rate is reduced to the16.4%,Compared with the second grade26.2%Error rate has a huge improvement.AlexNetCan be said to be the neural network for the first time after the trough voice,确立了深度学习(深度卷积网络)In computer vision the dominance of,At the same time also promoted the deep learning in speech recognition、自然语言处理、Reinforcement learning in areas such as the expansion of.
AlexNet将LeNet的思想发扬光大,把CNN的基本原理应用到了很深很宽的网络中.AlexNet主要使用到的新技术点如下:
(1)成功使用ReLU作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网络较深时的梯度弥散问题.虽然ReLU激活函数在很久之前就被提出了,但是直到AlexNet的出现才将其发扬光大. (2)训练时使用Dropout随机忽略一部分神经元,以避免模型过拟合.Dropout虽有单独的论文论述,但是AlexNet将其实用化,通过实践证实了它的效果.在AlexNet中主要是最后几个全连接层使用了Dropout. (3)在CNN中使用重叠的最大池化.此前CNN中普遍使用平均池化,AlexNet全部使用最大池化,避免平均池化的模糊化效果.并且AlexNet中提出让步长比池化核的尺寸小,这样池化层的输出之间会有重叠和覆盖,提升了特征的丰富性. (4)提出了LRN层,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力. (5)使用CUDA加速深度卷积网络的训练,利用GPU强大的并行计算能力,处理神经网络训练时大量的矩阵运算.AlexNet使用了两块GTX 580 GPU进行训练,单个GTX 580只有3GB显存,这限制了可训练的网络的最大规模.因此作者将AlexNet分布在两个GPU上,在每个GPU的显存中储存一半的神经元的参数.因为GPU之间通信方便,可以互相访问显存,而不需要通过主机内存,所以同时使用多块GPU也是非常高效的.同时,AlexNet的设计让GPU之间的通信只在网络的某些层进行,控制了通信的性能损耗. (6)数据增强,随机地从256´256的原始图像中截取224´224大小的区域(以及水平翻转的镜像),相当于增加了(256-224)2´2=2048倍的数据量.如果没有数据增强,仅靠原始的数据量,参数众多的CNN会陷入过拟合中,使用了数据增强后可以大大减轻过拟合,提升泛化能力.进行预测时,则是取图片的四个角加中间共5个位置,并进行左右翻转,一共获得10张图片,对他们进行预测并对10次结果求均值.同时,AlexNet论文中提到了会对图像的RGB数据进行PCA处理,并对主成分做一个标准差为0.1的高斯扰动,增加一些噪声,这个Trick可以让错误率再下降1%.
整个AlexNet有8个需要训练参数的层(不包括池化层和LRN层),前5层为卷积层,后3层为全连接层,如图4所示.AlexNet最后一层是有1000类输出的Softmax层用作分类. LRNThere are now1个及第2个卷积层后,而最大池化层出现在两个LRN层及最后一个卷积层后.ReLU激活函数则应用在这8层每一层的后面.因为AlexNet训练时使用了两块GPU,So the structure of many components have been split to two parts.现在我们GPUThe memory of model parameters can put down all,因此只考虑一块GPU的情况即可.
The entire network is a pyramid,具体来说:
- 输入图片是224*224Pixels of three-channel pictures;
- 第一层使用11*11的卷积核,滑动步长为4个像素,输出为96A figure and the maximum pool;
- 第二层使用5*5卷积核,卷积产生256个特征图,And the biggest pool;
- 第三层,The fourth floor are used3*3卷积核,输出384个特征图;
- Fifth floor use3*3卷积层,输出256个特征图,并进行池化;
- 第六层,第七层为全连接层,分别包含4096个隐层,也就是说,To the full connection layer only4096个特征值;
- 最终,To 8th floorsoftmax层,得到最终的分类结果.
三、VGG 模型
来自牛津大学的 VGG 网络(参见:Very Deep Convolutional Networks for Large-Scale Image Recognition)是第一个在各个卷积层使用更小的 3×3 过滤器(filter),并把它们组合作为一个卷积序列进行处理的网络.
这看来和 LeNet 的原理相反,其中是大的卷积被用来获取一张图像中相似特征.和 AlexNet 的 9×9 或 11×11 过滤器不同,过滤器开始变得更小,离 LeNet 竭力所要避免的臭名昭著的 1×1 卷积异常接近——至少在该网络的第一层是这样.但是 VGG 巨大的进展是通过依次采用多个 3×3 卷积,能够模仿出更大的感受野(receptive field)的效果,例如 5×5 与 7×7.这些思想也被用在了最近更多的网络架构中,如 Inception 与 ResNet.
VGGNet论文中全部使用了3´3的卷积核和2´2的池化核,通过不断加深网络结构来提升性能.图6所示为VGGNet各级别的网络结构图,图7所示为每一级别的参数量,从11层的网络一直到19层的网络都有详尽的性能测试.虽然从A到E每一级网络逐渐变深,但是网络的参数量并没有增长很多,这是因为参数量主要都消耗在最后3个全连接层.前面的卷积部分虽然很深,但是消耗的参数量不大,不过训练比较耗时的部分依然是卷积,因其计算量比较大.这其中的D、E也就是我们常说的VGGNet-16和VGGNet-19.C很有意思,相比B多了几个1´1的卷积层,1´1卷积的意义主要在于线性变换,而输入通道数和输出通道数不变,没有发生降维.
VGGNet拥有5段卷积,每一段内有2~3个卷积层,同时每段尾部会连接一个最大池化层用来缩小图片尺寸.每段内的卷积核数量一样,越靠后的段的卷积核数量越多:64 – 128 – 256 – 512 – 512.其中经常出现多个完全一样的3´3的卷积层堆叠在一起的情况,这其实是非常有用的设计.如图8所示,两个3´3的卷积层串联相当于1个5´5的卷积层,即一个像素会跟周围5´5的像素产生关联,可以说感受野大小为5´5.而3个3´3的卷积层串联的效果则相当于1个7´7的卷积层.除此之外,3个串联的3´3的卷积层,拥有比1个7´7的卷积层更少的参数量,只有后者的.最重要的是,3个3´3的卷积层拥有比1个7´7的卷积层更多的非线性变换(前者可以使用三次ReLU激活函数,而后者只有一次),使得CNN对特征的学习能力更强.
同时,作者在对比各级网络时总结出了以下几个观点. (1)LRN层作用不大. (2)越深的网络效果越好. (3)1´1的卷积也是很有效的,但是没有3´3的卷积好,大一些的卷积核可以学习更大的空间特征.
总的来说,在网络设计思路上,VGGNet是继承了AlexNet的思路,以AlexNet为基础,尝试建立一个层次更多,深度更深的网络.其网络结构一样可以由8个层次所构成,也是5组卷积层,3层全连接层.最主要的区别在于,VGGNet的每个卷积层并不是只做一次卷积操作,而是连续卷积2~4次.具体结构上的差别见下表(包括其它网络结构和VGG16与VGG19):
四、GoogleNet模型
在VGGNets中我们了解到,If the network layer more,深度更深,You'll get better results.But as the model is more and more complex,参数越来越多,Will face a lot of problems.一方面,Is deeper network more data are needed to have better effect,Otherwise it is easier to fit.另一方面,Complex network means a large amount of calculation,It is very bad for the application.In some application of real-time demand is very high,比如自动驾驶,Request parameters less enough,Computing speed fast enough.所以,Reduce the parameter is also an important topic of.因此,In order to more effectively extend the network complexity,GoogleThe great spirit of the startInception项目,GoogleNetIs it the first version of the(目前共有4个版本).
As previously in contrastAlexNet和VGGNetsThe structure of the mentioned,Selection for the size of the convolution kernels is need experience and a large number of experiments to determine the,到底是选3*3呢,还是5*5或者7*7?This problem is not a kind of clear train of thought.Here is out of line to deepen the thinking of network layer,通过增加“宽度”Way of increasing network complexity,Into the trap of convolution nuclear option,Let the application yourself to learn how to select convolution kernels.In particular in the,Is a convolution in each layer,并行使用1*1卷积核,3*3卷积核,5*5卷积核和池化,同时提取不同尺度的特征,然后通过1*1的卷积核对每一个分支进行降维后,最后将结果合并拼接在一起.Visually look,As complex a lot,Originally as long as one or two convolution can be completed to calculate,Now is to use four or five different operation.But careful analysis can find that,This design not only reduced the number of parameters to,And because the network increased“宽度”,Network to a variety of scale adaptability is better(GoogleNet中地block结构如图:)
在这个结构中,1*1卷积扮演了非常重要地角色,1*1卷积并没有对图像本身产生什么影响,在数学上仅仅是最简单地矩阵乘法操作,其最重要的作用在于降低特征图的数量以达到降维的目的.由于有了1*1卷积的存在,才使得网络可以在不增加参数数量级的情况下可以增加复杂度.
这里给出完整的GoogleNet模型结构:
Added two note points here: 1. For different convolution kernels,To take different sliding step,To make them the characteristics of the output figure same size,Easy step after operation; 2. 在CNN中,1*1The primary role of convolution kernels is to change the channel number,比如,原图像 3*64*64的rgb,通过5个1X1Convolution kernel becomes a5*64*64.用5A convolution kernels instead of the originalRGBThe representation of a three-channel method.因此,The convolution kernel can rise again can dimension reduction;
Inception项目的其它几个版本这里做一下简要的概述,不过多讨论: 1.Inception-v2是在第一代的GoogleNet基础上加入了批标准化(Batch Normalization)技术.其具体做法是,对mini-batch中所有的信号量进行统一的归一化,使得一个批次中所有的信号量符合均值为0,方差为1的高斯分布.需要注意的是,在tensorflow中,使用批标准化技术要在激活函数之前,否则作用会打一定的折扣;
2.Inception-v3在之前的版本上又有提高.其最核心的思想是将卷积核操作继续分解成更小的卷积核.首先,比如,借鉴VGGNets的思路,5*5的卷积可以由连续2层3*3卷积所替代,这样既减少了参数数量,也进一步加快了计算速度.这样的好处是,在经过这样的转换后,不但参数数量进一步减少,计算速度更快,而且网络的深度也加深了,增加了非线性表达能力.
五、ResNets模型
对于深度神经网络来说,VGGNetsProved that deepen the network level is the effective measure to improve the accuracy of,But due to problems of the gradient diffusion depth of the network can't continue to deepen.Gradient diffusion problem is because in the process of back propagation error cumulate,In the first few layer gradient value is almost0,Unable to converge.经过测试,20Layer above the deep web,With the increase of the layer number of,Convergence effect worse and worse,50层的网络是20Network layer and the proceeds from the error rate of the double.This phenomenon is called the depth of network degradation problems.
Degradation problems in fact that,Not all of the system can easily be optimized.The network depth increased then stops?ResNetsTell us is a kind of residual network to avoid gradient disappear easier to optimize the structure of the.
Familiar with machine learning algorithms can understand,Neural network is actually a spatial dimension vectorx,经过非线性变换H(x)Mapping to another space dimensions.But by looking at the front of the realizeH(x)Very difficult to optimize,So try to askH(x)The residual formF(x)=H(x)-x.假设求解F(x)=H(x)-x.假设求解F(x)Than the oH(x)To some simple words,就可以通过F(x)+xTo achieve the final1的目标.
From the results of actual experiments,The effect of residual network is very obvious.As in the paper say,类似VGGNetThe structure of the over20After a parameter layer,Convergence effect will be discounted,Accuracy is bad,But simply add some“捷径”(shortcut)After the connection edge,Make the transition to the residual structure,Convergence effect is a sharp increase,Precision also increases with the number of training to improve,And deepening the depth of the network can also continue to improve the accuracy,残差网络与VGGStructure to compare as shown:
ResNets的成功,Make the convolution of the neural network study on a new step,inceptionWill also be residual structure is blended in among them,Implements the better modelinception-v4.
注:这个ResNetsModel I not too can understand,Don't understand why the residual formF(x)=H(x)-x要比H(x)容易求解,留作疑问,If anyone see this blog,欢迎前来讨论!
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/125150.html原文链接:https://javaforall.cn
边栏推荐
猜你喜欢
随机推荐
几种常见的跨域解决方法
1.NVIDIA Deepstream开发指南中文版--欢迎使用 DeepStream 文档
亏损扩大/毛利偏低,北斗智联与「智能座舱第一阵营」的不等号
看我如何用多线程,帮助运营小姐姐解决数据校对系统变慢!
tiup mirror sign
One article to understand DI dependency injection in php
DevOps开发工具对比
PostGresql listen与notify命令
机械臂速成小指南(十七):直线规划
“绿色低碳+数字孪生“双轮驱动,解码油气管道站升级难点
节省50%成本!京东云重磅发布新一代混合CDN产品
我今天终于发现demo才是一切
Locking and Concurrency Control (4)
低光数据集
【2022河南萌新联赛第(四)场:郑州轻工业大学】【部分思路题解+代码解析】
软件技术功能开发思路
“如何写好一篇学术论文?”这大概是最详实的一则攻略了!
CefSharp practical demonstration
时间戳格式化「建议收藏」
CWE4.8: The 25 most damaging software security issues in 2022