当前位置：网站首页>Faster RCNN原理及复现代码

Faster RCNN原理及复现代码

2022-08-04 05:34:00 【热血厨师长】

原理

在这里插入图片描述

Faster RCNN主要可以分为四个内容：

Conv layers。作为一种CNN网络目标检测方法，Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。
Region Proposal Networks。RPN网络用于生成区域建议框。该层通过softmax判断anchors属于前景或者背景，再利用预测框回归修正anchors获得精确的建议框。
Roi Pooling。该层收集输入的feature maps和建议框，综合这些信息后提取proposal feature maps，送入后续全连接层判定目标类别。
Classification。利用proposal feature maps计算proposal的类别，同时再次bounding box regression获得检测框最终的精确位置。

Conv layers

图中黑色方框的内容就是Conv layers，实际上就是传统图像分类中的经典网络，比如VGG、ResNet。在目标检测中是作为特征提取的骨干网络，它不直接参与框的预测，而是输出特征层。所以，它的最后一层不是输出类别数，而是输出一个宽高可变的特征层。

Region Proposal Networks

上图绿框内展示了RPN网络的具体结构。可以看到RPN网络实际分为2条线，上面一条通过softmax分类anchors获得前景和背景分类（通道数为18是2x9，一共有9个先验框，2是采用多分类交叉熵，若采用二元交叉熵就是1），下面一条用于计算对于anchors的bounding box regression偏移量，以获得精确的proposal（这里同理是4x9，4则是代表候选框在rpn上的坐标）。这里的proposal也就是建议框，在建议框内的物体在图中是属于前景的。所以在RPN网络这一部分，模型只会分出前景和背景。

而最后的proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals，同时剔除太小和超出边界的proposals。其实整个网络到了Proposal Layer这里，就完成了相当于目标定位的功能。

Roi Pooling

将输入的特征层看作是图像，用rpn生成的候选框截取的图像，然后resize成 pool_size * pool_size的大小。这样处理后，即使大小不同的proposal输出结果都是固定大小，实现了固定长度输出。

Classification

从ROI Pooling层获取到固定大小的proposal feature maps后，送入后续网络，可以看到做了如下2件事：

通过全连接和softmax对proposals进行分类，这实际上已经是识别的范畴了
再次对proposals进行bounding box regression，获取更高精度的rect box

但在实际的代码中，还需要对ROI Pooling层的输出进行常规的卷积、AveragePooling、Flatten的操作后才能进行最后的物体具体分类和预测框回归操作。所以从整体上看来，Faster RCNN的网络是分成两步走的，第一步是backbone->rpn输出物体大致位置的建议框，第二步是对建议框里面的内容进行详细的分类和位置预测。这也就是Two-Stage目标检测网络的架构了。