当前位置：网站首页>FCN: Fully Convolutional Networks for Semantic Segmentation

FCN: Fully Convolutional Networks for Semantic Segmentation

2022-07-05 17:51:00 【00000cj】

paper: Fully Convolutional Networks for Semantic Segmentation

这里以MMSegmentation中的实现为例，和原论文相比，backbone由Vgg-16换成了ResNet-50，skip结构换成了膨胀卷积，pytorch官方的实现也是这样的。

原始的ResNet-50中4个stage的strides=(1, 2, 2, 2)，不采用膨胀卷积即dilations=(1, 1, 1, 1)，而在FCN中4个stage的strides=(1, 2, 1, 1)，dilations=(1, 1, 2, 4)。
另外有一个contract_dilation=True的设置，即当空洞>1时，压缩第一个卷积层。这里在第三个和第四个stage的第一个bottleneck中将膨胀率减半，即第三个stage的第一个bottleneck中不采用膨胀卷积，第四个stage的第一个bottleneck中dilation=4/2=2。
另外这里采用的是ResNetV1c，即stem中的7x7卷积替换成了3个3x3卷积。
最后，注意一下padding，在原始实现中除了stem中7x7卷积的padding=3，其它所有padding=1。在FCN中因为用了膨胀卷积，后两个stage的stride=1，为了保持输入输出分辨率一直，由下式可得padding=dilation。

假设batch_size=4，模型输入shape=(4, 3, 480, 480)，则backbone四个stage的输出分别为(4, 256, 120, 120)、(4, 512, 60, 60)、(4, 1024, 60, 60)、(4, 2048, 60, 60)。

取ResNet第四个stage的输出(4, 2048, 60, 60)，经过Conv2d(2048, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)、Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) 两个conv-bn-relu得到 (4, 512, 60, 60)。
上一步的输出(4, 512, 60, 60)与输入(4, 2048, 60, 60)拼接得到(4, 2560, 60, 60)。
经过一个conv-bn-relu，Conv2d(2560, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)，得到(4, 512, 60, 60)。
采用dropout，dropout_ratio=0.1。
最后，经过Conv2d(512, num_classes, kernel_size=(1, 1), stride=(1, 1))得到模型的最终输出(4, num_classes, 60, 60)，注意这里的类别数包括背景。

取ResNet第三个stage的输出(4, 1024, 60, 60)，经过Conv2d(1024, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)一个conv-bn-relu得到(4, 256, 60, 60)。
采用dropout，dropout_ratio=0.1。
经过Conv2d(256, num_classes, kernel_size=(1, 1), stride=(1, 1))得到模型的最终输出(4, num_classes, 60, 60)得到该分支的输出。

版权声明
本文为[00000cj]所创，转载请带上原文链接，感谢
https://blog.csdn.net/ooooocj/article/details/125592065