目标检测论文解读2——Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

背景

  用ConvNet方法解决图像分类、检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息。论文作者发明了SPP pooling(空间金字塔池化)层,让网络可以接受任意size的输入。并且用在目标检测任务上,可以只计算一次整图的feature map,再找到region proposal的feature map在原图上的映射,最后进行SPP pooling。

方法

  (1)首先思考一个问题,为什么ConvNet需要一个固定size的图片作为输入,我们知道,Conv层只需要channel固定(彩色图片3,灰度图1),但可以接受任意w*h的输入,当然输出的w*h也会跟着变化;然而,后面的FC层却需要固定长度的vector作为输入,图片size变化->conv层输出的size变化->FC层输入的vector长度变化,这就产生了错误。

  怎么解决这个问题呢?作者给出的方法是在最后一层Conv层后面加上一个SPP pooling层,SPP pooling层可以将接收到的不同size的输入转换成为固定的输出,保证FC层的输入长度固定。

  

  如图,SPP  pooling层的原理很简单,例子如下:给定一个w*h的特征图,把其分别分成4*4、2*2、1*1的bin,在每个bin上面作pooling操作(文中使用的是max pooling),最后能得到16*256-d(256-d是最后一个conv层的输出通道数),4*256-d、1*256-d的feature vector,最后连接在一起,得到的就是21*256-d的feature vector。

  可以看到,不管一开始的w和h取值多少,最后都能得到固定长度的feature vector作为FC层的输入,这样,ConvNet就能接受不同size的图片作为输入了。

  (2)此外,SPP NET还在RCNN上面作出了共享计算的改进。

  RCNN的流程是:先求出一张图片的几千张子图,再送到网络中训练。这样会对很多子图重合的部分进行了冗余计算。

  SPP NET的流程如下:先直接让一张图片通过CNN层,得到feature map,再找到几千张子图在原图的映射,直接得到对应的feature map,再利用SPP pooling层将其转换为固定长度的vector,再用FC层分类,最后进行边框回归修正位置。

总结

  论文作者通过在FC层前面加上一个SPP pooling层,有效解决了ConvNet必须接受固定size的图片。并且只计算一次整张图的feature map,避免了大量的冗余计算。

缺点

  SPP NET的缺点在于它的训练过程中,前面的CNN层的参数是不会变化的,用的还是R-CNN的参数。

全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务