Road Extraction by Deep Residual U-Net

5/26/2021 U-Net

# 研究背景

道路提取是遥感影像语义分割领域中的一个热点,它具有广泛的应用,例如自动道路导航,无人驾驶,城市规划和地理空间信息更新的等。道路的提取主要分为两种类型,一是道路区域提取,二是道路骨干线提取。在过去,研究人员通常使用传统的方法来提取道路。对于道路骨干线提取,可以使用形态学中细化之类的算法能从道路区域轻松提取中心线。对于道路区域提取,一般分为两步,一是道路形状和纹理特征提取,二是利用分类器来检测道路,例如SVM。

近年来,随着深度学习的发展,基于深度神经网络的方法在各种计算机视觉任务,例如场景分类和目标检测上超越了传统的方法。目前在遥感领域的研究人员也试图将深度神经网络引入到相关遥感任务内。在道路提取领域,最早是基于受限玻尔兹曼机(RBM)来从高分辨率遥感影像中提取道路,接着又有人使用卷积神经网络来提取建筑物和道路。在各方面工作表明,基于深度神经网络的方法,能取得更好的效果。

# 问题描述

全卷积神经网络(FCN)是目前解决语义分割的网络架构首选,最早是由Ronneberger等人提出。随着对全卷积神经网络不断研究, Ronneberger又提出一种基于跳线连接的方式的U-Net,它可以对不同级别的特征图进行级联,以提高分割的准确性。U-Net结合了低级细节信息和高级语义信息,在生物医学图像分割上取得更好的性能。

深度网络的训练存在诸多的问题,例如梯度爆炸、消失,过拟合和网络退化等。好在一些问题,通过训练技巧,例如Batch Normalization、Dropout和残差学习等得以解决。该篇文献受这些技巧的启发,对传统的U-Net网络进行修改,综合残差学习和U-Net两方面的优势,构建了深度Res U-Net。在对比之前道路提取的相关深度神经网络方式中,该方法相比其他方式参数量更小,在性能上也超越U-Net 1%左右,在道路提取的细节上优于其他深度神经网络。

# 解决方案

# U-Net

在语义分割的深度神经网络中,保留高级的语义信息和低级的细节信息是非常重要的。但是一般随着网络层数加深,语义信息会不断增强,而细节信息会减弱,保持两者平衡是一个非常困难的。

在U-Net中采用编码器和解码器结构,并引入跳线连接的操作,将低级的细节特性注入到高级的语义特征。一方面不仅有利于网络的训练,也可以让网络在解码过程中补充低级细节信息,使得提取结果的细节更加丰富。在某种程度上来说,这个和残差神经网络有相似的思想。

image-20210526162346733

# 残差单元

基于深度残差神经网络的启发,残差单元有利于促进网络的训练和避免退化问题。该篇文献将残差单元引入到U-Net中,替换原始的普通单元。如下图中(a)和(b)所示。

image-20210526162423257

每个残差单元可以表示为:

image-20210526162445952

其中xlx_lxl+1x_{l+1}ll层残存单元的输入和输出,F(·)是残差函数,f(yl)f(y_l)是激活函数,h(xl)h(x_l)是恒等映射函数,一个经典方法是h(xl)=xlh(x_l)=x_l

残差单元中有批标准化(BN)、ReLU激活函数和卷积层的多个顺序组合,参考残差深度神经网络的设计,采用预激活残差单元来构建深度残差U-Net。

# 深度残差U-Net

下图为深度残差U-Net的网络结构,该网络包括三个部分:编码,桥接和解码。 第一部分将输入图像编码为紧凑的表示形式。 最后一部分将表示恢复到逐像素分类,即语义分割。 中间部分是连接编码和解码路径的桥梁。 所有这三个部分都由包含两个3×3卷积块和一个恒等映射的残差单元构建。 每个卷积块包括BN层,ReLU激活层和卷积层。

image-20210526162528973

编码器具有三个残差单元,在每个单元中,不是使用池化操作对特征图的大小进行下采样,而是采用步幅为2卷积操作,以将特征图缩小一半。 相应地,解码器也由三个残差单元组成。 在每个单元之前,对进行特征图的上采样,并从相应的编码器通过跳线连接,引入低级细节特征图。最后采用1×1卷积核和sigmoid进行像素分类,得到最终的结果。

总共有15个卷积层,而U-Net则有23个层。表1列出每个层的细节信息。

image-20210526162542421

# 损失函数

深度残差U-Net采用均方误差(MSE)作为损失函数,其表达如下:

L(W)=1Ni=1NNet(Ii;W)si2\mathcal{L}(W) = \frac{1}{N}\sum_{i=1}^{N}||Net(I_i;W)-s_i||^2

其中N是训练样本个数,W是网络参数,SiS_i是真实分割,IiI_i是训练图像。网络的目标是损失函数,即Net(Ii,W)Net(I_i,W)SiS_i之间的差距。网络使用随机梯度下降(SGD)作为优化方法。文中也提出也可以使用其他损失函数来训练网络,例如,在U-Net采用逐像素交叉熵作为损失函数来优化模型。

# 结果增强

由于卷积操作使用零填充,因此靠近输出边界的像素的精度比中心像素的精度低。 为了获得更好的结果,作者使用重叠策略来生成大图像的分割结果。

# 实验分析

# 数据集

马萨诸塞州道路数据集(The Massachusetts roads dataset)由Mihn等建立。该数据集共包含1171张图像,其中包括1108张用于训练的图像,14张用于验证的图像和49张用于测试的图像。该数据集中所有图像的大小为1500×1500像素,每像素分辨率为1.2米。 该数据集大致覆盖了从城市,郊区到农村,以及道路,河流,海洋,各种建筑物,植被,学校,桥梁,港口,车辆等各种各样的地面物体。

受到GPU内存的限制,作者将从原始图像中随机采样固定大小(224×224)的图像,生成30000个样本作为新的数据集。在NVIDIA Titan 1080 GPU上训练模型,batch size为8。最初将学习率设置为0.001,每20个周期减少0.1倍。网络将在50个迭代周期内收敛。

image-20210526162652915

# 评估方法

在二类分任务中,最常用的评估指标是精确率和召回率。精确率(查准率)是指预测结果中,某类别预测正确的概率,即在预测结果中,道路像素预测正确的比例。召回率(查全率)是指真实值中,某类别被预测正确的概率,即在所有真实道路像素中,道路像素预测正确的比例。

image-20210526162714490

在道路提取中,通过会引入松弛系数ρ,定义松弛精确率和松弛召回率。松弛精度定义标记为道路的像素中在ρ像素范围内预测为道路的像素数的分数。松弛召回是预测为道路的像素中ρ\rho像素范围内标记为道路的像素数的分数。实验中ρ=3\rho=3

# 不同方法比较

在马萨诸塞州道路数据集的测试集上与三种基于深度学习的最先进的道路提取方法进行了比较。结果如下图表所示。可以看到在松弛精确率和召回率的指标上,该篇文献的方法比其他的三种方法都有较高的表现。虽然深度残差U-Net仅有U-Net的1\4的参数量,但在道路提取上,表现出比U-Net更好的性能。

image-20210526162757603

image-20210526162800267

# 不同细节比较

下图为深度残差U-Net和其他三种方法的比较结果。下图第一行里其他方法都无法区分跑道和高速公里,该篇文献方法可以减少这种误差。下图第二行里一些被树木覆盖的道路,残差U-Net也能很好提取。下图第三行残差U-Net能够较好识别双线道,但是其他方法都将其混淆。但是也有出现漏检率,下图第四行黄框停车场的大多数道路都没有被标记。综上所述,该篇文献提出的方法抗噪声性较强,提取结果相对精确。

image-20210526162822509

# 总结与展望

# 总结

该篇文献基于残差思想,提出了深度残差U-Net,结合了残差学习和U-Net的优势,并将其应用到道路提取中。深层残差U-Net由于具备更少的参数量,简化了训练,但是在性能上不弱于先前基于深度学习的其他方法,例如U-Net等。

# 展望

深度残差U-Net目前仅在道路数据集上进行实验,未来要在其他遥感目标,例如建筑物、水体、桥梁、车辆和舰船等上进行实验,检测网络是不是具备一定泛化性。其次,该篇文献仅在U-Net基础上引入残差学习,是否能进一步优化网络结构和损失函数等,再次提高分割的性能。

论文:Zhang, Z., Liu, Q., & Wang, Y. (2018). Road extraction by deep residual u-net. IEEE Geoscience and Remote Sensing Letters, 15(5), 749-753.

Last Updated: 11/22/2022, 10:02:55 PM