论文介绍
通过以图像序列作为唯一的监督来源,自我监督学习在单眼深度估计中显示出巨大潜力。尽管人们尝试将高分辨率图像用于深度估计,但是预测的准确性并未得到明显提高。在这项工作中,我们发现主要原因来自于对大梯度区域的不正确的深度估计,从而使双线性插值误差随着分辨率的提高而逐渐消失。为了在大的梯度区域中获得更准确的深度估计,必须获得具有空间和语义信息的高分辨率特征。
因此,我们提出了一种改进的DepthNet HR-Depth,它具有两种有效的策略:
(1)重新设计DepthNet中的跳跃连接以减少编码器和解码器之间的语义鸿沟;
(2)提出特征融合Squeeze-and-Excitation(fSE)模块以更有效地融合特征。使用Resnet-18作为编码器,HR-Depth在高分辨率和低分辨率场景中都超越了所有现有技术,同时具有更少的参数。
此外,以前的最新方法是基于相当复杂的深度网络,具有大量参数从而限制了它们的实际应用。因此,我们还构建了一个使用MobileNetV3作为编码器的轻量级网络。实验表明,轻量级网络可以以仅20%的参数与许多大型模型(如Monodepth2)以高分辨率相媲美。
论文地址
https://arxiv.org/abs/2012.07356