论文介绍
基于组件的三维场景合成一直是场景合成领域一个相对空缺的研究方向。现有的几份工作主要是基于室内场景数据集的研究。我们分析其方案之后发现,这类工作更多的倾向于依赖组件之间的功能性约束,例如,电视机一定会放置在电视柜上等等。另外,室内场景组织的时候单一场景的组件比较少,大约在10个左右。这类场景下的研究工作与我们的实际庄园合成场景差异很大。例如,在庄园中,组件之间没有很强的功能性约束;另外,在庄园中通常会有几百个组件,这也是之前的工作不能解决的。
在这份工作中,我们提出以及基于全局关系约束的思路,由于我们对即将要加入的组件没有任何信息,因此,我们考虑学习当前场景当中组件之间的约束情况。我们将当前场景转化为一个带有丰富空间信息的有向图,图中节点表示庄园中的组件,边表示组件之前的空间关系。通过学习数据集中边的分布情况,我们可以采样出当前场景中所有节点到新节点的边的分布,进而通过边的分布来推断出新节点的位置。如此便可以辅助整个场景中组件的逐一摆放。
为了实现这个目的,我们基于图注意力机制下的循环网络来模拟当前子图到目标节点的边的分布情况,为了在模型中加入对2D空间的理解,我们将3D场景渲染为2D,提取对应节点视觉特征,融合到循环网络中,由于图节点信息和2D场景信息来自不同的域,我们还加入一个全局的视觉内容-图节点匹配损失。实验结果表明,我们的方案能解决之前的工作在我们的场景下不适用的问题,并且能给出理想的位置推荐结果。
论文地址
https://arxiv.org/abs/2102.04035