论文介绍
基于姿态引导的人体图片生成是一种将源输入图片中的人体图像变换为目标动作姿态的技术。目前,该技术已经被广泛地应用于影视制作、动画生成、虚拟试穿等诸多领域,具有广泛的应用前景和巨大的市场价值。
鉴于标准CNN无法高效地处理大的空间形变,我们提出了一种基于外观流的方法来建模源特征跟目标特征之间的密集对应关系。在此框架下,我们结合人体的先验结构信息来指导网络学习,从而有效地改善效果。
首先,我们观察到人体是由具有不同运动复杂度(针对姿态变化而言)的不同部分组成的。因此,本文没有使用单一的网络来直接预测整个人体的整体外观流,而是将人体分解为不同的语义部分(头部,躯干和腿部),并采用不同的独立网络来分别估计这些部分的局部外观流。这样不仅降低了直接学习复杂的整体人体姿势变化的难度,而且可以利用特定的网络更精确、更有针对性地处理每个人体部分的姿势变化情况。
其次,对属于人体相同部分的局部区域内的临近像素而言,它们的外观特征通常具备语义上的相关性和一致性。因此,我们在网络中额外引入了一个混合扩张卷积模块以有效地捕获不同人体部分内部所存在的局部语义相关性。
最后,考虑到人体的内在对称性,彼此相距较远的不同人体部分的外观特征也存在语义相关性(例如,左、右衣袖的外观特征应保持一致)。
因此,我们进一步设计了一个轻量且有效的基于金字塔池化的非局部(non-local)模块以捕获不同尺度下不同人体部分的全局语义相关性。实验结果表明,我们的方法可以在较大的姿态差异下生成高质量的结果。
论文地址
https://arxiv.org/abs/2102.02972