Structure-aware Person Image Generation with Pose Decomposition and Semantic Correlation

发布：2022-12-22 10:05:30

阅读：1891

作者：唐吉霖、袁燚、邵天甲、刘勇、王蒙蒙、周昆

论文介绍

基于姿态引导的人体图片生成是一种将源输入图片中的人体图像变换为目标动作姿态的技术。目前，该技术已经被广泛地应用于影视制作、动画生成、虚拟试穿等诸多领域，具有广泛的应用前景和巨大的市场价值。

鉴于标准CNN无法高效地处理大的空间形变，我们提出了一种基于外观流的方法来建模源特征跟目标特征之间的密集对应关系。在此框架下，我们结合人体的先验结构信息来指导网络学习，从而有效地改善效果。

首先，我们观察到人体是由具有不同运动复杂度（针对姿态变化而言）的不同部分组成的。因此，本文没有使用单一的网络来直接预测整个人体的整体外观流，而是将人体分解为不同的语义部分（头部，躯干和腿部），并采用不同的独立网络来分别估计这些部分的局部外观流。这样不仅降低了直接学习复杂的整体人体姿势变化的难度，而且可以利用特定的网络更精确、更有针对性地处理每个人体部分的姿势变化情况。

其次，对属于人体相同部分的局部区域内的临近像素而言，它们的外观特征通常具备语义上的相关性和一致性。因此，我们在网络中额外引入了一个混合扩张卷积模块以有效地捕获不同人体部分内部所存在的局部语义相关性。

最后，考虑到人体的内在对称性，彼此相距较远的不同人体部分的外观特征也存在语义相关性（例如，左、右衣袖的外观特征应保持一致）。

因此，我们进一步设计了一个轻量且有效的基于金字塔池化的非局部（non-local）模块以捕获不同尺度下不同人体部分的全局语义相关性。实验结果表明，我们的方法可以在较大的姿态差异下生成高质量的结果。

论文地址

https://arxiv.org/abs/2102.02972

学术论文

SIGGRAPH 2024 | 物理模拟领域再攀高峰！网易伏羲最新技术成果成功入选

近日，国际计算机图形与交互技术顶会（The ACM Special Interest Group on Computer Graphics，简称SIGGRAPH）公布论文接收结果：网易伏羲最新研究成果《Preconditioned Nonlinear Conjugate Gradient Method for Real-time Interior-point Hyperelasticity》成功入选。8月，团队成员将赴美国科罗拉多州丹佛市，在SIGGRAPH 2024大会上亲述报告，与全世界计算机图形爱好者展开交流。

2024-07-25 17:30:20

SIGGRAPH 2024 | 物理模拟领域再攀高峰！网易伏羲最新技术成果成功入选

网易伏羲技术成果再获KDD认可，四篇入选论文展现AI研究领域深厚底蕴

近日，国际知识发现与数据挖掘大会 (ACM SIGKDD Conference on Knowledge Discovery and Data Mining，简称 KDD)公布了论文接收结果：网易伏羲共有四篇论文中稿Research Track和Applied Data Science Track。这四篇论文的研究方向涉及可解释性、在线营销、组合优化、主动学习等多个领域的关键问题，为数据科学领域带来了新的亮点。

2024-06-19 16:39:04

Learn2Sing 2.0: Diffusion and Mutual Information-Based Target Speaker SVS by Learning from Singing Teacher

论文所提出的方法能够在没有歌声数据的情况下，通过10个解码步骤为目标说话人合成高质量的歌声。

2023-01-18 10:18:55

Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis

论文介绍了 Opencpop，这是一种公开可用的高质量普通话歌唱语料库，专为歌声合成(SVS)而设计。语料库包含100首流行的普通话歌曲，由一位女专业歌手演唱。音频文件以44,100赫兹的采样率以录音室质量录制，并提供相应的歌词和乐谱。

2023-01-18 10:12:59

One-shot Voice Conversion for Style Transfer based on Speaker Adaptation

在本论文中，我们建立在识别合成框架的基础上，提出了一种基于说话人自适应的风格转换的一次性语音转换方法。

2023-01-18 10:09:25

Visinger: Variational Inference with Adversarial Learning for End-to-End Singing Voice Synthesis

论文提出了VISinger，这是一个完整的端到端高质量歌声合成(SVS)系统，可直接从歌词和乐谱生成音频波形。我们的方法受到VITS的启发，它采用基于VAE的后验编码器，增强了基于标准化流的先验编码器和对抗解码器，以实现完整的端到端语音生成。

2023-01-17 14:19:11

Generating Coherent Narratives by Learning Dynamic and Discrete Entity States with a Contrastive Framework

论文扩展了transformer模型来动态地进行实体状态更新和句子实现，以促进叙事性文本的生成。我们提出了一个对比框架来学习离散空间中的状态表征，并在解码器中插入额外的注意力层到解码器中，以更好地利用这些状态。

2023-01-17 14:11:52

LayerConnect: Hypernetwork-Assisted Inter-Layer Connector to Enhance Parameter Efficiency

论文提出了LayerConnect(超网络辅助层间连接器)来提高推理效率。具体来说，在两个Transformer层之间插入一个具有线性结构的轻量级连接器，每个连接器内部的参数由一个由插值器和下采样器组成的超级网络进行调整。

2023-01-17 14:05:15

Unraveling the Mystery of Artifacts in Model Generated Texts

随着神经文本生成模型(TGM)生成与人类书写无法区分文本的能力的发展，文本生成技术的滥用可能会产生严重后果。论文建议系统地研究人工生成的形式和范围，方法是破坏文本，用语言或统计特征代替它们，并应用综合梯度的可解释方法。

2023-01-16 10:23:20

QiuNiu: A Chinese Lyrics Generation System with Passage-Level Input

论文演示了QiuNiu中文歌词生成系统，它以段落级文本而不是一些属性或关键字为条件。通过使用段落级文本作为输入，生成的歌词内容有望反映用户需求的细微差别。QiuNiu系统支持短篇小说、散文、诗歌等多种形式的篇章级输入。

2023-01-16 10:17:35