新闻：GauGAN再升级！只需一句话即可得到逼真画作

脑机接口与混合智能研究小组

更多动态

7267

2021-11-23

2021-11-25

一、背景

GauGAN是英伟达研发的一款交互型应用，首次亮相于2019年举办的GTC大会上。最初的GauGAN可以实现勾勒简单的线条，然后输出一副细腻的画作。2021年11月，英伟达推出GauGAN2。GauGAN2继承了GauGAN的原有功能，并且结合了分割映射、修复和文本到图像生成等技术。GauGAN2是一个通过输入文字和简单的绘画即可创建高质量图像的应用。

目前，GauGAN2仍在完善阶段，英伟达为感兴趣的用户提供了一个demo地址：

https://www.nvidia.com/en-us/research/ai-demos/

二、效果

GauGAN2现有三种主要的生成模式：

1.在简笔画的基础上生成。

图1 模式1的生成过程

只需勾勒出山脉的线条，AI就会生成完整的山脉，并且补充天空、云彩和江河等元素。

2.在文本的基础上生成。

图2 模式2的生成过程

这个生成模式是GauGAN2的重大创新，在文本框添加的每一个单词信息，都会在AI创建的图像中得到呈现。例如在下图中，从sunshine，到a tall tree 最后再到sunshine in a tall tree forest，生成的图像一直在随着文本的丰富而发生变化。

图3 模式2中实时生成的图像

3.在原有图像的基础上编辑部分内容生成。

图4 模式3的生成过程

AI会根据保留下来的部分中的元素智能填充到被涂抹的部分。

三、实现细节

GauGAN2建立在生成对抗网络(GAN)的基础上，由生成器和鉴别器组成。生成器的目标是生成逼真的图像。例如获取与文本匹配的图像，并预测可能与图片中元素对应的数据（例如图2中的山脉、雨天），使得鉴别器不能将合成图像与真实图像区分开。GAN的转换质量会随着鉴别器的反馈而不断提高。

此外，GauGAN2背后的AI模型借助了NVIDIA Selene超级计算机（全球最强的10台超级计算机之一），在1000万张高质量风景图像上训练而成。GauGAN2在单个模型中结合了分割映射、修复和文本到图像的生成，还借助神经网络学习词汇与其对应的视觉效果之间的连接。

图5 GauGAN的模型架构

编码器(Encoder)利用真实图像计算产生随机向量z；生成器(Generator)接收随机向量z，产生图像x，在产生过程中不断使用语义图增强语义信息；鉴别器(Discriminator)经过处理输出判断结果，如果与语义图与真实图像相连接则判断为真，如果与生成器生成的图像相连接则为假。

在生成器中构建了一个模块SPADE ResBlk，SPADE可以更好地保护语义信息不受常见归一化层的影响。使用SPADE不需要将分割图提供给生成器的第一层，因为学习的调制参数已经编码了关于标签布局的足够信息。

图6 SPADE生成器中每一个归一化层使用分段掩码来调制图层激活

四、展望

目前来看，如果GauGAN2的技术最终成熟，并达到英伟达宣称的水准。那么一定会降低画作艺术创作的门槛。理论上来说可以在电影、软件、视频游戏、产品、时尚设计等领域得到应用，英伟达官方称GauGAN第一代产品已经被用于电影和游戏中创建概念艺术，但是GauGAN2的模型虽然又超过1亿个参数，但是训练时间还不到一个月，训练图像仅来自于专有的风景图像数据集。GauGAN2仍在不断完善，可以期待未来GauGAN2提供开源并在更多领域投入使用。

参考链接

参考文献

[1] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 2337-2346.

撰稿人：李维杰

审稿人：罗胜舟

登录用户可以查看和发表评论，请前往登录或注册。