一、背景
GauGAN是英伟达研发的一款交互型应用,首次亮相于2019年举办的GTC大会上。最初的GauGAN可以实现勾勒简单的线条,然后输出一副细腻的画作。2021年11月,英伟达推出GauGAN2。GauGAN2继承了GauGAN的原有功能,并且结合了分割映射、修复和文本到图像生成等技术。GauGAN2是一个通过输入文字和简单的绘画即可创建高质量图像的应用。
目前,GauGAN2仍在完善阶段,英伟达为感兴趣的用户提供了一个demo地址:
https://www.nvidia.com/en-us/research/ai-demos/
二、效果
GauGAN2现有三种主要的生成模式:
1.在简笔画的基础上生成。
只需勾勒出山脉的线条,AI就会生成完整的山脉,并且补充天空、云彩和江河等元素。
2.在文本的基础上生成。
这个生成模式是GauGAN2的重大创新,在文本框添加的每一个单词信息,都会在AI创建的图像中得到呈现。例如在下图中,从sunshine,到a tall tree 最后再到sunshine in a tall tree forest,生成的图像一直在随着文本的丰富而发生变化。
3.在原有图像的基础上编辑部分内容生成。
AI会根据保留下来的部分中的元素智能填充到被涂抹的部分。
三、实现细节
GauGAN2建立在生成对抗网络(GAN)的基础上,由生成器和鉴别器组成。生成器的目标是生成逼真的图像。例如获取与文本匹配的图像,并预测可能与图片中元素对应的数据(例如图2中的山脉、雨天),使得鉴别器不能将合成图像与真实图像区分开。GAN的转换质量会随着鉴别器的反馈而不断提高。
此外,GauGAN2背后的AI模型借助了NVIDIA Selene超级计算机(全球最强的10台超级计算机之一),在1000万张高质量风景图像上训练而成。GauGAN2在单个模型中结合了分割映射、修复和文本到图像的生成,还借助神经网络学习词汇与其对应的视觉效果之间的连接。
编码器(Encoder)利用真实图像计算产生随机向量z;生成器(Generator)接收随机向量z,产生图像x,在产生过程中不断使用语义图增强语义信息;鉴别器(Discriminator)经过处理输出判断结果,如果与语义图与真实图像相连接则判断为真,如果与生成器生成的图像相连接则为假。
在生成器中构建了一个模块SPADE ResBlk,SPADE可以更好地保护语义信息不受常见归一化层的影响。使用SPADE不需要将分割图提供给生成器的第一层,因为学习的调制参数已经编码了关于标签布局的足够信息。
四、展望
目前来看,如果GauGAN2的技术最终成熟,并达到英伟达宣称的水准。那么一定会降低画作艺术创作的门槛。理论上来说可以在电影、软件、视频游戏、产品、时尚设计等领域得到应用,英伟达官方称GauGAN第一代产品已经被用于电影和游戏中创建概念艺术,但是GauGAN2的模型虽然又超过1亿个参数,但是训练时间还不到一个月,训练图像仅来自于专有的风景图像数据集。GauGAN2仍在不断完善,可以期待未来GauGAN2提供开源并在更多领域投入使用。
参考链接
参考文献
[1] Park T, Liu M Y, Wang T C, et al. Semantic image synthesis with spatially-adaptive normalization[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 2337-2346.
撰稿人:李维杰
审稿人:罗胜舟