本次汇报的内容是由清华大学发表的文章:《Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose》[1]。由标题可看出,这篇文章主要是生成具备头部姿势的语音驱动人脸视频。
随着现实生活中对于数字人引用的愈来愈广泛,实现用音频驱动的生成与输入音频同步的说话人脸视频的需求也越来越大。由早期的解耦音视频表征的说话人脸生成工作发展到如今的两种:语音驱动的情绪化人像视频生成和姿态可控的任意说话人脸生成。
图1 由音频控制生成的图像
对于语音驱动的人像视频生成这一方法,当前存在的最大问题在于:语音很难去完全耦合人脸嘴唇面部运动,并且忽略了头部自然运动。因此这篇文章提出能够同时处理语音音频和人脸视频模型,生成与视频嘴唇同步,并且具备头部姿态的人脸视频。
图2 该研究整个流程
该研究具体框架如上图。考虑到如果只是暴力借用语音来控制人脸是难以进行训练的,因为语音没办法提供人脸的姿态信息,只能借助LRW数据集来获取。通过将音频信号源和很短的视频集作为输入,实现对人脸嘴唇部位和头部姿态的控制,达到生成具备更富有真实感的语音人脸视频。在此基础上通过输入的内容获取表情和人脸姿态,运用CNN将几何、纹理和照明的参数与人脸进行拟合,在此基础上运用结合了语音的3DMM系数进行3D渲染,运用关键帧方法进行关键帧背景匹配。
图3 GAN模型框架
为了获取真实的帧,因此该研究提出了一种GAN方法,具体模型框架如上图。通过处理任意目标的渲染,减少需要用的帧数量。从而构建具备头部姿态的三维人脸。
该研究由输入的短视频得到如下图所示的结果,分别为100帧、200帧、300帧、500帧和800帧的模型生成的结果。该研究找了一些用户观看,让用户挑选最满意的结果来找出最佳结果,其中63.6%的用户选择了800帧的结果,而100帧却没有用户选择,并且用户满意度与帧数成正比例增长。
图4 实验结果
参考文献:
[1] Yi R , Ye Z , Zhang J , et al. Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose[J]. 2020.
撰稿:王瑜琦
指导:罗胜舟