cocohack

  • 2

    获得赞
  • 1

    发布的文章
  • 0

    答辩的项目

AI同步人物口型模型开源

视觉计算

最后更新 2022-05-06 20:05 阅读 7893

最后更新 2022-05-06 20:05

阅读 7893

视觉计算

    近几年,好莱坞动画屡屡拿下超过 10 亿美元的票房,《疯狂动物城》、《冰雪奇缘》等等,它们个个品质过硬,单拿口型这一点来说,就非常严谨,动画人物口型与真人口型几乎一致。 而实现这样的效果,其实需要经历非常复杂的过程,需要耗费巨大的人力物力。所以,很多动画制作方为了节省成本,只采用比较简单的口型示意。 现在,AI 正在努力减轻原画师的工作。来自印度海德拉巴大学和英国巴斯大学的团队,今年发表在 ACM MM2020 的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》,提出一个叫做 Wav2Lip 的 AI 模型,只需一段人物视频和一段目标语音,就能让其合二为一,配合得天衣无缝。

 Wav2Lip大法,效果如此突出 

    要说对口型的技术,此前其实已经有很多,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。 但这个 Wav2Lip 在一众方法中,显示出了绝对优势。现有的其它方法,主要是基于静态图像,来输出与目标语音匹配的唇形同步视频,但对于动态的、在讲话的人物,唇形同步往往效果不佳。 而 Wav2Lip 则可以直接将动态的视频,进行唇形转换,输出与目标语音相匹配的视频结果。 此外,不仅是视频,还能给动图对口型,从此以后表情包又丰富了!

人工评估表明,与现有方法相比,Wav2Lip 生成的视频,在 90% 以上的时间中优于现有方法。 模型实际效果究竟如何?超神经进行了一番测试。以下视频展现了官方 demo 的运行效果,输入素材分别选取了官方提供的测试素材,以及超神经选取的中、英文测试素材。 输入的原视频中人物均未讲话 经过 AI 模型操作,实现了人物口型与输入语音同步 我们看到,官方 demo 的动画视频中,效果堪称完美。在超神经真人测试中,除了嘴唇稍有变形和抖动之外,整体唇形同步效果还是比较准确的。

三分钟教程

    看到这里,你是不是也跃跃欲试了呢?如果你已经有了一个大胆的想法,那么不如从现在就开始动手吧。 目前,该项目已在 GitHub 开源,作者提供了交互演示、Colab notebook 以及完整的训练代码,推断代码和预训练模型以及教程。 

项目具体信息如下: 

项目名称:Wav2Lip 

GitHub 地址: https://github.com/Rudrabha/Wav2Lip 

项目运行环境: 

语言:Python 3.6+ 

视频处理程序:ffmpeg

人脸检测预训练模型下载: https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth 


除了准备以上环境,还需要下载安装以下软件包: 

librosa==0.7.0 

numpy==1.17.1 

opencv-contrib-python>=4.2.0.34 

opencv-python==4.1.0.25 

tensorflow==1.12.0 

torch==1.1.0 

torchvision==0.3.0 

tqdm==4.45.0 

numba==0.48


本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可,转载请附上原文出处链接和本声明。
本文链接地址:https://flyai.com/article/877
讨论
500字
表情
发送
删除确认
是否删除该条评论?
取消 删除