人们常说,亚洲有四大邪术:泰国变性术、韩国整容术、日本化妆术和中国PS术。对于阅读本文的人来说,无疑是对“中国PS术”的感触最深。到了如今,随着各种“照骗”的出现,人们对于图片的信任度逐渐降低,视频已经被视为更可靠的证据来源。而现在,随着人工智能进军视频领域,情况又有了改变。
爱美是最重要的生产力之一,PS越来越不足以满足女生的需求,许多人开始渴望着不只是静态美,更要动态美,视频滤镜、美颜功能有了更多的市场。最近,两大短视频应用程序微视和抖音先后上线了“AI长腿”功能,能一键把视频里的金华小火腿变成大长腿。
据微视介绍,“实时长腿”技术由腾讯AILab提供技术支持,AI能实时追踪身体关键点,精准定位人体的各个部分,如手臂、腿、头、躯干等。除了位置外,还能精确地知晓这些部位的长度、大小、连接状态等信息。腾讯也介绍到,当检测到用户全身,并且是正常直立状态时,算法会检测用户的整体身高,腿部区域会根据黄金分割比例进行拉伸,因而腿短的女生会得到完美的身材比例,本来腿就比较长的女生也不会拉的过分夸张。当检测到用户在跳舞或做一些复杂运动时,会根据用户的姿势,动态调整大腿及小腿的拉伸效果。由实测视频来看,效果非同凡响。
可以预见的是,在未来,人们可能需要处理更多真假难辨的视频。
AI给视频造假附加了什么
在寻常人看来,短视频造假的方式无非就是一些“断章取义”的剪辑罢了。比如,前几年较为流行的“奥巴马踹门”动态图片,就是利用了简单的视频剪辑技术做成的。
然而,AI可没那么简单,在短视频“造假”上,它不止要以假乱真,更要无中生有。
通常来说,AI在短视频上造假的方式有以下三种:
初级阶段:移花接木
在短视频“造假术”里,最重要的不是图像的拼接,而是音频的连续性。AI正在试图合成人们在实际中从未说过的话,研究人员就曾利用奥巴马的演讲视频训练AI的学习系统,让系统的神经网络,学会如何将各种语音特征与对应的口型联系在一起,生成CGI唇动,在3D姿态匹配的帮助下,将CGI唇动与奥巴马的视频整合在一起。也就是说,他们能够利用相关音轨伪造一段令人难辨真伪的视频。
中级阶段:改头换面
在这个阶段里,AI就不是合成了,而是对视频里的内容进行编辑。通过人脸检测和五官识别,对人脸的关键点实时追踪,让人们在动态视频中可以对自己脸进行改造。这一技术属于动作捕捉技术中的一个分支,叫面部捕捉。这些脸上的黄点,就是人脸表情变化中的关键点,通过面部追踪,计算机只需要这些信息就能合成表情。
高级阶段:无中生有
合成声音尚能理解,合成动作你敢相信吗?
近日,在MIT(麻省理工学院)的论文SynthesizingImagesofHumansinUnseenPoses中,研究人员提出了一种模块化的生成神经网络,用从人类运动视频中提取的成对图像和姿势训练之后,它能够为一个人合成出没做过的新姿势。而且,这个模型在没有经过刻意训练的情况下,能够生成一段连续的视频。也就是说,单凭一张照片,AI就能随意摆布照片中的人,使人物作出一系列动作,视频的合成非常自然。
担心被滥用?“军备竞赛”已展开
伪造视频听起来还算有趣。不幸的是,它也有邪恶的一面,比如说,由各色名人主演的“深度伪造”的色情片。另外,虚假新闻以及尖端技术可以轻易地被用于欺骗也引起了人们的广泛担忧。
来自德国慕尼黑技术大学的研究人员想要解决这一问题——他们开发了一种名为“XceptionNet”的算法,它能快速发现发布在网上的伪造视频。
“理想情况下,我们的目标是将人工智能算法集成到浏览器或社交媒体插件中,本质上,该算法将在后台运行,如果它识别出被操纵的图像或视频,它将给用户发布警告信息。”该校视觉计算小组的教授MatthiasNiessner透露。
研究小组首先训练了一个由1000多个视频和50万张图片组成的深度学习神经网络。通过向计算机显示修改过的和未修改过的图像,即使在人类很难识别的情况下,机器学习工具也能够找出两者之间的区别。
Niessner说:“对于压缩过的视频,我们的用户研究参与者无法区分假数据和真实数据”。但人工智能能够很容易地区分这两者。”在50%的情况下人类可以正确区分的,但这其实是随机猜测,而卷积神经网络可以在87%到98%的情况下正确区分压缩视频。
总结
道高一尺,魔高一丈,关于技术的“军备竞赛”时刻都在进行中。AI伪造视频是个不错的点子,但怎么用到正道上还需要实践。