眨眼间检测“deepfake”视频

2019-05-22 13:17:02 沃嫒 26
发布于2018年9月8日上午11:07
更新时间:2018年9月8日上午11:09

随着2018年中期选举活动的升温,一种新形式的错误信息准备通过在线社区传播。 在的之后被称为“深度伪造” - 可能选择了它的名称,因为该过程使用了一种称为“深度学习”的技术方法 - 这些虚假视频看起来非常逼真。

到目前为止,人们已经在和使用了深度视频,以使看起来有名的人正在做他们通常不会做的事情。 但几乎可以肯定的是一些 ,其意图是描述候选人真实候选人不会或去处。

以下是一个例子。 这是巴拉克奥巴马 - 或者是它?

由于这些技术是如此新颖,人们无法分辨真实视频和深度视频之间的区别。 我的同事Ming-Ching Chang和我们的博士。 学生Yuezun Li,找到了一种 。 这不是一个永久的解决方案,因为技术将得到改善。 但这是一个开始,并希望计算机能够帮助人们从虚构中讲述真相。

无论如何,什么是'深刻的'?

制作一个深度视频非常像在语言之间进行翻译。 等服务使用机器学习 - 以多种语言进行 - 来用于创建翻译的 。

Deepfake算法以相同的方式工作:他们使用一种称为的机器学习系统来检查一个人的面部运动。 然后他们合成另一个人的脸的图像,做出类似的动作。 这样做可以有效地创建一个目标人物的视频,该视频可以表达或说出来源所做的事情。

以下是如何制作深度视频:

在它们能够正常工作之前,深度神经网络需要大量的源信息,例如人物照片是模仿的来源或目标。 用于训练深度伪造算法的图像越多,数字模拟就越真实。

检测到闪烁

这种新算法仍然存在缺陷。 其中一个与模拟面部的闪烁方式有关 - 或者不这样做。 健康的成年人 眨眼,一次眨眼需要 。 这是在一个人谈话的视频中看到的正常现象。 但这不是许多深度视频中发生的事情。 以下是演示:

一个真实的人在说话时眨眼:

模拟的脸不会像真人那样闪烁。

当深度伪造算法训练在人的面部图像上时,它取决于可在互联网上可用作训练数据的照片。 即使对于经常拍照的人来说,网上几乎没有可用的图像显示他们闭着眼睛。 不仅罕见的照片 - 因为大多数时候人们的眼睛都是开放的 - 但摄影师通常不会发布主要拍摄对象关闭的图像。

如果没有训练人们闪烁的图像,深度伪造算法就不太可能创建正常闪烁的面部。 当我们计算整体闪烁率并将其与自然范围进行比较时,我们发现,与真人相比,深度视频中的角色闪烁频率低得多。 我们的研究使用机器学习来 。

这为我们提供了检测deepfake视频的灵感。 随后,我们开发了一种方法来检测视频中的人何时闪烁。 更具体地说,它扫描有问题视频的每一帧,检测其中的面部,然后自动定位眼睛。 然后利用另一个深度神经网络,利用眼睛的外观,几何特征和运动,确定检测到的眼睛是打开还是关闭。

我们知道我们的工作正在利用可用于训练deepfake算法的数据中的缺陷。 为了避免成为类似缺陷的牺牲品,我们在一个开放和闭合眼睛的大型图像库中训练我们的系统。 这种方法似乎运行良好,因此,我们已经实现了超过95%的检测率。

当然,这不是检测深度探测的最后一个词。 该技术正在 ,生成和检测假视频之间的竞争类似于国际象棋游戏。 特别地,通过包括闭眼的面部图像或使用视频序列进行训练,可以将闪烁添加到深度视频中。 想要混淆公众的人会更好地制作虚假视频 - 我们和技术社区的其他人将需要继续寻找检测它们的方法。 - 对话| Rappler.com

Siwei Lyu是计算机科学副教授; 纽约州立大学奥尔巴尼分校计算机视觉与机器学习实验室主任