关于深度造假的几点思考

一个来自众议院情报常设特别委员会最近联系我关于a听说他们在谈论深度造假. 我不能参加听证会,但这段对话让我想到了深度造假的问题,我做了一些简短的笔记…。

你看到的可能不是发生的事情

修改图像的想法如下所示像摄影一样古老. 起初,它必须手工完成(有时需要喷枪)。到了20世纪90年代,这项工作通常是通过Photoshop等图像处理软件完成的。但获得令人信服的结果是一门艺术,比如说对于一个插入场景的人来说。例如,如果光照或阴影不一致,很容易判断一个人所拥有的不是真实的。

视频呢?如果一个人做动作捕捉,并付出足够的努力,它完全有可能得到相当令人信服的结果——比如动画外星人,或把死去的演员放进电影。它的工作方式,至少在初步估计中是这样的,例如,煞费苦心地挑出一个面上的关键点,然后把它们映射到另一个面上。

在过去的几年里,新的是这个过程基本上可以自动化使用机器学习.例如,现在就有神经网络只需接受“面部交换”训练的人:

换脸

本质上,这些神经网络所做的是将一个内部模型拟合到一张脸上,然后将其应用到另一张脸上。模型的参数实际上是通过观察大量的真实场景,以及观察重现场景所需的内容而获得的。当前的方法通常使用生成性对抗网络(GAN)在这个过程中,两个网络之间进行迭代:一个试图生成一个结果,另一个试图将结果与真实结果区分开来。

今天的例子远非十全十美,人类也不难判断某些事情是不对的。但是,即使仅仅是由于工程上的调整和更快的计算机,也有了逐步的改进,没有理由认为在适当的时间内不可能常规地产生人类无法区分的结果。

机器学习能自我监督吗?

好吧,也许人类不能马上分辨什么是真的什么不是。但是为什么不让机器来做呢?肯定有些东西是“机器生成”的。当然,机器生成的图像在统计上与真实图像不符。

嗯,不自然。因为,事实上,机器图像生成的整个过程都是通过模型尽可能忠实地再现真实图像的“统计信息”。事实上,在GAN内部有一个明确的“假或假”鉴别器。GAN的全部目的是迭代,直到鉴别器无法分辨出所生成的内容与真实内容之间的差异。

你能找到GAN没有注意到的图像的其他特征吗,比如一张脸是否足够对称,或者背景中的文字是否可读?当然但在这个层面上,这只是一场军备竞赛:识别出一个特征后,将其放入神经网络正在使用的模型中,然后就不能再使用该特征进行区分。

然而,这也有其局限性。因为一个典型的神经网络能够学习的东西是有限的。一般来说,神经网络在诸如图像识别人类不用思考就能做到。但如果一个人试图让神经网络来做数学,比如因子数,那就不同了。

想象一下,在修改视频时,一个人必须填充一个显示一些复杂计算的背景,比如数学计算。那么,一个标准的神经网络基本上是不可能的。

很容易判断出它错了吗?可能是。如果一个人正在处理公钥密码,或数字签名,我们当然可以想象,将事情设置为很难生成正确的东西,但是很容易检查它是否正确

但这种事情会出现在真实的图像或视频中吗?我的自己的科学工作事实证明不可约复杂计算即使在规则非常简单的系统中,也可能在自然界的许多系统中普遍存在。观看水花. 这需要一段时间复杂计算弄清楚将要发生的事情的细节。虽然神经网络可能会得到一些基本上看起来像水花的东西,但它要想正确地获得特定水花的细节要困难得多。

但是,即使在抽象意义上,计算的不可约性可能很常见,但我们人类,在我们的进化过程中,在我们为自己建立的环境中,最终往往会尽最大努力避免它。我们有平滑曲线的形状。我们用简单的几何构造东西。我们试图让事情变得可进化或可理解。正是这种对计算不可约性的避免使得神经网络能够成功地对我们通常所处的视觉场景进行建模。

当然,我们可以打破这种局面。只要在图片中放入一个显示一些复杂计算的显示器(甚至,例如,a细胞自动机).如果有人试图用神经网络来伪装这一点,它(至少它自己)不可能准确地获得细节。

我怀疑,在人类技术的未来,随着我们在计算宇宙中挖掘的越来越深-不可约计算在我们的建筑中会更加常见。但到目前为止,在典型的与人类相关的情况下,这种情况仍然很少见。因此,我们可以预期,神经网络将能够成功地模拟正在发生的事情,至少能够愚弄其他神经网络。

如何知道什么是真实的

所以,如果我们无法分析图像中的比特来判断它是否是一张真实的照片,那是否意味着我们无法判断?不。因为我们还可以考虑与映像相关的元数据——以及映像的起源。图像是什么时候创建的?由谁?等等。

假设我们创建了一个图像。我们怎样才能把事情安排好,这样我们就可以证明什么时候我们做到了?在现代,这其实很容易。我们拍下这张照片计算加密散列从中(有效地通过应用从图像中的位导出数字的数学运算)。然后我们把这个杂烩和放在区块链上

区块链充当永久性分类账。一旦我们把数据放在上面,它就永远不会被改变,而且我们可以随时返回并看看数据是什么,当它被添加到区块链。

此设置使我们能够证明图像创建不晚于某个时间。如果我们想证明该图像不是在之前创建的,那么当我们为该图像创建哈希时,我们可以从我们最喜爱的区块链上的最新区块中加入哈希。

好的,但是知道是谁创造了这个图像呢?它需要一点加密基础设施,与证明网站真实性的工作非常相似。但是,如果你可以信任某个“证书颁发机构”,那么你就可以将数字签名与验证谁创建了它的图像相关联。

但是知道这张照片是在哪里拍的呢?假设一个人对设备或软件有一定程度的访问权限,GPS可能会被欺骗。如果一个人在拍摄图像时记录了足够多的环境信息,那么欺骗就会变得越来越困难。附近的Wi-Fi网络是什么?蓝牙ping?温度?大气压?声级?加速度计读数?如果一个人收集了足够的信息,那么就更容易判断是否有不合适的地方。

有几种方法可以做到这一点。也许可以检测异常使用机器学习。或者你可以使用实际模型游戏世界是如何运行的(游戏邦注:加速度计所暗示的路径与力学方程式不一致,等等)。或者你可以把这些信息和公共计算事实.是天气真的很好就是据说拍照的地方吗?为什么头顶上没有飞机的影子呢?为什么电视上播放的不是真实的呢?等。

但是,好吧,即使只限制自己的创建时间和创建者ID,在实践中如何验证它们呢?

最好的方案似乎类似于现代浏览器如何处理网站安全性。浏览器尝试检查网站的加密签名。如果匹配,浏览器会显示一些信息,表明网站是安全的;如果没有,它会显示某种警告。

比如说,一个图像附带了关于其创建时间和创建者ID的数据元数据(如EXIF数据),也可能是印在图像细节位上的水印。然后图像查看器(比如在浏览器中)可以检查区块链上的散列值是否与图像提供的数据的含义一致。如果是这样,那很好。图像查看器可以提供创建时间和创建者ID。如果没有,图像查看器应该警告用户似乎有问题。

同样的事情也可以通过视频来完成。它只需要视频播放器计算视频上的哈希值,并与区块链上的哈希值进行比较。通过这样做,你可以保证,例如,你可以看到在某个时间制作的整个视频。

这在实践中如何起作用?也许人们通常不想看到在某个活动中拍摄的所有原始视频。但是一个新闻机构,例如,可以让人们点击它,如果他们想要的话。人们可以很容易地想象,数字签名机制可以用来保证一个经过编辑的视频,例如,不包含某些源视频中没有的内容,并且涉及(比如)这些源视频中指定的连续块。

前进的道路

那么,深度造假给我们留下了什么启示呢?机器学习本身并不能拯救我们。不会有一个可以在任何图像或视频上运行的纯“假或假”探测器。是的,有很多方法可以保护自己不被“伪装”,比如戴上活的细胞自动机领带。但我认为,打击深度伪造的真正方法是使用区块链技术,并将获取图像的环境中的图像和传感器数据的加密散列存储在公共账本上。哈希的存在可以保证何时获取图像;通过传感器和其他数据进行“三角测量”可以让人确信,人们所看到的是真实世界中发生的事情。

当然,还有很多技术细节需要解决。但我希望图像和视频观看者能够定期检查区块链(和“数据三角计算”),有点像现在的web浏览器检查安全证书的方式。而今天的“照片或没有发生”会变成“如果它不在区块链上,那就没有发生”。

3评论

  1. 超级功能理念:

    Deepfake[img,script]

    可能的选择:

    语气:{“威胁”、“冷漠”、“兴高采烈”}

    它使用一个人(或动物?)的图像,并让他们说出提供的脚本。用明显且加密的元数据表示它是计算生成的。会出什么问题呢!

    我这么说主要是开玩笑,但也许我们离现实并不太远!如果有人能做到这一点,那就是Wolfram的人!:)

    克里斯蒂安·格林
  2. 一本有趣且内容丰富的书。

    关于标准神经网络如何在某些困难的功能(如因子分解)上完全失败的一点意见:

    最近,神经网络激发了“可逆”逻辑的概念,即设计一个可以反向操作的乘法器,这是由于一种网络是相互的和节能的。

    当然,这与Stephen Wolfram所说的大不相同,但可能会改变神经网络未来面临的一些新利app怎么样“计算障碍”。

    例如,请参见:

    https://journals.aps.org/prx/abstract/10.1103/PhysRevX.7.031014

    尤努斯布雷耶
  3. 非常有趣。也许人们会开始销售反应性领带或珠宝/头饰,根据你所说的改变模式。就像一个活生生的杂烩。

    因此,如果在演讲中插入新文本,它将不同于领带上显示的哈希签名。如果这就是智能服装最终成为主流的原因,那将是极具讽刺意味的。

    菲尔
Baidu