顿悟往往出现在最不可能的时刻。对于机器学习博士伊恩·古德费罗(Ian Goodfellow)来说,它发生在 2014 年的一个深夜、蒙特利尔的一个酒吧,其时他正与朋友们讨论人工智能。此次讨论产生的结果是“生成对抗网络”(GAN)的诞生。人工智能专家将其描述为“20 年来深度学习中最酷的想法”。

古德费罗的朋友们当时讨论了如何使用人工智能来制作看起来逼真的照片。他们面临的问题是,当前的 AI 技术和架构、深度学习算法和深层神经网络,善于对图像进行分类,但不擅长创建新图像。

古德费罗研究员提出了一种新技术的设想,在这种技术中,不同的神经网络相互挑战,学习如何在递归过程中创建和改进新内容。就在那天晚上,他对自己的想法进行了编码和测试,结果是有效而令人惊喜的。在母校蒙特利尔大学的同学和校友的帮助下,古德费罗完成了他的研究,并将其编纂成一部著名的、后来被高度引用的白皮书,题为《生成对抗网络》。

从那以后,GAN 在人工智能领域引发了许多新的创新。它还让 33 岁的伊恩·古德费罗进入谷歌研究,在 OpenAI 项目上工作了一段时间,这使他成为了为数不多、最令人垂涎的人工智能天才之一。

深度学习的想象力问题

GAN 解决了缺乏想象力这一困扰深层神经网络(DNN)的问题。作为一种流行的 AI 结构,深层神经网络大致模仿了人类大脑的工作方式。DNN 依赖于大量的标记数据来执行其功能。这意味着,人类必须明确定义每个数据样本 DNN 所能使用的内容。例如,给一个神经网络足够多的猫的图片,它会收集可定义猫的一般特征模式。这样,它就能在以前从未见过的照片中认出猫。面部识别和疾病诊断算法背后是同样的逻辑。这就是自动驾驶汽车如何确定他们是在一条畅通的道路上行驶,还是撞上了汽车、自行车、孩子或其他障碍物。

但是深层神经网络受到严重的限制。其中最突出的是对高质量数据的严重依赖。深度学习应用程序的训练数据通常决定其功能的范围和限度。

在许多情况下,例如图像分类,你需要人工操作员对培训数据进行标记,这是耗时且昂贵的。在其他领域,需要大量的时间来生成必要的数据,比如培训自动驾驶汽车。在医疗保健等领域,培训算法所需的数据将具有法律和伦理意义,因为它是敏感的个人信息。

当你使用它神经网络生成新数据时,它真正极限就显现出来了。深度学习在分类方面是非常有效的,但不是很擅长创造内容,这是因为 DNN 无法将其对所摄取的数据的理解完全转化为生成相似数据的能力。因此,当你用深度学习算法来画一幅画时,结果通常看起来很奇怪(如果仍然很吸引人的话)。

这就是 GAN 开始发挥作用的地方。

GAN 是如何运作的?

伊恩·古德费罗的生成对抗网络技术建议你使用两个神经网络来创建和优化新数据。第一个网络,即生成器,生成新的数据。简单地说,这个过程与神经网络的分类功能相反。生成器没有将原始数据映射到模型中的确定输出,而是从输出中回溯,并试图生成映射到该输出的输入数据。例如,一个 GAN 生成器网络可以从一个噪声像素矩阵开始,并试图以一种图像分类器将其标记为猫的方式对其进行修改。

第二个网络,鉴别器,是一个分类器 DNN。它以 0 到 1 的等级对发生器产生的结果进行评估。如果分数过低,生成器会纠正数据,并将其重新提交给鉴别器。GAN 能超级快速地重复这个循环,直到它创建能够以高分数映射到所需输出的数据。

GAN 的工作过程可以与猫捉老鼠的游戏作比较,在这个游戏中,生成器试图通过欺骗鉴别器,让它误以为提供的输入是真实的。

生成对抗网络创造了很多不存在的名人照片。并不是所有照片都是完美的,但其中一些照片看起来非常真实。

GAN 的应用

生成性对抗网络已经显示出他们在创建和修改图像方面的价值。Nvidia(当然对这种新的人工智能技术非常感兴趣)最近推出了一个新的研究项目,该项目使用 GAN 来修正图像和重建模糊的部分。

对于 GAN 有许多实际的应用。例如,它可以用来创建随机的内部设计,给装饰设计者新鲜的想法。它也可以用于音乐产业,在那里 AI 已经取得了进展,音乐家们可以让其创作各种风格的新作品,然后进行调整和完善。

但 GAN 的应用不仅仅是创造出逼真的照片、视频和艺术品,它还可以帮助加快人工智能领域的研究和进展。它也是无监督学习的一个关键组成部分,这是机器学习的一个分支,其中 AI 创建自己的数据并发现自己的应用规则。

在难以获得高质量数据的领域,GAN 可能是至关重要的。例如,自动驾驶汽车可能会在未来使用 GAN 来进行训练,而不需要在路上行驶数百万公里。在积累了足够的训练数据之后,它们就可以利用这项技术创造出它们自己想象的道路状况和场景,并学会如何应对。同样,设计在工厂导航的机器人可以使用 GAN 来创造想象的工作条件进行导航,而无需在工厂车间进行障碍实验。

在这方面,GAN 可能是向发明一种通用人工智能迈出的重要一步,AI 可以模仿人类的行为,在没有大量数据的情况下做出决策并执行。(另一方面,我的观点是,我们应该专注于增强我们目前的弱 AI 算法,而不是追逐通用 AI。GAN 是完成这项任务的最佳伙伴。)

在医学领域也有应用,它可以帮助产生 AI 算法的训练数据,而不需要从病人那里收集个人可识别的信息(PII)。这对药物研究和发现等领域来说是一个福音,因为它们都高度依赖数据,既敏感又昂贵,而且很难获得。随着新的隐私和数据保护规定对企业如何收集和使用客户和患者的数据进行严格限制,这也可能是继续人工智能创新的关键。

不仅在卫生保健方面很重要,而且在需要个人数据的其他领域也很重要,比如在线购物、流媒体和社交媒体。

GAN 的局限性

尽管生成对抗网络已经被证明是一个绝妙的主意,但并不是没有限制。首先,GAN 表现出的是一种伪想象,而且根据所执行的任务,GAN 仍然需要大量的培训数据才能开始运行。举个例子,如果没有足够的人脸照片,GAN 将无法想出新的面孔。这意味着数据不存在的地方将无法使用 GAN。

GAN 不能创造全新的东西。你只能期望他们以新的方式将他们已经知道的东西融合起来。(译者:究竟什么是全新的东西呢?按照哲学家怀特海的说法,没有什么东西是从无中创造出来的,任何创新性的创造都是对已有的东西的融合。因此,我认为“已知”和“融合”是创造的基础和能力。)

而且,在这个阶段,处理 GAN 仍然很复杂。如果在生成器和鉴别器之间没有平衡,结果会很快变得奇怪。例如,如果鉴别器太弱,它将接受生成器产生的任何东西,即使是一只有两只头或三只眼睛的狗。另一方面,如果鉴别器比生成器强大得多,它将不断地拒绝结果,从而导致无休止的令人失望的数据循环。如果网络没有被正确地调整,它最终会产生彼此相似的结果。工程师必须不断地优化生成器和鉴别器网络,以避免这些影响。

潜在的负面用途

与所有突破性技术一样,生成对抗网络也可以服务于邪恶的目的。目前这项技术还过于复杂和笨拙,无法吸引到恶意的参与者,但这只是时间问题。我们已经看到这种情况发生在深度学习上。最近,广泛和易于使用的深度学习应用程序合成的图片、视频和照片,带来一波被篡改的照片和视频,这引发了人们对犯罪分子如何利用这项技术进行诈骗、诈骗和制造假新闻的担忧。

GAN 没有参与这一事件,但很容易想象它如何通过帮助骗子生成他们需要的图像来增强他们的 AI 算法,从而不需要获得太多受害者的照片。GAN 也可以用来发现其他 AI 算法的弱点。例如,如果一个安全解决方案使用人工智能来检测网络安全威胁和恶意活动,那么 GAN 可以帮助找到能够绕过其防御的模式。

在人工智能与现实世界相一致的领域,GAN 也会造成真正的伤害。例如,就像这项技术可以训练 AI 算法使自动驾驶汽车能够分析周围环境一样,它也能找出并利用它们的弱点,例如,它可以帮助找到将自动驾驶汽车骗到障碍物上或误读街道标志的模式。

事实上,现在是谷歌研究科学家的古德费罗,很清楚他的发明带来的风险。他现在正领导着一个研究团队,任务是找到使机器学习和深度学习更安全的方法。在接受麻省理工学院《技术评论》采访时,古德费罗警告说,人工智能可能会步上以往创新浪潮的后尘,在这种创新浪潮中,安全、隐私和其他风险没有得到认真考虑,导致灾难性的情况。

“很明显,我们已经超越了起点,”他说,“但希望我们能在安全问题上取得重大进展。”

【数字叙事 原作:Ben Dickson;编译:Lighting】