什么是算法偏差?它的根源在哪里?为什么说算法偏差是一个严重的问题?如何纠正算法偏差?科技博主、软件工程师 Ben Dickson 对此进行了探讨。他指出,造成算法偏差的原因是反映人类偏见的数据,而偏见正在通过 AI 制造合法的荒谬。他认为,算法偏差是一个人的问题,而不是技术问题,真正的解决办法是消除我们个人和社会生活方方面面的偏见。以下是他的文章的译文。

在 2016 年年初,微软推出了一款人工智能聊天机器人 Tay,这个机器人本应模仿一位好奇的女孩的行为,并与 Twitter 用户进行智能讨论。该项目将展示 AI 对话界面的承诺和潜力。

然而,在不到 24 小时的时间里,无辜的 Tay 变成了一个种族主义者,厌恶女人的人,一个否认大屠杀的 AI,再次揭穿了算法中立的神话。多年来,我们一直认为人工智能不会受到人类创造者的偏见和倾向的影响,因为它是由纯粹和坚硬的数学逻辑驱动的。

然而,正如 Tay 和其他一些故事所显示的那样,AI 可能会表现出与人类相同的偏见,在某些情况下,它甚至可能更糟。这种现象被称为“算法偏差”,它根植于人工智能算法的工作方式,随着软件在我们做出的每一个决定中变得越来越突出,这一现象正变得越来越有问题。

算法偏差的根源

机器学习和深度学习,是人工智能最受欢迎的分支,也是我们的软件变得有偏见的原因。深度学习算法依赖于数据,大量的数据。给出一个图像分类算法和数百万张有标签的猫图片,它将能够告诉你一张它之前没有见过的照片是否包含一只猫。为语音识别算法提供语音样本及其相应的书面文字,就能比大多数人更快地转录口语。

算法所看到的标记数据越多,它在执行任务时就越好。然而,这种方法的权衡是,深度学习算法会根据所缺少的数据或在他们所接受的数据中过于丰富的数据来开发盲点。

例如,在 2015 年,谷歌的照片应用错误地将两名黑人的照片标记为大猩猩,因为它的算法还没有经过足够多的黑皮肤人的图像训练。在另一个案例中,一场选美比赛的 AI 裁判大多选择白人作为获胜者,因为他们的训练是在白人的形象上进行的。

这些都是微不足道的案例,可以通过在没有足够数据的地方为 AI 提供更多的样本,从而轻松地解决这些问题。而在其他情况下,AI 正在处理海量的在线信息,寻找和对抗偏见变得更加困难。

一个例子是由微软和波士顿大学的研究人员共同开发的一个项目,他们在 word 嵌入算法中发现了性别偏见,这些算法被用于搜索引擎、翻译和其他依赖于自然语言处理的软件。在他们关于“嵌入算法”行为的发现中,有一种倾向,即把“编程”和“工程”等词汇与男性和“家庭主妇”联系在一起。在这种情况下,这种偏见已经根植于成千上万的文章中,这些文章自动从谷歌新闻和维基百科等在线资源中搜寻和分析。例如,科技行业主要由男性主导。这意味着你更有可能看到男性的名字和代词出现在工程和技术工作的旁边。作为人类,我们承认这是一个我们需要解决的社会问题。但是,一种盲目的分析数据的算法会得出这样的结论:科技行业的工作应该属于男性,并不会将其视为缺乏多样性。

在 Tay 的案例中,与聊天机器人互动的 Twitter 用户更感兴趣的是教它充满仇恨的言论,而不是进行有意义的对话。再一次,人工智能并不是罪魁祸首。罪魁祸首是 Twitter 作为社交媒体所孕育的一般文化。

为什么说算法偏差是一个严重的问题?

算法偏差并不新鲜。多年来,学者和专家一直在警告重视这一问题。而目前这个问题显得特别突出和重要,因为在我们的日常决策中,算法正在发挥越来越大的的作用。

以我们在前一节中提到过的嵌入算法问题。这可能是一种为下一代招聘软件提供动力的技术。不难想象,在搜索和选择编程工作的候选人时,这些软件会歧视女性。例如,最近的报告显示,Google 和 LinkedIn 平台向男性展示的高薪招聘广告比向女性展示的要频繁得多。

在执法等其他领域,算法偏差可能会产生更大的破坏性影响。在 2016 年,ProPublica 的一项调查发现,美国的执法部门使用的一种 AI 将黑人列为累犯的高风险人群,而不是白人。在美国的一些州,法官依靠这些工具来决定谁将被关进监狱,哪些人可以获得自由,有时他们自己也不做进一步的调查。

类似的情况也可能发生在其他领域,比如贷款批准,在那里,被低估的人将被进一步边缘化,甚至被被剥夺享受服务的权利。在医疗保健领域,AI 在诊断和治疗疾病方面取得了巨大进展,算法可能会伤害那些数据还没有被纳入训练集的人群。

事实上,如果不加以解决,算法偏差就会导致人类偏见被放大。在软件没有偏见的假象下,人类倾向于相信人工智能算法的判断,而忽略了这些判断已经反映了他们自己的偏见。因此,我们会接受 AI 驱动的决策,而不怀疑它们,并为这些算法创建更多的有偏见的数据,从而使之进一步“增强”自己。

如何纠正算法偏差?

避免算法偏差的第一步是承认人工智能的局限性。深度学习算法不是种族主义者,但我们可能是,他们会捡起我们故意或心不在焉的偏见。

知道了这一点,我们需要采取措施,确保我们为算法提供的数据是多样化的,特别是在开发应用程序时,要考虑这些应用会对直接或间接使用它们的人的生命和健康产生严重影响。有一些做法是使用统计方法来发现算法中的隐藏偏差。

另一个必要的步骤是,开发 AI 应用程序的公司对其产品做到更加透明。目前,大多数公司倾向于将其算法的内部运作作为商业机密隐藏起来。这使得仔细检查这些算法并发现潜在的痛点变得很困难。

我们还需要解决 AI 的黑箱问题。当深度学习算法变得过于复杂时,找出他们决策背后的原因变得非常困难。不知道算法是如何得出结论的,就很难找到并消除有偏见的功能。在这一领域,包括美国国防部高级研究计划局(DARPA)在内的几个组织正在努力使深度学习算法能够接受审查或自我解释。

在一天结束的时候,算法偏差是一个人的问题,而不是技术问题,真正的解决办法是开始消除我们个人和社会生活方方面面的偏见。这意味着在就业、教育、政治等方面支持多样性。如果我们想要纠正我们的算法偏差,我们应该先修正我们自己。

【数字叙事 原作:Ben Dickson;编译:Lighting】

1条评论