Facebook 人工智能研究中心联合谷歌的 DeepMind、华盛顿大学和纽约大学,今天推出了 SuperGLUE,这是一系列衡量现代高性能语言理解 AI 性能的基准任务。

制作 SuperGLUE 是因为用于会话 AI 的深度学习模型已经“触顶”,需要更大的突破。它使用谷歌的 BERT 作为模型性能基准。BERT 在 2018 年在许多方面都处于先进水平,但今年来已被诸多基准超越,如微软的 MT-DNN、谷歌的 XLNet 和 Facebook 的 RoBERTa,所有这些都部分基于 BERT,并实现了高于人类基线平均水平的性能。

在 SuperGLUE 之前,纽约大学、华盛顿大学和 DeepMind 的研究人员于 2018 年 4 月为语言理解制定了通用语言理解评估(GLUE)基准。SuperGLUE 比 GLUE 的任务更复杂,并鼓励建立能够掌握更复杂或微妙语言的模型。

GLUE 根据 NLU 系统在九个英语句子理解任务上的表现,为一个模型分配了一个数值分数,比如斯坦福情感树库(ST-2),用于从一组在线电影评论数据中提取情感。RoBERTa 目前在 GLUE 的数字得分排行榜上排名第一,在 9 个 GLUE 任务中有 4 个具有最先进的性能。

“SuperGLUE 包含了在一系列难的 NLP 任务上测试创造性方法的新方法,这些任务集中于机器学习的一些核心领域的创新,包括高效样本、转移、多任务和自我监督学习。为了挑战研究人员,我们选择了一些任务,这些任务具有不同的格式,有更多微妙的问题,尚未使用最先进的方法来解决,而且很容易被人们解决。”Facebook 人工智能研究人员在今天的一篇博客文章中说。

新的基准测试包括八项任务,用于测试系统在阅读一篇短文后遵循理由、识别因果关系或回答“是”或“否”问题的能力。SuperGLUE 还包含 Winogender,一个性别偏见检测工具。SuperGLUE 排行榜将在 super.gluebenchmark.com 网站上公布。关于 SuperGLUE 的详细信息可以在 5 月发表在 arXiv 上的一篇论文中读到,改论文在 7 月进行了修改。

目前的问答系统主要集中在一些琐碎的问题上,比如水母是否有大脑。这项新挑战更进一步,它要求机器对一些开放性的问题做出深入的回答,比如“水母如何在没有大脑的情况下运作?”

为了帮助研究人员创建强大的语言理解 AI,纽约大学今天还发布了 Jiant 的更新版本,这是一个通用文本理解工具包。Jiant 构建于 PyTorch 之上,配置为使用 BERT 和 OpenAI 的 GPT 的 HuggingFace PyTorch 实现,以及 GLUE 和 SuperGLUE 基准测试。Jiant 由纽约大学语言实验室的机器学习维护。(编译自 venturebeat, 原作者:KHARI JOHNSON)

【数字叙事 黎雾】