研究人员推出SuperGLUE，一种新的语言理解基准

Facebook 人工智能研究中心联合谷歌的 DeepMind、华盛顿大学和纽约大学，今天推出了 SuperGLUE，这是一系列衡量现代高性能语言理解 AI 性能的基准任务。

制作 SuperGLUE 是因为用于会话 AI 的深度学习模型已经“触顶”，需要更大的突破。它使用谷歌的 BERT 作为模型性能基准。BERT 在 2018 年在许多方面都处于先进水平，但今年来已被诸多基准超越，如微软的 MT-DNN、谷歌的 XLNet 和 Facebook 的 RoBERTa，所有这些都部分基于 BERT，并实现了高于人类基线平均水平的性能。

在 SuperGLUE 之前，纽约大学、华盛顿大学和 DeepMind 的研究人员于 2018 年 4 月为语言理解制定了通用语言理解评估(GLUE)基准。SuperGLUE 比 GLUE 的任务更复杂，并鼓励建立能够掌握更复杂或微妙语言的模型。

GLUE 根据 NLU 系统在九个英语句子理解任务上的表现，为一个模型分配了一个数值分数，比如斯坦福情感树库(ST-2)，用于从一组在线电影评论数据中提取情感。RoBERTa 目前在 GLUE 的数字得分排行榜上排名第一，在 9 个 GLUE 任务中有 4 个具有最先进的性能。

“SuperGLUE 包含了在一系列难的 NLP 任务上测试创造性方法的新方法，这些任务集中于机器学习的一些核心领域的创新，包括高效样本、转移、多任务和自我监督学习。为了挑战研究人员，我们选择了一些任务，这些任务具有不同的格式，有更多微妙的问题，尚未使用最先进的方法来解决，而且很容易被人们解决。”Facebook 人工智能研究人员在今天的一篇博客文章中说。

新的基准测试包括八项任务，用于测试系统在阅读一篇短文后遵循理由、识别因果关系或回答“是”或“否”问题的能力。SuperGLUE 还包含 Winogender，一个性别偏见检测工具。SuperGLUE 排行榜将在 super.gluebenchmark.com 网站上公布。关于 SuperGLUE 的详细信息可以在 5 月发表在 arXiv 上的一篇论文中读到，改论文在 7 月进行了修改。

目前的问答系统主要集中在一些琐碎的问题上，比如水母是否有大脑。这项新挑战更进一步，它要求机器对一些开放性的问题做出深入的回答，比如“水母如何在没有大脑的情况下运作？”

为了帮助研究人员创建强大的语言理解 AI，纽约大学今天还发布了 Jiant 的更新版本，这是一个通用文本理解工具包。Jiant 构建于 PyTorch 之上，配置为使用 BERT 和 OpenAI 的 GPT 的 HuggingFace PyTorch 实现，以及 GLUE 和 SuperGLUE 基准测试。Jiant 由纽约大学语言实验室的机器学习维护。（编译自 venturebeat, 原作者：KHARI JOHNSON）

【数字叙事黎雾】

有问题和想法？与数字诗人讨论、交流，以获得更多的信息、意见。

上一篇文章

《无人深空》全面支持VR，增加新的互动功能

下一篇文章

ReplayAR能让我们更好地重温“彼时彼地”

伊莱·罗斯的VR恐怖系列剧《无面女士》重述爱尔兰民...

领域

媒介

专题

文类

发现

研究人员推出SuperGLUE，一种新的语言理解基准

发表评论取消回复

订阅

《神奇宝贝GO》将在IPhone上独家添加新的AR...

VR游戏《黑暗之剑：永恒之战》带来紧张刺激的黑暗幻...

《福尔摩斯：悬浮议会案》：基于故事的VR互动戏剧游...

《战士》AR壁画让李小龙在纽约和洛杉矶重现武术风采...

《Gactic Catch》：在奇异的外星球上钓鱼...

相关文章
Related

《The Light Brigade》“暗影猎人”...

VR游戏《永恒地下城》更新引入双手剑和噩梦模式

VR MMO RPG《Zenith: Nexus》...

VR游戏《Sugar Mess》带你进入童话般的糖...

关于我们

文类

最新

《The Light Brigade》“暗影猎人”...

VR游戏《永恒地下城》更新引入双手剑和噩梦模式

VR MMO RPG《Zenith: Nexus》...

订阅

领域

媒介

专题

文类

发现

研究人员推出SuperGLUE，一种新的语言理解基准

发表评论 取消回复

订阅

相关文章Related

关于我们

文类

最新

订阅

发表评论取消回复

相关文章
Related