微软AI模型UniLM 在摘要和语言生成上实现超越

微软研究院的科学家们研究了一种统一语言模型（UniLM）的预训练方法，可以完成单向、序列到序列和双向预测任务，并且可以对自然语言理解和生成进行微调。他们声称，该方法在流行的基准上比谷歌的 BERT 优越，在抽象摘要、生成式问题回答和语言生成数据集的样本上得到了最先进的结果。他们新近发表的论文《自然语言理解与生成的统一语言模型预训练》报告了这一成果。

语言模型预训练是一种通过让机器学习系统根据上下文来预测单词，从而“教”机器学习系统将文本表示上下文化的技术，这种技术已经在一系列自然语言处理目标上取得了进展。然而，像谷歌的 BERT 这样的模型在设计上是双向的（利用文字的左边和右边的上下文来形成预测），并不适合通过大量修改来生成自然语言的任务。

UniLM 作为对 BERT 的优化和替代而构建。根据论文的描述，这是一个多层网络，其核心由 Transformer AI 模型组成，这些模型联合对大量文本进行预处理，并对语言建模进行优化。Transformers 包含相互连接的神经元(函数)，它们从输入数据传输信号并调整每个连接的强度（权重）。人工智能系统都是这样提取特征并学习做出预测的，但 Transformers 十分注意每个输出元素都连接到每个输入元素，它们之间的权重是动态计算的。

根据研究人员的说法，预训练 UniLM 与 BERT 类似，它可以进行微调（如果需要，还可以附加特定于任务的层），以适应各种下游任务。但是与 BERT 不同，UniLM 可以使用不同的自我注意掩码进行配置，从而为不同类型的语言模型聚合上下文。此外，由于其预训练性质的统一性，Transformer 网络可以共享参数（从历史训练中获得的数据），这使得学习的文本表示更加通用，从而减轻了对任何单个任务的过度拟合（当系统对训练数据建模很好时）。

微软的研究团队使用来自英语维基百科和开放源代码 BookCorpus 的文章进行了预训练，这些文章的词汇量合计为 28,996。研究人员报告称 UniLM 在语言任务中的表现令人印象深刻。具体地说，他们说它取得了与 GLUE 基准测试（评估一般语言理解）上的 BERT 相当的结果，并且获得了两个问答数据集，并且自然语言生成方面均优于以前的五个最新模型数据集，包括 CNN / DailyMail（测试摘要）、Gigaword（抽象摘要）、SQuAD（问题生成）、CoQA（生成性问题回答）和 DSTC7（对话响应生成）。

代码和预训练的模型可以在 GitHub 上找到。研究团队表示，接下来将通过在“网络规模”的文本语料库上训练更大的模型，来挑战这一方法的极限。他们还希望研究扩展 UniLM 以支持跨语言任务。（编译自 venturebeat.com）

【数字叙事黎雾】

有问题和想法？与数字诗人讨论、交流，以获得更多的信息、意见。

上一篇文章

研究人员利用考古数据制作17世纪荷兰沉船VR体验

下一篇文章

《Alive in AR》将史上标志性时刻逼真地展现在你面前

2 评论

文本自动摘要算法 – 杨克群 2021年4月3日于 11:44

[…] 微软AI模型UniLM 在摘要和语言生成上实现超越 […]

登录以发表评论
谷歌大脑AI系统在低资源文本摘要上有惊人表现 | 数字叙事 2019年12月24日于 14:38

[…] 机器学习在自动文本摘要上不断取得突破。不久前，微软宣称其 AI 模型UniLM在摘要和语言生成上可以自行进行微调，以实现准确和流畅。近日，谷歌大脑和伦敦帝国理工学院的一个团队声称在新闻、科学、故事、指令、电子邮件、专利和立法法案等摘要任务中取得了最先进的成果，所构建的系统在低资源摘要方面有惊人的表现，其连贯性达到了很高的语言质量，无需微调来缓解不流畅。 […]

登录以发表评论

《Umurangi Generation VR》：...

领域

媒介

专题

文类

发现

微软AI模型UniLM 在摘要和语言生成上实现超越

2 评论

发表评论取消回复

订阅

《神奇宝贝GO》将在IPhone上独家添加新的AR...

VR游戏《黑暗之剑：永恒之战》带来紧张刺激的黑暗幻...

《战士》AR壁画让李小龙在纽约和洛杉矶重现武术风采...

《Gactic Catch》：在奇异的外星球上钓鱼...

《福尔摩斯：悬浮议会案》：基于故事的VR互动戏剧游...

相关文章
Related

《The Light Brigade》“暗影猎人”...

VR游戏《永恒地下城》更新引入双手剑和噩梦模式

VR MMO RPG《Zenith: Nexus》...

VR游戏《Sugar Mess》带你进入童话般的糖...

关于我们

文类

最新

《Umurangi Generation VR》：...

《The Light Brigade》“暗影猎人”...

VR游戏《永恒地下城》更新引入双手剑和噩梦模式

订阅

领域

媒介

专题

文类

发现

微软AI模型UniLM 在摘要和语言生成上实现超越

2 评论

发表评论 取消回复

订阅

相关文章Related

关于我们

文类

最新

订阅

发表评论取消回复

相关文章
Related