微软研究院的科学家们研究了一种统一语言模型(UniLM)的预训练方法,可以完成单向、序列到序列和双向预测任务,并且可以对自然语言理解和生成进行微调。他们声称,该方法在流行的基准上比谷歌的 BERT 优越,在抽象摘要、生成式问题回答和语言生成数据集的样本上得到了最先进的结果。他们新近发表的论文《自然语言理解与生成的统一语言模型预训练》报告了这一成果。

语言模型预训练是一种通过让机器学习系统根据上下文来预测单词,从而“教”机器学习系统将文本表示上下文化的技术,这种技术已经在一系列自然语言处理目标上取得了进展。然而,像谷歌的 BERT 这样的模型在设计上是双向的(利用文字的左边和右边的上下文来形成预测),并不适合通过大量修改来生成自然语言的任务。

UniLM 作为对 BERT 的优化和替代而构建。根据论文的描述,这是一个多层网络,其核心由 Transformer AI 模型组成,这些模型联合对大量文本进行预处理,并对语言建模进行优化。Transformers 包含相互连接的神经元(函数),它们从输入数据传输信号并调整每个连接的强度(权重)。人工智能系统都是这样提取特征并学习做出预测的,但 Transformers 十分注意每个输出元素都连接到每个输入元素,它们之间的权重是动态计算的。

根据研究人员的说法,预训练 UniLM 与 BERT 类似,它可以进行微调(如果需要,还可以附加特定于任务的层),以适应各种下游任务。但是与 BERT 不同,UniLM 可以使用不同的自我注意掩码进行配置,从而为不同类型的语言模型聚合上下文。此外,由于其预训练性质的统一性,Transformer 网络可以共享参数(从历史训练中获得的数据),这使得学习的文本表示更加通用,从而减轻了对任何单个任务的过度拟合(当系统对训练数据建模很好时)。

微软的研究团队使用来自英语维基百科和开放源代码 BookCorpus 的文章进行了预训练,这些文章的词汇量合计为 28,996。研究人员报告称 UniLM 在语言任务中的表现令人印象深刻。具体地说,他们说它取得了与 GLUE 基准测试(评估一般语言理解)上的 BERT 相当的结果,并且获得了两个问答数据集,并且自然语言生成方面均优于以前的五个最新模型数据集,包括 CNN / DailyMail(测试摘要)、Gigaword(抽象摘要)、SQuAD(问题生成)、CoQA(生成性问题回答)和 DSTC7(对话响应生成)。

代码和预训练的模型可以在 GitHub 上找到。研究团队表示,接下来将通过在“网络规模”的文本语料库上训练更大的模型,来挑战这一方法的极限。他们还希望研究扩展 UniLM 以支持跨语言任务。(编译自 venturebeat.com)

【数字叙事 黎雾】