语义的连贯性是目前人工智能写作系统最不如人意的地方,即使 OpenAI 的 GPT-2 也是如此。这一缺陷常常导致它不能写出令人信服的结局——AI 生成的故事结局往往是通用的,缺乏或者说背离语境。卡内基梅隆大学计算机科学学院的研究团队找到了一种方法,能为一个给定的故事创作多样化的符合语境的结局。

研究人员说,关键是训练模型把注意力集中在故事的重要短语上,促进非通用词的生成。“故事背景是一系列连接人物和事件的句子。这个任务很有挑战性,因为它需要在语境中建模角色、事件和对象,然后根据它们生成一个连贯和合理的结尾。概括事件和实体的语义以及它们在不同故事中的关系是一项非常重要的任务。我们的研究表明,两者的结合会带来更多样、更有趣的结局。”

研究团队利用 seq2seq——一种能够学习依赖关系的长短期记忆递归神经网络架构——创建属于目标故事背景的单词的数学表示,并学习这些单词之间的关系,将他们转化为人类可读的文本。为了整合故事上下文中的关键短语,研究人员使用了一种名为 RAKE 的算法,该算法根据单词的出现频率和共现度为短语分配分数,然后根据相应的分数对短语进行手动排序,并将低于一定阈值的短语丢弃。

为了生成多样化的结尾,科学家们在 ROCStories 语料库上训练了他们的模型,语料库包含超过 50,000 个五句话的故事。他们还训练谷歌的 BERT 来完成开源故事填空任务,通过选择给定两个选项的故事的正确结尾,将他们的模型与基线进行比较。

那么他们的 AI 模型表现如何呢?测试结果,故事完形填空的正确率达到了 72%,但偶尔也会产生一些荒谬的结尾,比如“凯蒂被自己搞得崩溃了,甩了男友”。

研究人员表示,需要进一步的研究来确保输出语义连贯的故事语境,并且它们在逻辑上是合理和一致的。但他们声称他们已经“定量地”和“定性地”表明他们的模型能够在基线上实现“有意义的”改进。(编译自 venturebeat;题图:Genzoman)

【数字叙事 Lighting 编译】