算法在文学分析上表现得越来越好

0

在《死亡诗社》(1989)中,由罗宾·威廉姆斯扮演的 1950 年代美国寄宿学校的教师约翰·基廷绘制了一张图表,其形状由一篇名为《理解诗》的虚构文章所决定。横轴是诗的技术质量,纵轴表示它的重要性,两者的结合决定了它的伟大与否。在允许他的学生们为拜伦和威廉·莎士比亚画一个图表之后,基廷先生宣布这篇文章是“粪便”,并命令他们将其从他们的诗歌选集中剔除出去。“这是一场战斗,一场战争,伤亡可能是你的心灵和灵魂,”他说。有“大批的学者在不断地测量诗歌”,很少关注激情、美丽或浪漫。

有一种模型可以识别出作者的性别,发现女性所写的书的比例在 19 世纪初为大约一半,而在 20 世纪 60 年代下降到了不到四分之一,之后又回升到今天的大约 40%。另一个模型通过名字和代词来识别角色的性别,准确率达到 90%以上,并呈现出类似的趋势:虚构女性的叙事比例在 150 多年前下降了,之后才略有回升。第三个模型试图根据描述、动作和对话中使用的语言来确定一个角色的性别。这类推测在 1800 年的时候是 75%,而在 2000 年只有 65%,这表明虚构的女性和男性的行为方式都不是图式化的。

基廷先生可能会把这种研究称为“废话”。他告诉我们,阅读的目的是感受,“品味文字和语言”:医学、法律、商业和工程都是高尚的追求,让我们生存下来,但文学激发了让生命值得存在的情感。然而,在 2014 年《大西洋月刊》的一篇 3500 字的文章中,波莫纳学院的英语教授凯文·德特马尔批评了这部电影的反智主义。他认为,纯粹出于情感价值而捍卫文学的做法,助长了这样一种信念:“人文学科很容易,是一种软性选择;人文学科不培养思想家。”

两者都有部分是正确的。伟大的文学作品能以一种其他学科无法提供的方式打动读者。它还可以在批判性地阅读时激发推理、移情和辩论。神经学家一直在努力证明,阅读小说确实能提高这些功能,他们已经证明,审问一个文本激活了大脑的相关部分。对于那些认为批判性地学习文学是有价值的人来说,从大数据和机器学习中获得经验是很有价值的。

以作者的性别为例。对于文学学者来说,这应该是最基本的问题之一:小说或多或少是由男性主导的吗?在数字人文学科出现之前,将计算机科学应用于艺术领域,人们的反应只能是主观的或基于小样本的。“性别的转变”提供了一个客观的答案,这将使许多人感到惊讶,并且应该引起更多的研究。例如,上世纪 60 年代后女性作家的反弹可能有很多原因。李女士指出,这是随着平装小说的兴起而出现的,同时也伴随着浪漫印记的扩散。

读者们也会被图表所吸引,这些图表显示了男性和女性所描述的语言是如何变化的。“心”、“心灵”和“灵魂”曾经是非常女性化的,但现在已经变得中立了,而“房子”则由男性拥有者转变为家庭女性。然而,班曼先生认为,这种研究最有前途的产品是一个基本的模型:机器识别文学角色的能力。英国小说家 EM.福斯特将故事中的人物描述为“单词大众”,仅由描述、行动和对话组成。现在,一种算法可以摄取文本,通过上下文识别每个单词的主题,并对它们进行分割。事实上,本文中使用的一种被称为“单词词汇模型”的技术。

安德·伍德指出,这些算法远非完美。虽然他们可以用来检查个别的书籍(见图表),但他们也会犯错误,尤其是当第一人称叙述者在讲述故事的时候。然而,在更广泛的样本中,它们可以更有信心地部署。班曼在 2013 年发表的一篇论文中,能够从 42000 个维基百科的电影摘要中识别出人物原型,这些总结把蝙蝠侠与杰森·伯恩和小丑与德库拉都聚集在一起。2014 年的一项后续研究证实了各种文学理论,其中包括查尔斯·狄更斯和简·奥斯汀的小说中人物之间的相似之处。

后一项研究也能够将作者的声音——即每个作家独特的风格——与那些有自身特点的人物区分开来。班曼解释说,识别个体可能也有助于算法理解情节,因为人事的突然变化通常预示着场景的变化。将这些形式化的写作要素分离出来,并在大量的工作进行比较,也被其他学者所利用。最新版的《新牛津莎士比亚》声称,莎士比亚的 44 个剧本中有 17 个都是合作创作的,这是基于对他的同时代人如何使用诸如“和”或“与”这样的“功能词”的分析。

自 20 世纪 50 年代以来,这种作者归因已被使用。当时两位统计学家(没有历史背景)证明了由亚历山大·汉密尔顿和詹姆斯·麦迪逊所声称的来自联邦党人的 12 篇文章的文集,更像是麦迪逊的风格。看着这些功能词(比如“当”和“同时”,或者“中间”)比在文章中考察这些想法更有权威性。但是计算机和数字语料库使今天的速度更快:本·布拉特在他 2017 年的书《纳博科夫最喜欢的词是淡紫色》中,采用了这些技术进行了许多聪明的实验。

当最近我们试图为我们的科学技术部分自动化写作一篇文章时,我们发现人工智能能够连贯地写出新的论点。当涉及到隐喻和暗示时,人类总是相信他们占了上风。但是,如果忽视机器学习能够给那些寻求文学问题实证答案的人提供帮助,那将是愚蠢的。这些技术可以丰富读者对他们喜爱的书籍的理解,而不会压制他们的热情。借用基廷先生的另一句台词,他鼓励学生们站在他们的桌子上:“我们必须以一种不同的方式来看待事情。”

作者:J.T.
译者:s 特