2014 年 7/8 月号的《美国科学家》杂志发表了 Brian Hayes 的文章《文学与大数据一相逢》。他说,虽然大数据概念近些年才热起来,但早在 19 世纪,人们就见到了文学作品的定量分析的身影。

在计算机尚未问世时,英国统计学家 G. Udny Yule 和 C.B. Williams 就尝试过如何利用句长的差异来表征不同的文学风格,识别不同的作者。1964 年,出现了史上第一个主题为“文学数据处理”的学术会议,参会者有 150 人,讨论题目包括“计算文体学”,还有在计算机辅助下就弥尔顿对雪莱之影响作出估计。更早的时候,Frederick Mosteller 和 David L. Wallace 就曾对《联邦党人文集》中常见词的词频(例如 also、an、by、of)进行统计分析,试图确定哪些文章是汉密尔顿写的,哪些文章是麦迪逊写的。

Brian Hayes 特别想介绍的是 19 世纪美国的两位“数字人文学”先驱人物。一位叫 Thomas Corwin Mendenhall(1841~1924),是科学家,曾任印第安纳州罗斯理工学院的院长、美国国家科学院院士和美国科学促进会会长。1887 年,他在《科学》杂志发表一篇文章《文章的特征曲线》。他认为,正如光谱线的模式可以表明存在着某化学元素一样,通过“词谱”或“特征曲线”也能表征一篇文章。他以狄更斯的《雾都孤儿》和萨克雷的《名利场》为研究对象,看看两人的“词谱”差异大不大,结果发现,差异不足以区分开两个作者。

另一位先驱人物叫 Lucius Adelno Sherman(1847~1933),他的博士论文题目是《古英语诗歌“猫头鹰与夜莺”的语法分析》,从中可以看出他喜欢定量研究。例如,他统计了这首诗歌中用了多少介词、连词和否定式表达。1893 年,Sherman 发表了一部著作《文学分析学:关于如何对英语散文与诗歌进行客观研究的手册》。《科学》杂志发表过一篇书评,称此书是“划时代”的作品。在书里,他想做的不仅仅是通过定量分析来区分作者,如 Mendenhall 所尝试过的,而且涉及更多内容。比如,他在讲授英语文学演变的过程中,注意到了一桩事实:从 14 世纪的诗人乔叟到 17 世纪的莎士比亚,再到 19 世纪的爱默生,文学家们写出的句子越来越简单,摆脱了过去那种“凝重”和繁复。他从每个作家的作品中抽取 500 个句子,统计其平均句长。16 世纪初的 Robert Fabyan 平均句长为 63 个单词,19 世纪的爱默生平均句长只有 20.5 个单词。

他在搜集基础数据方面是下了苦功夫的,比如某个暑假里,他花了三周的时间,从麦考莱的五卷本《英国史》中整理出了 4 万多个句子中的单词。当然,有学生给他帮忙,因为他是教授嘛。

按现在的标准来看,这些数字人文学的先驱所做的工作都很简单,也不是那么成功,但是其开拓之功是不容否认的。有先进信息技术的助力,相信 21 世纪的数字人文学研究一定能别开生面。

作者:武夷山