瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 利用机器学习算法,将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine),不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献。

今天我们要介绍的科研项目——威尼斯时间机器,将让历史学家拥有从现今(穿越到 18 世纪威尼斯的能力。

作者: Alison Abbott

编译:文强

计算机科学家、瑞士联邦理工学院(EPFL)数字人文科学实验室主任 Frédéric Kaplan 想要将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。Kaplan 将他着手从事的项目称之为“威尼斯时间机器”(Venice Time Machine),预计扫描地图、专著、手稿和乐谱等大量文件。Kaplan 希望“威尼斯时间机器”不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献。

如果这个项目成功,将为整个欧洲历史文化和商业研究做出巨大的贡献,或能以前所未有的细节揭示整个欧洲大陆当时的社会网络、贸易和知识发展的历史。Kaplan 表示,“威尼斯时间机器”将成为供几个世纪以后的人使用的谷歌和 Facebook。

圣方济会荣耀圣母圣殿里存储的各种手稿和史册资料。它们将全部被输入“威尼斯时间机器”,用于构建一个供几个世纪以后的人使用的谷歌和 Facebook。圣方济会荣耀圣母圣殿是威尼斯最大的教堂之一,具有次级宗座圣殿的地位。这座天主教堂位于圣波罗区的核心,敬奉圣母升天为主保圣人。

威尼斯时间机器的诞生,得益于机器学习技术的进步。这个项目成功的关键,也在于机器学习技术。

单纯扫描手稿、文献将其数字化的科研项目已有很多,令威尼斯时间机器脱颖而出的,是其规模和这个项目预计使用的新技术。据 Kaplan 介绍,他计划使用最先进的扫描仪,有些甚至可以在不打开书籍的情况下,读取书中纸页上的内容。此外,还有先进的机器学习算法,将手写文档转换成可被搜索和引用的数字文档。

威尼斯有着深厚悠久的历史,这些历史被一代代人整理和记录了下来。最重要的是,虽然几经动荡,这些记录都比较完好地保存了下来,最早从公元前 5 世纪开始。1797 年,拿破仑结束了威尼斯的共和国时代,1815 年,圣方济会荣耀圣母圣殿变为威尼斯国家档案馆(State Archives of Venice)。在接下来的几十年中,所有国家的行政文件,包括死亡登记册,医疗记录,公证记录,地图和建筑图案,专利注册和其他文件都陆续转移到这里。这些档案大多以拉丁文或威尼斯方言写就,有些从来没有被现代历史学家阅读过。

现在,根据 Kaplan 的计划,这些海量的文献将被系统化地送入威尼斯时间机器,和其他更多非常规数据来源一起,以更形象的形式,比如绘画和旅行者日志的形式呈现出来。

威尼斯时代机器这个项目始于 2012 年,实际上,在此之前,威尼斯国家档案馆就有相关的数字化项目,由意大利文化遗产部资助。威尼斯时代机器大幅推进了相关的过程,引进了专门设计的先进的高速扫描仪,包括一个负责翻页的机械臂,以及一个 2 米宽转盘的旋转扫描仪,能够同时扫描多个 A3 尺寸的文档。这些扫描仪现在每小时生成 TB 级的数千幅用于长期存储的高清图像。这些数据还会被传到洛桑,那里有高性能计算机,专门将图像转换为数字文本,以便进行注释。

自动识别手稿是一个重大的技术挑战。因为手写的字符,比如个人信件上的文字形状可能有很大差异,并且随着时间的推移可以演变。欧盟专门有一个项目,叫做 READ(Recognition and Enrichment of Archival Documents),在制定各种解决方法。

Kaplan 也是 READ 的成员之一,他在威尼斯时代机器这个项目里采用的首选方式,就是利用机器学习来识别整个单词的形状。

机器学习依靠算法,能修改规则和行为,根据从数据集中获取的示例,不断更新提高性能。威尼斯时间机器的算法旨在分析书面文本的结构,并提取看起来类似的图形形状,并将形状与结构联系起来。这让用户能在一份文档中找到一个名称,然后让系统显示数据库中所有其他手稿中出现相同名称的位置。

Nature 的一篇特稿详细介绍了威尼斯时间机器项目,包括 Kaplan 致力于将人工智能用于人文研究的经历。

我们可以看 Nature 特稿中给出的这幅图,形象地展示了机器学习算法重构可搜索数据库的过程。

首先,机械臂负责翻书,扫描仪将图像扫描下来。同时,还有断层扫描技术,能够在不翻开书本的情况下,将书页上的内容扫描下来。这一概念基于医学中使用的计算机断层扫描技术(CT),CT 以不同角度拍摄的 X 射线图像,逐层地建立人体内部的 3D 图像。EPFL 的科学家正在研究古代墨水的组成成分,从而找出可以用作 X 射线造影剂的分子。断层扫描仪扫描书籍的速度更快,质量更高,扫描时对文物造成的损害也较小。

然后,算法将扫描的图像转换为数字文本。同一个词(比如人物、地方、商标)会被标记出来,还有这个词在其他不同地方出现的情况。

相关数据综合在一起,构成一个覆盖时间和空间的社交网络。