本篇文章1599字,读完约4分钟
新华社北京3月20日电梵蒂冈秘密档案馆被列为世界十大禁地之一。它是教皇的档案保管人,也是欧洲教堂中最古老的档案。
它收藏的许多文件从未被转录过,甚至教堂档案管理员也对隐藏的秘密一无所知。然而,机器视觉系统将揭开中世纪文本的神秘面纱。
梵蒂冈机密档案是传奇。据说,保存在博物馆里的许多历代教皇的私人信件和其他文件可以追溯到公元8世纪,可以排列85公里。
博物馆戒备森严。自1881年以来,学者们只能获得有限的文献,但其中的信息量是相当大的。
例如,一张60米长的羊皮纸上写满了对法国圣殿骑士审判的忏悔,这场审判从1307年开始持续了好几年。这些信件中有米开朗基罗的手稿,亨利八世要求废除婚姻的申请,以及苏格兰玛丽女王被斩首前的情书。
此外,档案还包含简短的通信文件,如美国内战,亚伯拉罕?林肯和杰斐逊?戴维斯写信试图说服教皇庇护九世支持他们各自的阵营——北方联盟和南方联盟。此外,在第二次世界大战期间,教皇和纳粹政权之间的通信从未发表。事实上,1939年以后的所有档案都是完全保密的。虽然这些文件的出版是被禁止的,但档案馆有一个图像备份和档案保护工作室。像许多其他历史档案一样,他们已经开始备份他们的档案,供学者们深入研究。
但是,档案的存量太大,无法通过手动复制和备份来完成。那么,机器视觉技术能工作吗?
幸运的是,意大利罗马第三大学的多纳泰拉·菲尔马尼和他的同事们启动了“在Codice Ratio”项目,旨在开发一个能够自动转录梵蒂冈机密文件(命名为梵蒂冈登记簿)的系统。
该文集包含18,000页13世纪的官方信件,涵盖了广泛的内容,从天主教到国王和王后,从政治到宗教,并穿越欧洲的各个领域。菲尔马尼和他的团队说:“这些文件以前从未被转录过,因此其历史意义可以被描述为空.”
中世纪文本的特殊性给机器视觉技术带来了许多挑战。由于手稿的书写风格不同,有连笔(把相邻的字母连接成一本书)和特殊的缩写,所以传统的视觉识别算法不能胜任抄写。
为了解决这个问题,学者们开发了一个计算机视觉系统来识别整个单词(不仅仅是字母)。然而,效果仍然不理想。大多数单词在一个长文件中只出现几次,因此很难创建一个满足机器学习需要的数据集。
现在,菲尔马尼和他的团队发明了一种训练文本视觉识别系统的新方法:将单词分成笔画,然后像拼图一样组合笔画。他们说:“我们希望开发一个成熟的系统,能够转录尽可能多的手稿。”
系统将单词拆分成笔画后,尝试将笔画组合成字母,分析所有可能的排列和组合方式,最后排除所有不符合语法的组合。
例如,笔画通常可以组合成" iii "和" m ",而前者由于语法错误而被排除在外。相同的笔画组合是“in”或“ni”。在做出选择之前,系统需要进一步研究整个单词及其上下文。
Firmani团队首先创建了一个数据集来训练基于神经网络的计算机视觉系统。
这个数据集需要标记。因此,视觉系统可以学习笔画排列和可能的字母之间的映射。
他们将数据标记外包,将拼图单词分解成模式识别问题(如拼图验证码),并展示给120名大学生。他们被要求在几个小时内手工标记一个包含15000个单词的数据集。
标注结果理想。firmani团队说:“我们可以精确地转录数据集中65%的字母图像。”
显然,这一成就对中世纪文章的抄录和历史学家的研究具有重要意义。但是还有更多的问题需要克服。例如,小写字母的转录问题仍然存在,所以下一步的关键是扩大词汇量,将中世纪文本中的大写字母和缩写词包括到数据集中。
目前还不知道梵蒂冈的机密档案将如何利用这一技术,也不知道梵蒂冈的登记册在转录后是否会出版。
然而,即使文件没有发表,firmani团队开发的尖端技术也能帮助学者在相关领域进行深入研究。例如,诸如单词和短语的频率及其随时间的变化等数据可以用来研究历史文献。它可以作为分析历史和文化的一个重要起点。
(主编:赵冉hz002)
来源:搜狐微门户
标题:AI将揭开梵蒂冈机密档案馆之谜
地址:http://www.shwmhw.com/shxw/43210.html