利用人工智能解锁殖民地档案。实现16和17世纪拉丁美洲大规模历史文献的自动转录 - 兰卡斯特电子论文库
发布时间: November 26, 2025 at 01:11 PM
News Article

内容
在16至18世纪期间,拉丁美洲产生了数百万份文件,这些文件由西班牙殖民者和土著人民共同撰写。这些殖民地档案采用多种复杂的书法风格书写,且常常包含土著语言与西班牙语并存。这种多样性及文献的年代久远,使得其转录和解读成为一项重大挑战,需具备专业的古文字学知识和历史语言学知识。因此,许多宝贵的历史见解仍被锁在档案中,大多数研究人员和公众无法访问。\n\n机器学习和人工智能的最新进展为解决这些转录难题开辟了新途径。在本研究中,团队开发了两种主要的计算工具,以帮助解锁殖民地档案中丰富的历史数据。第一种工具是历史文档分类器,采用卷积神经网络(CNN)和支持向量机(SVM)准确识别和分类文档中不同的书法风格。该分类器表现优异,大多数书写类型的F1分数超过90%,显示出高度的精确度和召回率。\n\n第二种计算方法聚焦于手写文本识别(HTR)。研究人员利用Transkribus平台,专门针对16和17世纪的西班牙手稿训练模型,实现了手写文本的自动转录。结果显示字符错误率(CER)具有竞争力,Redonda字体为5.25%,Itálica Cursiva为8.92%,Procesal Simple为14.15%。鉴于书写风格的复杂性和历史变异,这些错误率是显著的成就。\n\n这些自动化工具共同使得先前“无法阅读”或无法访问的档案文献转化为数字化、可搜索的数据。这一突破将极大提升拉丁美洲历史档案的可访问性,使图书馆、档案馆和研究人员能够解锁数百年来难以或不可能解读的信息。最终,该项目代表了数字人文领域的重要进展,架起了历史学研究与前沿人工智能技术之间的桥梁。\n\n这一技术进步的影响超越了简单的转录。通过自动化阅读和分类庞大的殖民地文献收藏,研究为历史分析、语言学研究和文化保护开辟了新途径。它还为历史学家、计算机科学家和土著社区之间的合作提供了机会,共同重拾和重新诠释他们的共同过去。随着这些人工智能技术的不断完善,预计将彻底改变历史文献的研究方式,保护宝贵的文化遗产,惠及后代。
关键见解
本研究聚焦于开发基于人工智能的工具,用于转录和分类16至17世纪拉丁美洲殖民地文件,重点是16至18世纪的西班牙语和土著档案材料。
关键事实包括使用卷积神经网络(CNN)和支持向量机(SVM)创建的历史文档分类器,F1分数超过90%,以及基于特定时期手稿训练的手写文本识别模型,字符错误率低至5.25%。
直接利益相关者包括历史学家、档案管理员和土著社区,次级影响可能涉及学术研究人员和文化机构。
即时后果是改善了对先前难以访问的档案数据的获取,促进了历史研究和保护的提升。
相比之下,该工作与早期殖民地档案数字化项目相符,但通过先进的人工智能技术超越了它们,类似于欧洲中世纪手稿数字化项目。
乐观地看,这一创新可推动新的跨学科研究并普及文化遗产的访问;但风险包括模型偏见或误解,需要通过持续的专家监督加以缓解。
从技术专家角度,建议优先考虑:(1)扩展训练数据集以涵盖更多书写体,实现更广泛的适用性(中等复杂度,高影响);(2)整合土著语言专家参与模型优化,提高准确性和文化敏感性(高复杂度,显著影响);(3)开发用户友好的档案界面,最大化非技术用户的可访问性(低复杂度,中等影响)。