Updated: Nov 26, 2025 · Editorial policy · Corrections

利用人工智能解锁殖民地档案。实现16和17世纪拉丁美洲大规模历史文献的自动转录 - 兰卡斯特电子论文库

发布时间： November 26, 2025 at 01:11 PM

News Article

利用人工智能解锁殖民地档案。实现16和17世纪拉丁美洲大规模历史文献的自动转录 - 兰卡斯特电子论文库

内容

在16至18世纪期间，拉丁美洲产生了数百万份文件，这些文件由西班牙殖民者和土著人民共同撰写。这些殖民地档案采用多种复杂的书法风格书写，且常常包含土著语言与西班牙语并存。这种多样性及文献的年代久远，使得其转录和解读成为一项重大挑战，需具备专业的古文字学知识和历史语言学知识。因此，许多宝贵的历史见解仍被锁在档案中，大多数研究人员和公众无法访问。\n\n机器学习和人工智能的最新进展为解决这些转录难题开辟了新途径。在本研究中，团队开发了两种主要的计算工具，以帮助解锁殖民地档案中丰富的历史数据。第一种工具是历史文档分类器，采用卷积神经网络（CNN）和支持向量机（SVM）准确识别和分类文档中不同的书法风格。该分类器表现优异，大多数书写类型的F1分数超过90%，显示出高度的精确度和召回率。\n\n第二种计算方法聚焦于手写文本识别（HTR）。研究人员利用Transkribus平台，专门针对16和17世纪的西班牙手稿训练模型，实现了手写文本的自动转录。结果显示字符错误率（CER）具有竞争力，Redonda字体为5.25%，Itálica Cursiva为8.92%，Procesal Simple为14.15%。鉴于书写风格的复杂性和历史变异，这些错误率是显著的成就。\n\n这些自动化工具共同使得先前“无法阅读”或无法访问的档案文献转化为数字化、可搜索的数据。这一突破将极大提升拉丁美洲历史档案的可访问性，使图书馆、档案馆和研究人员能够解锁数百年来难以或不可能解读的信息。最终，该项目代表了数字人文领域的重要进展，架起了历史学研究与前沿人工智能技术之间的桥梁。\n\n这一技术进步的影响超越了简单的转录。通过自动化阅读和分类庞大的殖民地文献收藏，研究为历史分析、语言学研究和文化保护开辟了新途径。它还为历史学家、计算机科学家和土著社区之间的合作提供了机会，共同重拾和重新诠释他们的共同过去。随着这些人工智能技术的不断完善，预计将彻底改变历史文献的研究方式，保护宝贵的文化遗产，惠及后代。

关键见解

本研究聚焦于开发基于人工智能的工具，用于转录和分类16至17世纪拉丁美洲殖民地文件，重点是16至18世纪的西班牙语和土著档案材料。

关键事实包括使用卷积神经网络（CNN）和支持向量机（SVM）创建的历史文档分类器，F1分数超过90%，以及基于特定时期手稿训练的手写文本识别模型，字符错误率低至5.25%。

直接利益相关者包括历史学家、档案管理员和土著社区，次级影响可能涉及学术研究人员和文化机构。

即时后果是改善了对先前难以访问的档案数据的获取，促进了历史研究和保护的提升。

相比之下，该工作与早期殖民地档案数字化项目相符，但通过先进的人工智能技术超越了它们，类似于欧洲中世纪手稿数字化项目。

乐观地看，这一创新可推动新的跨学科研究并普及文化遗产的访问；但风险包括模型偏见或误解，需要通过持续的专家监督加以缓解。

从技术专家角度，建议优先考虑：（1）扩展训练数据集以涵盖更多书写体，实现更广泛的适用性（中等复杂度，高影响）；（2）整合土著语言专家参与模型优化，提高准确性和文化敏感性（高复杂度，显著影响）；（3）开发用户友好的档案界面，最大化非技术用户的可访问性（低复杂度，中等影响）。

Loading...

利用人工智能解锁殖民地档案。实现16和17世纪拉丁美洲大规模历史文献的自动转录 - 兰卡斯特电子论文库

内容

关键见解

编辑推荐