Déverrouiller les archives coloniales avec l'intelligence artificielle. Réaliser la transcription automatisée de grandes collections historiques latino-américaines des XVIe et XVIIe siècles - Lancaster EPrints

Contenu
Insights clés
Cette étude se concentre sur le développement d'outils pilotés par l'IA pour transcrire et classifier des documents coloniaux latino-américains des XVIe et XVIIe siècles, en se focalisant sur des matériaux d'archives espagnols et indigènes datant entre le XVIe et le XVIIIe siècle.
Les faits clés incluent la création d'un classificateur de documents historiques utilisant des CNN et SVM atteignant plus de 90 % de scores F1, et des modèles de reconnaissance de texte manuscrit entraînés sur des manuscrits spécifiques à la période avec des taux d'erreur de caractères aussi bas que 5,25 %.
Les parties prenantes directes englobent les historiens, archivistes et communautés indigènes, tandis que les impacts secondaires peuvent affecter les chercheurs académiques et les institutions culturelles.
Les conséquences immédiates impliquent un meilleur accès à des données d'archives auparavant inaccessibles, facilitant une recherche historique améliorée et la préservation.
Comparativement, cet effort s'aligne avec des initiatives antérieures de numérisation dans les archives coloniales mais les dépasse grâce à une IA avancée, parallèlement à des projets comme la numérisation de manuscrits médiévaux européens.
Optimistement, cette innovation peut stimuler de nouvelles études interdisciplinaires et démocratiser l'accès au patrimoine culturel ; cependant, les risques incluent des biais potentiels des modèles ou des interprétations erronées nécessitant une supervision experte continue.
Du point de vue d'un expert technique, les recommandations incluent la priorité à : (1) l'expansion des jeux de données d'entraînement pour couvrir plus d'écritures pour une applicabilité plus large (complexité moyenne, fort impact) ; (2) l'intégration de spécialistes des langues indigènes dans l'affinement des modèles pour améliorer la précision et la sensibilité culturelle (haute complexité, impact significatif) ; et (3) le développement d'interfaces archivistiques conviviales pour maximiser l'accessibilité aux utilisateurs non techniques (faible complexité, impact modéré).