Desbloqueando registos coloniais com Inteligência Artificial. Atingindo a transcrição automatizada de grandes coleções históricas latino-americanas dos séculos XVI e XVII - Lancaster EPrints

Conteúdo
Insights principais
Este estudo centra-se no desenvolvimento de ferramentas impulsionadas por IA para transcrever e classificar documentos coloniais latino-americanos dos séculos XVI e XVII, focando em materiais arquivísticos espanhóis e indígenas datados entre os séculos XVI e XVIII.
Factos chave incluem a criação de um classificador de documentos históricos usando CNNs e SVMs que alcançou mais de 90% em pontuações F1, e modelos de Reconhecimento de Texto Manuscrito treinados em manuscritos específicos do período com Taxas de Erro de Caracteres tão baixas quanto 5,25%.
Os intervenientes diretos abrangem historiadores, arquivistas e comunidades indígenas, enquanto os impactos secundários podem afetar investigadores académicos e instituições culturais.
As consequências imediatas envolvem o acesso melhorado a dados arquivísticos anteriormente inacessíveis, facilitando uma investigação histórica e preservação aprimoradas.
Comparativamente, este esforço alinha-se com iniciativas anteriores de digitalização em arquivos coloniais, mas supera-as através de IA avançada, paralelamente a projetos como a digitalização de manuscritos medievais europeus.
De forma otimista, esta inovação pode impulsionar novos estudos interdisciplinares e democratizar o acesso ao património cultural; no entanto, os riscos incluem potenciais vieses do modelo ou interpretações erradas que necessitam de mitigação através de supervisão contínua de especialistas.
Do ponto de vista de um especialista técnico, as recomendações incluem priorizar: (1) expansão dos conjuntos de dados de treino para cobrir mais escritas para maior aplicabilidade (complexidade média, impacto elevado); (2) integração de especialistas em línguas indígenas na refinamento do modelo para melhorar a precisão e sensibilidade cultural (complexidade elevada, impacto significativo); e (3) desenvolvimento de interfaces arquivísticas fáceis de usar para maximizar a acessibilidade para utilizadores não técnicos (complexidade baixa, impacto moderado).