人工知能による植民地記録の解読。大規模な16世紀および17世紀ラテンアメリカ歴史コレクションの自動文字起こしの実現 - ランカスターEPrints

コンテンツ
キーインサイト
この研究は、16世紀および17世紀のラテンアメリカ植民地文書の転写と分類を行うAI駆動ツールの開発に焦点を当てており、16世紀から18世紀のスペイン語および先住民のアーカイブ資料を対象としています。
主な事実としては、CNNおよびSVMを用いた歴史文書分類器の作成があり、90%以上のF1スコアを達成しています。
また、時代特有の写本で訓練された手書き文字認識モデルは、文字誤り率が5.25%まで低減しています。
直接の利害関係者は歴史家、アーカイブ管理者、先住民コミュニティであり、二次的な影響は学術研究者や文化機関に及ぶ可能性があります。
即時の結果としては、これまでアクセス困難だったアーカイブデータへのアクセスが改善され、歴史研究と保存が促進されます。
比較すると、この取り組みは植民地アーカイブの以前のデジタル化イニシアチブと整合していますが、高度なAI技術によりそれらを上回り、ヨーロッパ中世写本のデジタル化プロジェクトと類似しています。
楽観的には、この革新が新たな学際的研究を促進し、文化遺産へのアクセスを民主化する可能性がありますが、モデルのバイアスや誤解釈のリスクがあり、継続的な専門家の監督による緩和が必要です。
技術専門家の視点からの推奨事項は、(1) より広範な適用性のためにより多くの筆記体をカバーする訓練データセットの拡充(中程度の複雑さ、高い影響)、(2) モデルの精度と文化的感受性を向上させるために先住民言語専門家の統合(高い複雑さ、重要な影響)、(3) 非技術ユーザーのアクセス性を最大化するための使いやすいアーカイブインターフェースの開発(低い複雑さ、中程度の影響)を優先することです。