Updated: Nov 26, 2025 · Editorial policy · Corrections

人工知能による植民地記録の解読。大規模な16世紀および17世紀ラテンアメリカ歴史コレクションの自動文字起こしの実現 - ランカスターEPrints

公開日: November 26, 2025 at 01:11 PM

News Article

人工知能による植民地記録の解読。大規模な16世紀および17世紀ラテンアメリカ歴史コレクションの自動文字起こしの実現 - ランカスターEPrints

コンテンツ

16世紀から18世紀にかけて、ラテンアメリカ全域で数百万の文書が作成されました。これらはスペインの植民者と先住民の両方によって書かれました。これらの植民地記録は多様な複雑な書体で書かれており、しばしばスペイン語とともに先住民の言語も含まれていました。このような多様性と文書の古さにより、文字起こしと解釈は大きな課題となり、専門的な古文書学の知識と歴史言語の理解が必要とされました。その結果、多くの貴重な歴史的洞察はアーカイブに閉ざされ、多くの研究者や一般の人々にはアクセスできない状態が続いています。\n\n機械学習と人工知能の最近の進歩は、これらの文字起こしの課題に対処する新たな道を開きました。本研究では、植民地アーカイブに含まれる豊富な歴史データの解読を支援するために、2つの主要な計算ツールを開発しました。最初のツールは、畳み込みニューラルネットワーク（CNN）とサポートベクターマシン（SVM）を用いて文書内の異なる書体を正確に識別・分類する歴史文書分類器です。この分類器はほとんどの書体で90％以上のF1スコアを達成し、高い精度と再現率を示しました。\n\n2つ目の計算手法は手書き文字認識（HTR）に焦点を当てています。Transkribusプラットフォームを使用し、16世紀および17世紀のスペイン語写本に特化したモデルを訓練することで、手書きテキストの自動文字起こしを可能にしました。結果は競争力のある文字誤り率（CER）を示し、Redonda書体で5.25％、Itálica Cursivaで8.92％、Procesal Simpleで14.15％でした。これらの誤り率は、手書きの複雑さと歴史的な変異を考慮すると注目すべき成果です。\n\nこれらの自動化ツールにより、以前は「読めなかった」またはアクセス不可能だったアーカイブ文書をデジタル化し、検索可能なデータに変換することが可能になりました。この画期的な成果は、ラテンアメリカの歴史記録のアクセス性を大幅に向上させ、図書館、アーカイブ、研究者が解読困難または不可能だった何世紀にもわたる情報を解放する力を与えます。最終的に、このプロジェクトはデジタル人文学における大きな前進を示し、歴史学と最先端のAI技術の架け橋となります。\n\nこの技術的進歩の影響は単なる文字起こしを超えています。膨大な植民地文書コレクションの読み取りと分類を自動化することで、歴史分析、言語学研究、文化保存の新たな道を開きます。また、歴史家、コンピュータ科学者、先住民コミュニティ間の協力の機会を提供し、共有された過去の再解釈と再獲得を促進します。これらのAI技術が進化し続けることで、歴史文書の研究方法を革新し、貴重な文化遺産を将来の世代に保存することが期待されます。

キーインサイト

この研究は、16世紀および17世紀のラテンアメリカ植民地文書の転写と分類を行うAI駆動ツールの開発に焦点を当てており、16世紀から18世紀のスペイン語および先住民のアーカイブ資料を対象としています。

主な事実としては、CNNおよびSVMを用いた歴史文書分類器の作成があり、90％以上のF1スコアを達成しています。

また、時代特有の写本で訓練された手書き文字認識モデルは、文字誤り率が5.25％まで低減しています。

直接の利害関係者は歴史家、アーカイブ管理者、先住民コミュニティであり、二次的な影響は学術研究者や文化機関に及ぶ可能性があります。

即時の結果としては、これまでアクセス困難だったアーカイブデータへのアクセスが改善され、歴史研究と保存が促進されます。

比較すると、この取り組みは植民地アーカイブの以前のデジタル化イニシアチブと整合していますが、高度なAI技術によりそれらを上回り、ヨーロッパ中世写本のデジタル化プロジェクトと類似しています。

楽観的には、この革新が新たな学際的研究を促進し、文化遺産へのアクセスを民主化する可能性がありますが、モデルのバイアスや誤解釈のリスクがあり、継続的な専門家の監督による緩和が必要です。

技術専門家の視点からの推奨事項は、(1) より広範な適用性のためにより多くの筆記体をカバーする訓練データセットの拡充（中程度の複雑さ、高い影響）、(2) モデルの精度と文化的感受性を向上させるために先住民言語専門家の統合（高い複雑さ、重要な影響）、(3) 非技術ユーザーのアクセス性を最大化するための使いやすいアーカイブインターフェースの開発（低い複雑さ、中程度の影響）を優先することです。

Loading...

人工知能による植民地記録の解読。大規模な16世紀および17世紀ラテンアメリカ歴史コレクションの自動文字起こしの実現 - ランカスターEPrints

コンテンツ

キーインサイト

編集者のおすすめ