Aiの文字認識で古文書の崩し字も一瞬で活字化!?古文書から生まれる新たな未来

平安時代から、明治時代ごろまで広く使われていたのが草書体や変体仮名などの、いわゆる『崩し字』とよばれるものです。それから120年以上も経過した現代において、この『崩し字』を解読できる人がどれだけいるでしょうか。専門家の間では、崩し字で書かれた古文書をすべて解読できるのは日本人の約0.1%であるとも言われています。

一方近年では、官公庁や地方自治体、大学や金融機関などの事務作業が多いオフィスを中心にOCRやAiによる文字認識ソフトウェアなどが次々に導入されていっています。これまで紙ベースで扱ってきた書類をOCRやAiの文字認識技術によって自動的にデータ変換することで、より扱いやすくすることが可能になりました。

これらのAi技術は、オフィスワークなどへの利用にとどまらず、古文書の解読などの歴史的資料を未来に伝える為の目的として活用され始めてきています。Aiで古文書を解読?それをしたところでどうなるの?と思われる方もいらっしゃるでしょう。実は、この古文書の解読、意外なところへ利用されているのです。

 

文字認識技術『OCR』と『AiOCR』

『古文書の解読』という本題に入る前に、文字認識技術である『OCR』のご説明から始めていきます。この『OCR』とは、『光学文字認識』といい『Optical Character Recognition』の頭文字をとった言葉です。

いわゆる特定の画像から文字を見つけ出して文字データに変換する技術であり、画像の中にあるテキスト部分を数字や文字として読み込むことが可能なものです。また、読み込まれたテキストはパソコンに入力した文字と同じようにコピー&ペーストしたり、検索をかけたりすることもできます。

とはいえ、このような従来のOCR技術はあらかじめ文書の項目を指定して読み込まければならなかったため、項目の位置がバラバラな非定型文書や手書き文字のようなクセの強い文字、斜めになった文字などのデータ読み取りをすることは不可能でした。

しかし、そのOCR技術にAi技術を搭載した『AiOCR』では、これまで読み取りが困難だった文書の読み取りも可能になっています。

Ai技術をOCRに活用することで、文字認識の対象が『活字』から『手書き文字』まで広がったのです。これは、Aiのディープラーニングという深層学習機能を活用しており、一文字につき様々な字形やパターンを学習することで、より高度な文字認識を行うことができるようになりました。

 

AiOCR技術で古文書の崩し字を判別した事例

この、『AiOCR』による文字認識技術を学術分野に転用する取り組みの一つが、古文書に書かれた『崩し字』を判別するソフトウェアの開発です。

博物館や歴史資料館などで目にする古文書は、日本語で書かれているはずなのに英語の筆記体を見えているようで全く読めないので、キャプションを頼りにしてしまうといった経験をしたことがある方も多いでしょう。

このように、多くの現代日本人は崩し字を読むことができませんので、いわゆる『現代仮名遣い』への変換は誰にでもできるわけではありません。

その、現代仮名遣いへの変換において活躍するのが、AiOCR等を活用した『崩し字判別システム』になります。

 

・立命館大学が開発した『崩し字判別システム』

2019年、立命館大学は凸版印刷と共同でAiによる崩し字の解読支援、指導システムを開発しました。

同システムは、古文書上の読めない文字を選択すると、Aiの支援を受けながら崩し字を判別し、翻訳作業を行うことができるもので、Aiの導入により、高精度のシステムの構築に成功したのは全国初であるといいます。

この開発研究においては、立命館大学に保管されている歴史的資料の原本や、複製画像を使用して、江戸時代を中心に室町時代から明治時代までの約15万7000件の書物と浮世絵の文字を解読することができるようになりました。

今後は同システム、Aiによる文字認識技術を活用することで歴史的資料を解読するのが容易になり、日本文化研究の加速や、教育支援の向上などが期待されています。

 

・日経新聞がAiで100年前の新聞をテキストデータ化

日経新聞がAiやOCRを用いて取り組んでいるのは、古い新聞のデータ化です。約140年前の1876年前に創刊された『中外物価新報』(日経新聞の前身)など、約100年間の新聞をデータ化しています。

日経新聞では、すでに1970年代から約40年間分の新聞に掲載された記事のテキストデータ化は済んでいますが、それ以前の100年分の新聞についてはテキストデータはなく、原本をスキャンしたイメージデータのみを保存していました。

これらの記事もAiやOCRの技術を活用してテキストデータ化し、記事ごとにタグ情報を加えることで検索がしやすくなります。かつての日本の経済状況を把握したり分析したりすることに活用されるようになるわけです。

ただ、当時の新聞は紙が薄く裏のページの文字が透けており、現代のように印刷が鮮明でないため、従来のOCRによる読み取り精度は75%程度にとどまっていました。しかし近年ではAi技術の進歩やOCR技術をAiと組み合わせるなど改良を重ねたことで、現在の読み取り精度は95%程度まで向上しているのだといいます。

 

Aiによる崩し字解読で何ができるか

こうしたAiやOCRによる文字認識は1ページわずか数秒で読み取ることが可能です。崩し字の解読を行っている研究者からもAiを活用することで歴史資料の解読が進むことへの期待が寄せられています。

Aiで古文書を読み取ることは、博物館でのキャプション作成や教育支援以外にどのようなところに好影響を与えるのでしょうか。

 

・価値がわからず破棄される古文書を救える

崩し字で書かれた歴史的資料の中でも、現在表立って出ている資料は全体の資料の約数パーセント程で、数億点規模でどこかしらに残されているとされています。

中には、古い民家において片付けの際などにそのような資料が発掘されても、内容が読めないため、価値がわからず破棄されたり、知られていない地域の歴史の記録などが解読されないまま残されたりしていることもあります。

 

それらの中には貴重な情報がまだ沢山あるはずですが、解読してみなければ内容が分かりません。しかし、Aiによって簡単に解読ができるようになることで、Aiがその中に記された情報を見つけ出す手助けになり、破棄される古文書を救うきっかけになるといえます。

 

・地域の歴史や災害の記録が解読できる

内容が分からず破棄されてしまう古文書の中には、地域の歴史や災害の記録が記されていることがあります。これまで知られていなかった災害や復興の記録の中には、現代にも活かせる減災や復興のヒントが多く詰まっているという見方もあるほどです。

先ほどの日経新聞の活用例もそうですが、これらの古文書をAiなどを活用して読み解くことは、現代の経済と照らし合わせたり、現代の生活に知恵を活かすことにもつながります。

 

まとめ

日本には、古い書物や文書等、歴史的な価値があるにも関わらず、解読困難であるために活用不十分な文化的資料が多く残されています。

Aiの技術は必ずしも、オフィスワークや金融機関などの業務効率化のみに利用されるわけではありません。こうした文化的資料の価値を再認識したり、それらに記された重要な事項を未来に役立てていくためにもAiの文字認識技術が活用されていっています。 

もしかすると、古い歴史的資料に埋もれた新たな情報をAiが発見し、歴史が動くということもあるかもしれませんね。