Teishoin's Digital Photo Log: 江戸以前のくずし字を高精度にOCRする技術

このウェブログのライセンス: Creative Commons License.

2015年7月 3日

江戸以前のくずし字を高精度にOCRする技術

凸版印刷、江戸以前のくずし字を高精度にOCRする技術を開発

 凸版印刷は7月3日、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータ化するOCR技術を開発したと発表した。

専門家の減少、資料の経年劣化という問題に加え、大規模災害によって失われる可能性もある歴史資料のデジタル化の必要性が高まっている。しかし総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は専門家による判読が必要なためテキストデータ化が遅れていた。

凸版印刷では、古文書を高い精度で出来すとデータ化する「高精度全文テキスト化サービス」を2013年から提供、この技術をベースに公立学校法人公立はこだて未来大学が開発した「文書画像で検索システム」と組み合わせ、くずし字で記されている古典籍のOCR技術を開発した。

古典籍のテキストデータ化処理の流れ

技術としては、すでにテキストデータ化済みの文献をくずし字のデータベースとして用いることでくずし字を判読するもの。原理検証実験では、くずし字で記されている書物を80％以上の精度で、専門家の判読に比べて大幅なコスト削減と大量処理が可能という。

凸版印刷では、2015年夏から古典籍のテキストデータ化サービスを開始するとともに、幅広い年代やジャンルの資料に対する OCRの精度向上を図る。また、本技術を発展させて、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していくとしている。
（ASCII.jp 2015/7/3)

これはとても気になる技術です。
寺院にも古文書の類は多く保存されており、その解読には専門的な知識と技能が必要で、なかなかデータベース化することが困難でした。
報道の技術を利用すると、80％ほどは自動で判別するｋとおができますので、残りの部分を精査する作業はありますが、大幅な処理の向上が期待出来ます。

まずは、８割程度の認識でも、OCR化してデータベース化するだけで、検索利用価値の高いデータベースが構築できます。

貞昌院でも、古文書の会勉強会のように楽しみながら古文書を紐解く作業を行ってきました。
このように楽しみながら古文書に親しんでいくアプローチと、OCRを活用したデータベースを構築してから利用していくという両方のアプローチの方法がうまく噛み合えば、過去に蓄積された知の遺産を生かしていくことにもなりましょう。

今後の進展が楽しみです。

投稿者: kameno 日時: 2015年7月 3日 13:14

コメントを送る