古典のくずし字をAIで解読

古典・古文書の難読「くずし字」、AIが瞬時に解読…精度90%も

日本の古典文学や古文書などの「くずし字」を解読する人工知能(AI)に注目が集まっている。情報・システム研究機構が開発したAIは、くずし字を瞬時に現代の文字に変換する。今後、国文学研究資料館などと協力し、大量の古典や古文書を解読するプロジェクトに乗り出す。

20191111-01◆専門家でも1ページ10分かかるが、AIなら1秒で
「古典の解読は、専門家でも1ページあたり10分程度はかかります。このAIなら、1ページを1秒間ほどで解読できます」
くずし字解読AIのソフト「KuroNet(クロネット)」を開発した同機構人文学オープンデータ共同利用センター(CODH)のカラーヌワット・タリン特任助教はそう話す。
タリンさんのパソコンの画面に、兼好法師の「徒然草」を表示してもらった。現在私たちが使っている文字とは異なる形の字が多いうえ、上下の字がつながっていてなかなか読めない。
この画像をKuroNetに取り込むと、即座に解読が終わり、くずし字の横に赤字で現代の文字が表示された。一部の文字を読み飛ばすなど正しく解読できていない部分もあるが、大部分は読むことができる。

◆誰でも使えるよう、ホームページで公開予定
タイ出身のタリンさんは、「源氏物語」をきっかけに日本の古典文学に興味をもち、早稲田大に留学。源氏物語の注釈書などの研究で博士(文学)を取得した。
多くの時間と労力を、くずし字の解読に費やした経験から、「くずし字を効率良く解読するシステムを、自分で作ろう」と思い立った。
膨大なデータをもとに自ら学ぶディープラーニング(深層学習)の仕組みを初歩から学び、KuroNetを開発した。AIには約68万字分のくずし字を学習させた。変体仮名や草書体の漢字などを含むくずし字約2400種を認識し、江戸時代の文献なら90%の精度で解読できるという。
今年11月までに学習の対象を約100万字に増やし、さらに精度を高めたうえで、誰でも使えるようにホームページで公開する予定だ。

◆文字の切れ目、わかりにくかったが…
くずし字は前後の文字がつながっていて、切れ目がわかりにくい。文字を最初から順番に読み込む場合、1文字の領域を決めるのが難しく、解読が止まってしまうことがある。そこでタリンさんは、文字の領域を決めずに、いきなり解読することを試みた。
この方法を使うと、AIは文章の段落や行などにとらわれず、見つけた文字からどんどん解読していくことがわかった。タリンさんの共同研究者で、カナダ・モントリオール大の大学院生アレックス・ラムさんは「すごく単純な考え方だったので、逆に誰もやろうとしなかった」と振り返る。
ただ、KuroNetにはまだ課題が残っている。これまでに学習に使った古典は、版木に彫られた文字を印刷した「版本」がほとんど。これらは専門の職人が書いた文字がもとになっており、文字の大きさなどのばらつきが少ない。
これに対し、日本各地に残る手書きの古文書などは、文字の大きさや墨の濃淡がそろっていないものが多いため、AIによる解読の精度が落ちる。
タリンさんは、「古文書は古典よりも数が多いうえ、専門家でも解読が難しい場合がある。ニーズの高い古文書解読の精度をあげるべく、研究を続けたい」と話す。手書きのくずし字のデータを、大量に学習させることなどを検討している。

◆国内に存在する古典・古文書は数億点…新発見の宝庫として期待
くずし字は平安時代から1800年代まで約1000年間使われ、国内に存在する古典や古文書などは数億点に上るとも言われる。
人間文化研究機構の国文学研究資料館は、国内に保管されている古典約30万点を、デジタル画像にして公開するプロジェクトを進めている。いずれは、これらの画像データをAIで解読することを目指している。
同館の山本和明教授は、「膨大な数の資料をAIで読み解けば、文学だけでなく、歴史や政治、自然災害に至るまで、あらゆる分野の知識が得られるはずだ」と語る。
CODHの北本朝展(あさのぶ)センター長も、「これまで知られていなかった作品など新たな発見につながるかもしれない」と期待している。
くずし字を解読するAIの開発は、凸版印刷や豊田工業高等専門学校(愛知県豊田市)なども取り組んでいる。こうした研究を盛り上げようと、CODHなどは11月11日、東京都千代田区の学術総合センター一橋講堂でシンポジウムを開催する。
シンポジウムに合わせ、研究者や企業向けに、古典の解読能力を競うコンテストも企画した。10月14日の締め切りまでに、国内外から200を超えるチームが参加、上位チームはかなりの精度で解読に成功しているという。
(Yahoo!ニュース2019/11/11配信)


文字認識(OCR)の技術は日々進化を続けています。
数年前まではフォントが限定された活字を認識するのがやっとでしたが、認識の精度は上がり、手書き文字も実用的レベルで認識するようになりました。

特に感心するのが、Googleドキュメントに画像をアップロードすると、画像にある文字を難なく認識してテキスト化しているということです。
これについては、別のブログ記事で触れますが、今回のニュースは、変体仮名を含むくずし字を認識する技術「KuroNet(クロネット)」についての報道です。

有名な古典はもとより、全国各地に所蔵されている様々な知識の蓄積が活かされるための有用な技術です。
その技術開発に海外の研究者が大きな役割を果たしているということも、大変興味深いことです。

貞昌院にも「天神おみくじ」や「高札」「地域史」など様々な古文書がありますので、今月に公開されるという文字認識システムを試してみたいと思います。

投稿者: kameno 日時: November 11, 2019 10:00 PM

コメントを投稿