凸版印刷 高精度のくずし字AI-OCRを搭載し、簡単に解読できるシステム「ふみのはゼミ」を開発
2021年02月16日
 凸版印刷株式会社(東京都千代田区、麿 秀晴社長)は、高精度のくずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるシステム「ふみのはゼミ」を開発した。
授業やイベントでの活用を想定したグループワーク支援機能により、歴史的資料のデジタルアーカイブ化を推進するとともに、コロナ禍における学習・研究の拡大に貢献する。


「ふみのはゼミ」を活用した共同解読作業のイメージ

 同サービスは、凸版印刷が2015年から研究・実証試験を行ってきたくずし字OCRをさらに発展させ、凸版印刷総合研究所が開発したAI-OCRの導入による文字認識精度の向上および、グループワーク支援機能や、解読効率を向上させるためのさまざまなノウハウが結集したシステム。パソコンやタブレットなどのブラウザ上で動作し、複数人での同時解読作業が可能になる。
 AI-OCR導入により、90%以上の高い精度で文字認識が可能となり、2019年度には大学共同利用機関法人人間文化研究機構 国文学研究資料館(東京都立川市 ロバート キャンベル館長、以下 国文学研究資料館)との実証試験を実施。また、慶應義塾大学と実験授業を行い、システムの改良に努めてきました。2020年度には、慶應義塾大学をはじめとする4大学にて、オンライン授業内での演習用システムとしての活用を試験的に開始。教育機関や研究機関などでの利用を想定した機能のさらなる充実化を進めている。

■ 開発の背景
 江戸時代以前に使用されていた「くずし字」は現代人には難読となってしまい、当時の記録・文献を解読する際の大きな障壁になっている。また、近年、大規模災害による資料アーカイブ手法の見直しや、資料の経年劣化や専門家の減少による文化継承の危機的状況などから、歴史的資料をデジタルデータとして保存することが求められている。
 これらのニーズを解決する新たな手法として、凸版印刷は2015年より国文学研究資料館との共同研究により、くずし字OCR技術の開発・実証を重ねてきた。
 今回開発した、くずし字解読支援システム「ふみのはゼミ」は、くずし字で書かれた歴史的資料が容易に読める環境を実現。また、オンライン上でのグループワークを可能にしたことで、コロナ禍における学習・研究等にも活用できる。

■ くずし字解読支援システム「ふみのはゼミ」の特長
・グループワーク用の支援ツール機能搭載
 参加者が編集している箇所をリアルタイムで表示し、編集結果を即時反映する画面共有機能や、参加者同士で自由に交流できるチャット機能のほかに、解読した文字や単語に対して質問やコメントをつけることが可能。講師への質問や、参加者同士の交流をスムーズに行うことができ、授業や各種イベント・ワークショップなどの活性化を促進する。また、授業やイベントでの利用を想定した、開始・終了の制御、採点機能なども搭載している。


他の参加者が編集している箇所をリアルタイムで表示 (『伊勢物語』 印刷博物館所蔵)

・最新のくずし字AI-OCRを搭載
 解読済みの古文書・古典籍から字形を採集し、くずし字の形をAIに学習させることにより、AI-OCRを生成した。「ふみのはゼミ」の画面上で、解読したい範囲を指定するだけで、AIが学習した大量の画像から、文字の区切り位置も含めて解読する。


くずし字AI-OCR導入のイメージ

・目視と自動処理の併用による精度向上
 目視による解読と、AI-OCRによる文字認識の協調作業により、高い精度での解読を実現します。初心者から上級者まで練度に応じた方法で使用できる。
 また、目視による入力・校正の結果をAI-OCRへ再学習させることで、AI-OCRの精度は向上していく。


目視と自動処理のダブルチェックイメージ

・オンライン辞書・事典サイト「ジャパンナレッジLib」と連携
 「ジャパンナレッジLib」が提供するオンライン辞書・辞典の検索APIと連携し、「ふみのはゼミ」からジャパンナレッジの辞書を検索することが可能。文字を読むだけではなく、用例や背景を調べることにより、内容の理解を促進する。また、調べた用語を画面内にメモとして記録するクリップ機能を搭載している。

「ジャパンナレッジLib」公式ホームページ
https://japanknowledge.com/library/
 ※ジャパンナレッジ連携サービスの利用には別途「ジャパンナレッジLib」の契約が必要。


「ジャパンナレッジLib」連携機能の検索結果イメージ

・既存のコンテンツとシステムの有効活用
 所蔵資料の画像をもとに、独自の学習コンテンツの作成が可能です。また、既存の地域資料を利用したワークショップや翻刻会等の開催が容易になり、貴重史料の保全・解読活動を活性化する。
 「ふみのはゼミ」はIIIF形式に対応しているため、IIIF形式で公開されている資料は、簡単な操作で解読を開始できる。

■ 「くずし字OCR」技術について
 OCR(Optical Character Recognition)とは光学文字認識のことで、文書画像に含まれる文字を読み取り、テキストデータに変換するソフトウェアの総称。凸版印刷では2013年からさまざまな文献に対して、高い精度のテキストデータを提供する「高精度全文テキスト化サービス」を展開している。このサービスで確立したテキストデータ化技術のシステム基盤を応用し、くずし字OCRの研究・開発を進めてきた。
 2015年にリリースした解読したテキストと原本画像を同時に表示できる「ふみのはビューア」は、早稲田大学演劇博物館をはじめ、多くの機関に導入されている。

■ 価格
【授業でのご利用】 10万円~/半期(教育機関に限定し、週1回のご利用を想定)
【ワークショップ・イベント等でのご利用】 20万円~/1回
【翻刻会等でのご利用】 7万円~/月額
 ※ご利用されるデータ容量や人数・利用形態によって価格は上下する。詳細は「ふみのは」の公式ホームページをご覧ください。
 ※お客が所蔵する資料から「ふみのはゼミ」で使用するデータを当社で作成する場合には、別途料金がかかる。
 ※講師やイベントスタッフの派遣、オペレーショントレーニング、機材貸与、イベントの企画等、には別途料金がかかる。
 ※料金は税別。

■ 今後の展開
 同サービスは教育機関、博物館・資料館、地方自治体などへ向け販売を開始し、2021年9月までに一般利用に向けての開発を進めるとともに、2023年までに関連事業を含め、約10億円の売上を目指す。
 また、凸版印刷は同サービスをはじめ、全国各地に眠る貴重な歴史的資料の研究・活用の支援に取り組んでいく。