凸版印刷 アクセスできるWebビューア「ふみのは」を開発、提供開始
2017年04月25日
 凸版印刷(東京都千代田区、金子眞吾社長)は、江戸期以前のくずし字で記されている古典籍の文字を判別し、テキストデータに変換する光学文字認識(OCR)技術を2015年に確立。大学や研究機関と共同で実証実験を行っている。
 このたび、くずし字で書かれた歴史的資料の利活用を促進するビューア「ふみのは」を開発。2017年5月から、同ビューアを用いた公開用データ制作サービスの提供を開始する。

 同ビューアは、一般的なWebブラウザで、歴史的資料の原本画像の上に翻刻や多言語翻訳文を重ねて表示することが可能。従来の原本画像と翻刻文の画像を重ねて表示する方法とは異なり、翻刻文をテキストとして扱えるため、全文検索やインターネット上の横断検索などにも対応している。同ビューアの開発によって、くずし字で書かれた歴史的資料がテキストデータとして容易に扱えるようになり、全国各地に眠る貴重な歴史的資料の利活用推進が可能になった。
また、観光立国の実現に向け凸版印刷が従来提供する、訪日外国人の旅の質と利便性向上を目指す「旅道」(たびどう)プロジェクトの活動とも連携し、地方創生に向けた観光地域づくりやインバウンドビジネスなどへの活用にも取り組んでいく。

 なお同ビューアは、早稲田大学坪内博士記念博物館(東京都新宿区、岡室美奈子館長)の演劇映像学連携研究拠点「特色ある共同研究拠点の整備の推進事業(演劇映像学連携研究拠点)機能強化支援」の一環として2017年4月25日に公開される字形データセットの公開手法として採用された。今後、くずし字判読技術の習得補助や翻刻作業効率化の研究に活用される予定。

 近年、大規模災害による資料アーカイブの重要性の見直しや専門家の減少、資料の経年劣化による文化継承の危機的状況などから、歴史的資料のデジタルデータとしての保存が求められている。
 凸版印刷が2015年に開発したくずし字OCR技術は、これらのニーズを解決する新たな手法として、大学共同利用機関法人 人間文化研究機構国文学研究資料館(東京都立川市、ロバート キャンベル館長)の古典籍共同研究事業センターとの共同研究により実証実験を重ねてきた。一方、貴重な歴史的資料の翻刻や現代語訳を利活用するための手法の確立が求められていた。
 今回、同ビューアを開発したことにより、日本人に限らず、誰でも容易にくずし字で書かれた歴史的資料が読める環境を実現した。

■ 「ふみのは」の特長
・原本と翻刻文などの対比が容易
ビューア上で原本画像と翻刻文を重ね合わせて表示できるため、原本の持っている味わいを損なうことなく、くずし字で記された文字を読み進めることができる。また、現代語訳や外国語訳などを切り替えて表示することも可能。
・テキスト検索や翻刻文のコピー&ペーストが可能
翻刻文や現代語訳はテキストデータのため、インターネットからのテキスト検索や、Webブラウザからコピー&ペーストなどの活用が可能。
・閲覧に専用のアプリケーションが不要
表示データがHTML形式のため、Webブラウザさえあれば、どこでも表示が可能。
・手軽な公開が可能
HTMLやCSSなどの標準的なWeb技術のみで構成されているため、配信のための専用システムや維持管理コストが不要。ビューア用のデータ制作後、迅速な公開が可能。
・他の歴史的資料の翻刻効率化
ビューア用データ制作時に採取されるくずし字の字形データセットをくずし字OCRで活用することにより、同系統の字形で書かれた歴史的資料の翻刻作業効率化が可能。

■ 価格
原本画像およびテキストから、ビューア用のデータ生成: 2,000円/頁~
(※原本のスキャニング、目視またはくずし字OCRよる翻刻、現代語訳、Webサー
バー構築費用等は別途)

■ 今後の展開
 凸版印刷は本取り組みを起点に、全国各地に眠る貴重な歴史的資料の観光資源化や訪日外国人周遊促進など、地方創生に向けた観光地域づくりに取り組んでいく。
 今後、資料の撮影やOCRなど高精度全文テキスト化サービス事業を推進、2019年度に約10億円の売上を目指す。