凸版印刷 江戸期以前のくずし字が80%以上の精度でOCR処理可能に
2015年07月06日
 凸版印刷(東京都千代田区、金子眞吾社長)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発した。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定。

 同技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にする。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供している。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現した。
 
 同技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証した。原理検証実験を行う上で、凸版印刷は、大学共同利用機関法人人間文化研究機構国文学研究資料館(東京都立川市、今西祐一郎館長)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けている。

■ 同技術の特長
・テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能
・専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能
・テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能