大日本印刷とNHKテクノロジーズ 映像をAIで解析し臨場感を伝える「感情表現字幕システム」を開発
2020年08月24日
大日本印刷(DNP,北島義斉社長)は、NHKテクノロジーズ(NT)と共同で、映像と音声をAI(人工知能)で解析し、内容や感情に合わせた最適なイメージのフォントで字幕を表示する「感情表現字幕システム」のプロトタイプを開発した。同システムは、2018年にDNPが開発した文章の内容に合うフォントを自動で判別して表示する「DNP感情表現フォントシステム」*1を活用している。これにより、耳の不自由な方や音が出せない環境でも、番組の臨場感を伝えることができる。


音声解析して言葉に適したフォントで字幕を自動生成


一般的な字幕



顔の表情を解析して感情に適したフォントを自動表示(同じセリフでも感情の違いをフォントで表現)
「不安」の感情、


「楽しい」の感情

【「感情表現字幕システム」開発の背景】
近年、多くの人にわかりやすく情報を伝える“ユニバーサルメディア”へのニーズが高まっており、テレビも聴覚に障がいのある方や高齢者などに向けて、より多くの番組への字幕付与が求められている。NTでは2018年度に「多様な視聴者が番組やコンテンツを楽しめる」をテーマに聴覚に障がいのある方とディスカッションを行い「これまでの字幕放送*2はフォントに抑揚が無い」、「タイミングがずれることがある」、「発話者がわかりにくい」といった課題があがる一方で、映像効果としてテロップに使われるユニークなフォントは印象深くなるという意見があがった。また、制作側では番組に字幕を入れる作業が大きな負荷になっており、自動的に精度の高い字幕を付与できる技術が求められていた。こうしたニーズを受けて、両社は「感情表現字幕システム」の共同開発にいたった。

【「感情表現字幕システム」の特長】
1.映像と音声をAIで解析して、字幕の自動付与と最適なフォントへの自動変換表示
録画やライブ(生放送)の音声を解析して、リアルタイムで字幕を自動的に付与する。その際、字幕の内容や発話者の表情を解析して感情を把握し、その感情の表現に最適なフォントを12種類の中から自動で選んで字幕に使用する。例えば、楽しい内容は丸みのあるフォントで、怒っている内容は角ばったフォントで表示することで、より直感的に内容を伝える。
2.映像内の人物の顔を認識して、発話者の口元の近くに字幕を自動的に表示
映像内の発話者を特定して、自動的にその口元の近くに字幕を表示することができる。これにより、複数の人物が登場する映像でも、誰が何を話しているかを直感的に伝えることができる。
■12種類の感情・イメージと使用フォントの組み合わせ例(感情の分類やフォントは手動で変更可能)


【今後の展開】
DNPとNTは、「感情表現字幕システム」の開発を継続し、字幕放送(オープンキャプション)*2での実用化を目指す。また、音声認識や感情認識のAIの精度を向上させるほか、リアルタイム性の向上も進め、生放送やインターネット同時配信サービスの字幕(クローズドキャプション)*2への展開も目指す。さらにDNPは、デジタルサイネージ等の動画の字幕に応用するほか、誰でも利用できる映像編集用ソフトウェアとして提供していく計画。
なお、両社は2020年9月2日(水)~8日(火)に渋谷ヒカリエおよびオンラインで開催される「超福祉展2020」(http://www.peopledesign.or.jp/fukushi/)で同システムを紹介する。

*1 DNP感情表現フォントシステムの詳細はこちら → https://www.dnp.co.jp/news/detail/1190234_1587.html
DNPは明治時代よりオリジナル書体「秀英体」の開発を続けて、表現豊かな文字コミュニケーションの基盤を提供している。「DNP感情表現フォントシステム」は、2006~2007年に慶應義塾大学・清木康(KIYOKI Yasushi)研究室とDNPが共同で推進した「書体の感性データベース」研究を基礎概念として発展させ、DNPが2018年に開発したもの。
*2 字幕放送には、視聴者側で表示のON/OFFを切り替えられる「クローズドキャプション」と、映像自体に字幕(テロップ)がついており、視聴者側で操作できない「オープンキャプション」の2種類がある。