ホーム 研究内容 ニュース 刊行物 アクセス

研究内容紹介

5.1 自動字幕生成技術

 字幕放送サービスは、聴覚障害者や高齢者にテレビ番組の音声を文字で伝えるという役割に加えて、一般の視聴者に対しても、騒音のある環境や公共の場など音声を再生できない環境で番組を視聴する際にも活用されている。また、視聴者からは生放送番組や地域放送局発の番組を含め、さらに多くの番組への字幕付与が求められている。字幕をリアルタイムに制作するために、音声認識技術を活用しているが、多くの地域放送局では、音声認識誤りを修正する人手や設備、体制の整備に時間を要する課題がある。そこで、字幕サービスの拡充に向けて、認識誤りの修正が施されない音声認識結果が、視聴者の番組理解をどの程度支援できるかを評価する目的で、認識した結果をそのままインターネット配信するサービスの試行に着手した。


ネット配信のための音声認識技術

 認識結果をそのままインターネット配信するサービスでは、より高い認識精度が求められる。このため、番組音声よりも認識の難易度が高い、取材音声の書き起こし用に開発した音声認識技術を適用した(1)。この技術では、ネットワークを介してストリーミングされる音声入力に対し、文末を待たずに高精度な認識結果が逐次得られる。この音声認識を用いて、地域放送局発の報道番組の認識精度を確認したところ、ニュース項目や中継・情報項目では90-97%程度の認識精度が得られることが分かった。
 一方、地域在住の方を対象としたインタビュー部分では、発声が不明瞭だったり、地域特有のアクセントや標準語と異なる言い回しがあったりするため、認識精度が著しく低下した。このような部分での認識結果は、認識を誤った単語により番組の内容理解が困難になる。また、報道番組のインタビューの多くでは、オープンキャプションが付与されているため、字幕による補足が不要である場合が多い。そこで、認識精度低下が予測される場合には音声認識を停止し、「。。。」を字幕として表示するなど、字幕提示の方法を工夫した。
 また、地域放送局発の番組で扱われる人名の表記は、音声認識の学習データとなっている東京発の番組で扱われる人名と同じとは限らず、正しい漢字を特定できない場合がある。そこで、人名はカタカナで表示することとした。
 NHKでは平日毎夕6時10分からの放送枠で、各地域放送局がそれぞれの地域番組を放送している。この試行サービスを全国展開するためには、地域放送局の数だけ音声認識設備が必要になり、整備・維持に大規模な設備投資と運用コストが必要になる。そこで、音声認識と配信設備をクラウド上に集約して効率的にシステムを構築した(図5-1)。2019年2月から、この試行サービスを静岡・熊本・福島の3つの放送局で開始した。



図5-1 システムの概要

 

〔参考文献〕
(1) 萩原,伊藤,小早川,三島,佐藤:“番組制作支援のための音声認識を用いた取材映像書き起こしシステム,” 情処学SLP研報,Vol.2018-SLP-124, No.5(2018)