■ISDBの高度化
生字幕のための音声認識システム
次世代データ放送サービス
デジタル符号化画質モニター
地上デジタル放送の放送波中継技術
地上デジタル放送ソフトウェア受信装置
ネットワークを利用した番組リクエストサービス
サーバー型放送サービス
TV4U (TV for You)
目や耳が不自由な方への放送サービス
誰もが使いやすいデジタル放送



生放送字幕のための音声認識システム
〜字幕放送の拡充を目指して〜

■■■
背景と目的



 耳の不自由な方やお年寄りの視聴を支援する放送サービスとして、字幕放送の拡充が求められています。NHKでは、生放送番組でリアルタイムに効率よく字幕を作成するための音声認識技術の研究を進めています。これまでのニュース番組に加えて、昨年暮れの紅白歌合戦や冬季オリンピックにおいても字幕放送を実施しました。これらの生放送字幕では、番組音声を聞きながら言い直した音声を認識する「リスピーク方式」による音声認識システムを使用しています。

■■■
特徴


 リスピーク方式の音声認識システムは、番組の音声をそのまま認識するのではなく、字幕キャスターと呼ばれる人が番組音声を聞きながら言い直し、それを音声認識します。本方式は、番組音声に背景雑音がある場合でも対応でき、省略や補完しながら言い直すことも可能なことから、認識性能と字幕の見やすさが向上します。
 音声認識システムは、単語の出現頻度を表す「言語モデル」と、声の特徴を表す「音響モデル」で構成されています。言語モデルは、過去の同じジャンルの番組音声や台本などをもとに作成し、音響モデルはそれぞれの字幕キャスターの声の特徴に合わせて作成します。
 紅白歌合戦と冬季オリンピックの字幕放送では、字幕表示の遅れ時間3秒以内というリアルタイムに近い表示を実現し、耳の不自由な視聴者の方々から好評を得ました。

■■■
今後の予定



 スポーツなどの様々な生放送番組への適用を目指して、認識性能向上のための研究を引き続き行っていく予定です。6月のワールドカップサッカーの試合の一部で、本システムを利用した字幕放送を実地します(総合テレビのみ)。


リスピーク方式音声認識システム

Copyright 2002 NHK (Japan Broadcasting Corporation) All rights reserved. 許可なく転載を禁じます。