究極のテレビへ、カウントダウン!技研公開2015 Science & Technology Research Laboratories 入場無料5/28(木)~5/31(日)午前10時~午後5時 会場 NHK放送技術研究所 〒157-8510 東京都世田谷区砧1-10-1

ENGLISH HOMEへ戻る
文字サイズ
展示項目

人にやさしい放送技術

22

字幕付与のための不明瞭な音声の認識技術

字幕放送の拡充に向けて

展示概要

聴覚に障害のある方など多くの方が放送を楽しめるように、音声認識を用いた字幕制作の研究開発を進めています。これまで、情報番組の認識には復唱者※1が必要でしたが、番組音声の直接認識を目指して、背景雑音抑制技術と不明瞭な発音の認識技術を開発しました。

特徴

●背景雑音抑制技術

BGMなどの雑音が混入した番組音声を精度よく認識するシステムを試作しました。さまざまなBGMや雑音を事前に学習し、雑音が混入した音から認識対象となる音声だけを精度良く推定して認識します。

●不明瞭な発音の認識技術

情報番組では出演者同士が会話することが多く、発音が不正確になりがちです。放送番組から自動収集した会話音声のうち、正しく発音されていない単語を正確な発音に対応づけることで、認識精度が向上しました。

今後の予定

これまで音声認識を利用して字幕を付与することが難しかった番組への適用に向けて、より精度の高い音声認識技術の開発に取り組んでいきます。

※1 復唱者:背景雑音の大きい環境で複数の出演者が自由に発話する情報番組やスポーツ中継などでは、番組の出演者とは別の話者が言い直した音声を認識して字幕を制作

※2 音響モデル:入力音声がどの母音・子音であるかを確率的に計算するモデル

明瞭性の低い音声を認識する技術
展示項目一覧へ戻る