No.161 2017年1月発行

音声処理技術 特集号

※PDFで公開しています。

巻頭言

  • 放送・教育・福祉などの公共サービスを支援する音声処理技術の進展
    東京大学大学院 工学系研究科 教授 峯松信明
    PDF

解説

  • 音声認識技術の動向と字幕制作システムの地域局展開
    佐藤 庄衛
    PDF ↓概要

    概要
    「人にやさしい放送」は障害者や高齢者を含むすべての人が好みの手段で楽しむことができる放送であり,字幕放送はその一端を支える放送サービスである。NHKでは,この字幕放送を拡充するために,放送音声を自動認識する技術の研究開発を進めている。近年,音声認識技術は,深層学習の導入により,明瞭性の低い音声を含む情報番組の音声の認識も可能となってきた。本稿では,このような音声認識の進展をもたらした技術を解説するとともに,地域局発の番組に字幕を付与するために必要とされている技術についても解説する。
  • 音声合成技術の動向と放送・通信分野における応用展開
    清山 信正
    PDF ↓概要

    概要
    最近,機械による合成音声を耳にする機会が増えてきた。電話の自動応答,公共交通機関や自治体のアナウンス,パソコンやスマートフォン上のアプリによる情報の読み上げなど,音声合成は多様な分野に導入されている。本稿では,テキストとその発話を大規模に集めてデータベース化した「音声コーパス」を利用して,汎用的に任意のテキストを音声に変換する音声合成方式を中心に技術の動向を概説するとともに,NHKが取り組んでいる「効率的な番組制作」や「人にやさしい放送技術」を目的とした音声合成技術の開発と,放送・通信分野における音声合成技術の応用展開について紹介する。

報告

  • 災害報道字幕制作のための音声認識
    三島 剛 奥 貴裕 一木 麻乃 伊藤 均 萩原 愛子 小林 彰夫 佐藤 庄衛
    PDF ↓概要

    概要
    音声認識によるニュース字幕制作では,最新のニュース原稿を逐次学習して字幕制作で必要とされる高い認識率を確保している。しかし災害直後の報道では,事前に学習可能な原稿がほとんど存在しないため,認識精度が低下するという問題があった。この問題に対処するために,放送中の字幕や災害報道番組を認識した結果から,災害に関連する情報を取得して,言語モデルを学習可能にするシステムを開発した。東日本大震災時のデータで開発システムの有効性を検証したところ,認識率の向上が認められた。本システムは2016年2月からNHKのニュース現場に導入され,2016年4月に発生した熊本地震の災害報道の際にも有効性が確認された。
  • 高齢者に聞きやすい番組背景音レベル調整装置
    小森 智康 今井 篤 清山 信正 田高 礼子 都木 徹
    PDF ↓概要

    概要
    高齢者は,放送番組において音楽や効果音などの背景音が原因で,ナレーションやセリフなどの音声(以下,ダイアログ)を聞きづらく感じることがある。このような状況を軽減するために,家庭の受信機でダイアログと背景音のレベルを個別に自由に調整できる装置を試作した。この装置は,ダイアログと背景音が混在する区間で背景音のレベルを小さくし,ダイアログを聞きやすくすることができる。また,背景音だけの区間では背景音のレベルを小さくし,番組音声のうるささを軽減できる。試作装置を用いて主観評価実験を行い,背景音の大きな番組では,ダイアログと背景音が混在する区間で高齢者は若年者より背景音を約2dB小さく調整してダイアログを聞きやすくすること,また,背景音だけの区間では背景音を約5dB小さく調整して番組音声のうるささを軽減することを示した。

研究所の動き

  • 3次元構造撮像デバイスの研究 PDF

  • 8Kスーパーハイビジョンカメラによるハイダイナミックレンジ撮影技術 PDF

発明と考案

  • 2016年9月~2016年10月 PDF

論文紹介

  • 論文紹介 PDF

  • 研究会・年次大会等発表一覧 PDF