ホーム 研究内容 ニュース 刊行物 アクセス

研究内容紹介

5.2 音声認識技術

 取材した大量の映像素材から番組を制作するためには、映像素材中の音声を書き起こして、素材の内容を明確にする作業が不可欠である。正確な番組を迅速に視聴者に届けるため、取材映像の書き起こしを素早く制作する支援システムの研究を進めている。2017年度は、音声認識を使った書き起こし制作システムの実現に向けて、音声認識の高精度化とインターフェースの開発を進め、実証実験を開始した。


取材映像を書き起こす音声認識

 書き起こしを要する取材映像の話者は、発話の明瞭度などにばらつきがあり、スタジオに比べて音声の収録条件も悪いため、認識率が低下する。そのため従来の生放送番組を対象とした音声認識よりも難度は高い。技研では、迅速性が要求される記者会見と、比較的良好な環境で収録されるインタビューを対象として、書き起こし支援システムの開発に着手した。
 対象となる話者は、辞書にある音素列どおりに発声しない場合が多く、従来の発音辞書を用いる音声認識では認識精度の改善に限界がある。そこで、DNNを導入して、入力音声に文字を直接対応させるEnd-to-end音声認識の認識精度の改善を図った。一般に、音声認識処理では学習データ中の出現頻度が著しく低い文字の音響的な特徴を学習することが難しい。2017年度は、音響的特徴の学習が困難になる文字を複数集めて1つのクラスとして学習し、文字や単語のつながりやすさなどの手がかりで元の文字に復元する手法を提案し、認識精度を改善した(1)(2)。また、取材映像では話題が多岐にわたり、話題を特定することが困難なため、多様で複合的な話題を200次元の数値ベクトルで表現し、単語と単語のつながりやすさを与える言語モデルの精度を向上させた(3)
 また、音声認識結果を映像・音声とともに効率よく参照できて必要に応じて最小限の操作で認識誤りを修正可能なインターフェースを開発した(4)。インターフェースはWebアプリとして提供され、利用者はソフトのインストール無しに自席のPCなどで入力動画ファイルに対する音声認識結果を確認できる(図5-3)。記者会見などでは、取材映像の全ての発話を一字一句書き起こす必要はないため、映像の変換点や無音区間を手がかりに自動で動画を項目に分割するとともに、項目ごとにキーワードを与えて必要な項目を効率よく参照できるようにした。認識結果の単語は動画の再生とともにハイライト表示され、音声と認識された文字を対応させて参照できる。さらに、動画の再生や停止をテキストの編集作業と連動させたことにより、再生・停止や再生位置の変更などの煩わしい操作を不要にした。このインターフェースにより、認識誤りの修正に要する時間を3割削減することが可能となった。
 このシステムの有効性を確認するため、報道現場にシステムを公開して評価実験を開始した(5)



図5-3 書き起こしインターフェース

字幕制作システムへのDNN音声認識の導入

 字幕制作の効率化と拡充の要望を受け、字幕制作に用いられる音声認識にDNNを導入するための開発を進めた。最新の言語モデルは規模が大きく、短時間に最新のニュース記事を取り込むことが困難なため、複数の単語ネットワーク(言語モデル)を連結して認識するアルゴリズムを開発した。認識アルゴリズムは、DNN計算部と探索部を並列化して高速化した。また、認識単語を逐次出力するアルゴリズムを新方式用に最適化して、認識誤りを迅速に修正できるようにした。引き続き、これらの技術と既存設備が連携するインターフェースを開発し、字幕制作に用いられる音声認識システムの高度化を進めていく。

 

〔参考文献〕
(1) H. Ito, A. Hagiwara, M. Ichiki, T. Mishima, S. Sato, and A. Kobayashi:“End-to-end Speech Recognition for Languages with Ideographic Characters,” APSIPA ASC, Paper ID 118(2017)
(2) 伊藤,萩原,一木,三島,佐藤,小林:“クラスラベルを用いたEnd-to-end音声認識,” 音響学会秋季講演論文集,1-R-12, pp.79-82(2017)
(3) 萩原,伊藤,一木,三島,佐藤,小林:“分散表現を用いたドメイン推定言語モデルの検討,” 音響学会秋季講演論文集,2-Q-4, pp.133-134(2017)
(4) 三島,一木,萩原,伊藤,佐藤,小林:“取材映像の書き起こしインターフェースの開発,” 映情学年次大,23D-3(2017)
(5) 三島,一木,萩原,伊藤,佐藤,小林:“音声認識技術による書き起こしインターフェースの検証実験,” 映情学冬季大,12C-6(2017)