2012年03月15日 (木)Siriに負けない?音声認識・字幕放送(2)


「自動音声認識技術」と言えば、今では、アメリカのIT企業「アップル」の携帯端末に導入されている「声で何らかの指示をすると、その音声を認識したうえで返事をして、指示に沿った情報処理をしてくれる機能」(これを"Siri"というそうです)が有名です。

ところが、NHKも、以前から自動音声認識の研究開発を着々と進めているのです。その自動音声認識を生かした新たなシステムが、きのうから、一部のニュースの「字幕放送」に正式に導入されました。

0315016.jpg字幕放送は、アナウンサーや出演者の話している内容(話しことば)を、主に耳の不自由な方に理解していただけるよう、逐次、文字にして出していくものです。テレビのリモコンに専用ボタンがあり、それを押して、見ることができます。
字幕放送の最新動向についてのブログでは、先日お伝えした1回目で、民間企業の取り組みをご紹介しましたが、2回目は、NHK自らの最新の取り組みをお伝えします。

0315011.jpg

では、早速、導入されたシステム(ハイブリッド方式の音声認識によるリアルタイム字幕制作システム)をご紹介します。

部屋には、大きな機械とタブレットのような入力画面やマイクがあり、複数の担当者がいます。実は、音声認識によるニュースの字幕放送は、以前、平成12年から18年まで行われていました。ただ、その際にお伝えしたのはアナウンサーが原稿を読む場面だけで、それ以外に、記者の解説などが入ると、その部分は、先日お伝えした高速入力方式で伝えるなど、限定的な運用でした。

0315015.jpg今回のハイブリッド方式は、インタビューなどの聞き取りにくい部分では、その場で「インタビュー音声を復唱する形で、専門の担当者がマイクに向かって明瞭にしゃべり、機械がそれを聞き取る」という方式も併せて取り入れられています(下がマイクの画像です)。
そのため、このシステム全体は、「番組音声の自動認識」+「人間の復唱音声の自動認識」=「ハイブリッド方式」と呼ばれています。

0315013.jpgこのシステムによる字幕放送の画面を見ても、誤字脱字はほとんど出ないようになっています。仮に機械(システム)がいったん誤った字を出しても、担当者(オペレーター)が即座に直します。例えば、「NHK放送センター」の最初の音をシステムが認識できず、「K放送センター」と文字が出力されても、担当者がニュースを聞き取っていますので、すぐさま「NH」の文字を追加して校正するのです。

ところで、肝心の音声認識のシステムですが、一体、どういう仕組みで文字に変えていくのでしょうか?

まず、最初に「間違った考え方」をご紹介します。私もこう思っていました。
<音声を聞き取る>
<どういう文字かコンピューターが考える>
<まず「かな」に変換する>
<次に「かな」を漢字に変換をしていく>
これを「ボトムアップ的な音声認識」というそうですが、これは違うそうです。

実際は、次のとおりです。
<あらかじめ単語が発音記号と組み合わせて辞書登録されている>
<音声を聞き取ると、その音を基にして登録単語から適切なものを絞り込む>
<ことばの組み立てから、前の単語につながりそうな単語の絞り込みを瞬時に繰り返して膨大な単語の組み合わせを検証する>
<最大確率の組み合わせを出力する>
上の方法は「トップダウン的な音声認識」というもので、この方式を取り入れているそうです。

だんだん難しくなりましたね・・・・・・。
では、この例で考えましょうか。
音=「オショクジケンデタイホ・・・」

音を聞き取った機械は、膨大な登録単語から瞬時に判断
(A)「汚職」+「事件」
(B)「お」+「食事」+「券」

そして、次に来る単語は、
(C)「で」+「逮捕」
(D)「出た」+「よ」(「いほ」ということばは、ほとんどないと判断)

これらを瞬く間に分析し、声の入力から0.5秒遅れ程度で、最も確率的に高い組み合わせとして、(A)+(C)、つまり「汚職事件で逮捕」と出るそうです

0315014.jpgこうした分析の土台となる単語のデータは、どの程度集められているのでしょうか。
システムを開発した、NHK放送技術研究所の今井亨 主任研究員によりますと、まず、音の特徴を照合するために「数百時間分の放送音声」の特徴を学習しているそうです。また、ことばの組み合わせは、NHKニュースの過去20年分の原稿のデータから確率的な計算をするそうです。特に、過去12時間に入ってきた最新のニュース単語は、比較的、重みを付けて分析されるということです。

この自動音声認識字幕システムは、きのうから平日午後4時の全国のニュースに導入され、今後、拡大を検討します。さらに、順次、全国の拠点放送局に整備されていく計画で、まずは、平成24年度中に大阪放送局の一部のニュースで導入できるよう準備を進めます。

不正確な発声や、意味の通りにくい会話、周囲の雑音など、自動音声認識には数多くの壁がありますが、着実に前進していくための取り組みが、NHK放送技術研究所の研究室や報道の第一線で続けられています。

投稿者:菅原史剛 | 投稿時間:06時00分

トラックバック

■この記事へのトラックバック一覧

※トラックバックはありません

コメント

※コメントはありません

コメントの投稿

ページの一番上へ▲