8K SHV 概要 8K SHV  カメラ 8K SHV 圧縮 8K SHV 衛星放送 8K SHV 地上放送 8K SHV ケーブル伝送 8K SHV MMT
Hybridcast IP 立体 ホログラム立体 字幕技術 やさしい日本語 手話CG 話速変換技術
 聴覚障害者や高齢者などの番組視聴を支援するため、テレビの音声情報を文字で伝える字幕放送の充実を図っています。字幕を付ける方式には大きく2つあります。複数のオペレーターがキーボードで高速に入力する人手による方式と、コンピューターで音声を文字に変換する音声認識技術を利用した方式です。音声認識率の向上に伴い、後者の方式の利用拡大に期待が高まっています。
 音声認識率の向上のために、番組で扱われる話題に関係する単語や言い回しを認識できるように、番組ごとにカスタマイズしています。それでも、砕けた口調の対談などの発話スタイルや、背景雑音の影響で認識率を100%にするのは困難です。従って、この認識誤りをいかに人手で即座に修正するかが鍵になります。現在、番組のスタイルに応じて、リスピーク、ハイブリッド、セレクトという3つの方式を開発し、音声認識による字幕放送を実現しています。
 スポーツ中継や情報番組では、会場の騒音レベルが高く、出演者の発話スタイルもさまざまなため、番組音声を直接認識しても精度良く認識できません。例えば、スポーツ中継における得点シーンでは高揚感を伝える口調は音声認識の対象としては非常に大きいハードルです。
 このような番組にはリスピーク方式を活用しています。リスピーク方式とは、静かな別スタジオにいる字幕専用のキャスターがヘッドホンで番組音声を聞きながら、音声認識のために番組の言葉を復唱します。認識しやすいように丁寧に発声することで、高い認識率が得られるのです。

 毎正時に放送している短いニュース番組やローカルニュース番組を字幕化するためには、より運用コストの低い方式が求められます。アナウンサーによる原稿読み上げ部分だけでなく、現場からの記者リポートやアナウンサーと記者との対談の一部でも、実用的な認識結果が得られようになりました。
 番組音声を直接認識することを基本とし、インタビューなどの認識が難しい部分に修正者によるリスピークを併用するのがハイブリッド方式です。この方式では、同音異義語や修正履歴などの修正候補が修正しようとしている単語に応じて適応的にリストアップされるため、効率良く誤りを修正できます。このハイブリッド方式は、大阪、名古屋、福岡、仙台といった拠点の放送局に導入されました。

 今後、地域放送局のローカル番組に字幕を拡充するためには、修正者不要のシステムが望まれます。それがセレクト方式です。ニュース番組の読み原稿などから、字幕用のテキストを事前に用意し、番組音声を認識した結果とテキストを比較して、どのテキストのどの部分が発声されているかを直ちに推定して、そのテキストを字幕として送出します。
 より多くの方に、より多くの番組で字幕サービスを享受していただくため、音声認識精度の改善に向けて研究開発を進めていきます。

【 番組音声を復唱する字幕専用
キャスター(リスピーク方式) 】
【 認識誤り修正端末 】 【 修正画面の例 】
TOPへもどる