生放送番組における自動字幕制作の最新動向

小森 智康

生放送番組における字幕制作においては,人が音声を聞きながら入力する方式や,音声認識の結果を人手で修正する半自動の方式などが採用されている。その一方で,近年のAI(Artificial Intelligence)技術の進展による音声認識技術の性能向上に伴い,認識結果をそのまま字幕としてネットワーク配信する方式も検討されている。本稿では,これらの方式の特徴を概説し,NHKおよび民放における最新の字幕制作の動向を解説する。

1.まえがき

字幕放送サービスを受信するためには,アナログ放送の時代には特別な字幕デコーダーを必要としていたが,2000年のデジタル放送開始以来,字幕デコーダーの機能を内蔵したテレビ受信機が市販されるようになり,視聴者が字幕放送サービスを受信する機会が増えた。そのため,音声の聞き取りが難しい聴覚障害者や高齢者に加えて,一般の視聴者も,騒音のある環境などで字幕放送サービスを利用するようになった。

本稿では,主に「クローズドキャプション」と呼ばれる字幕について述べる。クローズドキャプションは,放送波とともにデータとして送られ,視聴者が必要に応じて表示/非表示を選択できる字幕であり,番組内で話される音声のすべてを文字で表示することができる。一方,番組映像に最初からスーパーインポーズ(重畳)される字幕を「オープンキャプション」と呼ぶ。

総務省が平成19年に定めた「視聴覚障害者向け放送普及及び行政の指針」では,字幕放送,解説放送,手話放送の普及目標が掲げられた。NHKおよび民放は,この目標を目指して,より多くの視聴者に情報を届けるために,できるだけ多くの番組に字幕を付与するように努めてきた。

事前に字幕を制作できる収録番組の字幕と比べると,生放送番組の字幕は即時に制作する必要がある。そのため,NHKおよび民放のニュースなどの生放送番組では,多人数でキーボード入力する方法に加えて,音声認識技術を使って文字を自動生成し,認識誤りを人手で修正する方法を用いて字幕を放送している1)

その後,障害者の権利に関する条約,障害者基本法,障害を理由とする差別の解消の推進に関する法律などが制定され,このような外部動向に鑑みて,2018年2月に「放送分野における情報アクセシビリティに関する指針」2)が総務省で策定され,地域の情報発信を担う県域局に対しても字幕放送に関する目標が与えられた。この目標に対して,従来の方法(多人数でキーボード入力する方法や,音声認識により自動生成された文字を人手で修正する方法)を用いることについては,県域局では,入力するオペレーターの確保,人的コストや設備整備の点で,極めて難しいことが指摘されている3)

一方,ここ数年で深層学習(DNN:Deep Neural Network)*1などのAI技術の研究が加速したことで,音声認識の性能も向上してきており,民放・NHKともにこの技術を字幕制作に生かすための開発を開始している4)5)

本稿では,2章で,世界各国で進められた人手により字幕を付与する方式について紹介するとともに,日本の字幕サービスの拡充を目的として世界に先駆けて開発された,音声認識を用いて生放送のニュース番組に字幕を付与する方式について述べる。また,NHKの生放送番組の字幕を拡充するための音声認識技術と字幕制作技術について解説する。3章では,AI技術の発展に伴って認識精度が向上した音声認識の結果を,人手による修正を介さず字幕として付与する試みについて述べる。そして,このAI技術を利用した民放・NHKの新しい字幕システムの開発動向について解説する。最後に,4章で今後の展望と課題についてまとめる。

2.生放送番組に字幕を付与する方式

生放送番組に字幕を付与する方式としては,人手で字幕を付ける方式や,音声認識を用いる方式など,次の6つの字幕付与方式が運用あるいは試用されている。

  1. パソコンなどに用いられている一般的なキーボードを利用する「リレー方式」。この方式は,複数の入力者が交替しながら,短い発話単位の文字を,リレーのバトンを渡すのと同様に次々と入力する(1図)。
  2. 複数のキーを同時に押下する特殊なキーボードを利用する「高速キーボード方式」。入力者と校正者のペアが数組で,短い発話単位をリレー方式で入力する。
  3. 音声認識しやすいように,字幕制作専用の話者(字幕キャスター)が番組音声を復唱し,その音声を認識する「リスピーク方式」(2図)。音声認識の誤りはオペレーターが修正する。
  4. アナウンサーの発話など,高い認識精度が見込まれる部分では番組音声を直接認識し,それ以外の部分ではリスピーク方式を用いる方式(直接認識とリスピークの併用方式)。音声認識の誤りはオペレーターが修正する(3図)。
  5. 番組音声を認識した結果と,番組を制作するために用意された原稿を比較して,原稿の読まれている部分を推定して,原稿を字幕とする方式(字幕原稿推定方式)。
  6. 番組音声を音声認識した結果をそのまま字幕とする方式。

(a)(b)については2.1節で,(c)~(e)については2.2節で解説する。2.3節では,これらの手法を利用した,緊急時の生放送番組に字幕を付与する技術について解説する。また,AI技術を採用することで,この数年で実現性を高めてきた(f)については,3章で解説する。

1図 一般的なキーボードを用いたリレー方式
2図 番組の音声を復唱する字幕キャスター
3図 音声認識の誤りを修正するオペレーター

2.1 人手により字幕を付与する方式

生放送のテレビ番組に字幕を付与する初期の試みとして,BBC(British Broadcasting Corporation)によるプロトタイプのテレテキストサービス(Ceefax)6)が1974年に提供された。このサービスでは,ステノタイプと呼ばれる速記用のマシンを使用して,オペレーターが字幕を書き起こし,テキストを画面上に表示した。

英国では,生放送の字幕に関する行政の働きかけもあり,1997年以降,生放送番組への字幕付与が進んでいる。その理由として,後述のアメリカと同様に使用言語が英語であることから,1名のオペレーターで字幕を書き起こせたことが挙げられる。アメリカでは,1990年代に,13インチ以上のテレビには字幕デコーダーを内蔵することが法律化され,ステノタイプ入力による生放送番組への字幕付与が普及した7)

わが国の字幕放送は,1983年のNHK連続テレビ小説「おしん」における実験放送,1985年の本放送実施以降,事前収録番組へ字幕を付与することで普及してきた。しかし,生放送への字幕付与については,日本語では同音異義語が多く,仮名漢字変換を必要とすることから,一般的なパソコンを使って1名のオペレーターが人の話す速さで文字入力することは困難であった。この問題に対して,日本国内では,複数人数のオペレーターによる,いわゆる人海戦術として,

  1. 一般的なキーボードを利用する方式(リレー方式)
  2. ステノタイプと同様な特殊な高速キーボードを利用する方式(高速キーボード方式)
の2つの方式が開発された。人手による字幕制作としては,この2つの方式により,2000年ごろから多くの生放送番組に字幕が付与されている7)

2.2 音声認識により半自動で字幕を付与する方式

NHKでは,字幕放送を拡充するための技術として音声認識技術の研究開発を進め,2000年には世界に先駆けて,音声認識を用いて生放送のニュース番組に字幕を付与した。その後,さまざまな生放送番組の字幕を拡充するために,音声認識技術と字幕制作技術の開発を進め,現時点では,NHKで音声認識を使用して字幕を制作する場合,8割が(c)のリスピーク方式による字幕であり,2割が(d)の直接認識とリスピークの併用方式である。(e)の字幕原稿推定方式は,地域の拠点となる放送局の一部において運用されている。また,一部の民放においても,(c)~(e)を使った字幕付与方式が採用されている。さらに,人手による字幕を主体としていたアメリカにおいても,リスピーク方式のサービス例などが報告されている8)

現在,生放送番組で使用される音声認識技術においては,「音響モデル」および「言語モデル」と呼ばれる統計モデルを用いた確率統計的手法が用いられている。音響モデルは,日本語の母音や子音などの音素で観測される音響信号を学習する統計モデルである。また言語モデルは,日本語文章中での単語と単語のつながりやすさを評価し,入力音声信号に対応づけられた単語列の文章らしさを評価する統計モデルである。音響モデルと言語モデルを精度よく学習することにより,連続発声された文章を精度よく認識することができる。

ただし,100%の精度で音声を認識することは困難なため,音声認識の誤りを修正する手段が必要になる。認識誤りをオペレーターが修正するシステムを想定した場合,音声認識の精度は,オペレーターが修正可能な精度以上であることが求められる。例えば,ニュース番組の場合,アナウンサーは平均40単語から成るニュース文を平均12秒で読み上げるため,単語の認識精度が95%である場合,オペレーターは6秒に1単語の認識誤りを修正する必要がある。仮に,認識精度が90%に低下すると,オペレーターは3秒に1単語の認識誤りを修正することになり,生放送番組における字幕制作システムの運用は難しくなる。このような前提に基づいて,音声認識を用いた字幕制作においては,番組の特徴に応じて各種の方式が使い分けられている。

以下,本節では,音声認識を用いたNHKで運用中の字幕制作システムの特徴を述べる。

(1)リスピークによる発話を音声認識する方式

この方式は,情報番組やスポーツ中継の字幕制作に用いられている。これらの番組では,多様な話者が自由に発話するため,明瞭性が低い発話部分が多く,番組音声を直接認識しても十分な認識精度が得られない。スポーツ中継の例では,アナウンサーによる感嘆の声や,得点シーンで興奮した口調になる部分などで認識精度が低下する。さらに,会場の騒音などによる背景雑音によっても認識精度が低下する。

リスピーク方式では,静かなスタジオにいる字幕専用のキャスターが番組音声を聞いて,それを音声認識しやすいように復唱した音声を認識する。復唱することにより上記の課題を避けて,認識精度の低下を抑制することができる9)

復唱した音声の認識結果はオペレーターにより確認され,認識誤りを即座に修正することで字幕が制作される。認識誤り修正用のインターフェースでは,認識結果が逐次表示され,オペレーターは認識誤りが発生した単語をタッチパネルで選択して,キーボード入力により容易に修正できる。このリスピーク方式のシステムでは,復唱と認識誤りの修正に時間がかかるため,結果として,番組音声から5~10秒程度遅れて字幕が表示されることになる。

リスピークの際の復唱は,原則として,番組音声をそのまま復唱することが基本であるが,実運用では,字幕制作にかかる遅れを考慮して復唱する言葉を選んでいる。具体的には,スポーツ中継の場合には,字幕の表示遅れにより,画面に映し出される選手のプレーと字幕の内容に不一致があると,競技の進行を理解することが難しくなるため,映像を見て分かることについては復唱を省く,あるいは,プレーを簡潔にまとめて言い換える*2ことにより,字幕の表示遅れがあっても字幕番組を楽しめるように工夫している。さらに,拍手や歓声などの競技場の音の様子を言葉で補足するなど,字幕ならではの演出もしている。

一方,情報番組では,複数の話者による発話がかぶってしまうこともある。そうした場合,リスピークする字幕キャスターは,それぞれの話者の発話を整理することで,字幕が分かりやすくなるように工夫をしている。

リスピーク方式の音声認識には,番組の種類ごとに,認識対象となる単語や,それらの単語と単語のつながりやすさを与える言語モデルが用いられている。スポーツ番組では,競技ごとに適応化した言語モデルを用意して認識精度を高めている。一方,情報番組では,放送回やコーナーごとに異なる幅広い話題を提供しているため,認識に必要な単語や言い回しが毎回異なる。そのため,字幕制作者は,放送前に入手可能な情報を元に,必要な単語や言い回しをカバーしたテキストを用意して,毎回このテキストから言語モデルを学習して音声認識に用いている。情報番組の言語モデルの学習に使われる代表的な情報として,番組構成表がある。番組構成表は,番組の大まかな流れが記載された表であり,字幕制作者は,この表と予定されている番組出演者から,出演者が取り上げそうな話題に関するテキストを集める。さらに,番組のリハーサル時の出演者の発言を書き起こして,言語モデルを学習するためのテキストを用意する。字幕キャスターも,リハーサル時にリスピークを試して,認識が難しい単語や言い回し,認識しやすい言い換え方法を確認するなどの準備をして,字幕制作の本番に臨んでいる。

リスピーク方式は,多くの番組に字幕を付与できるが,字幕制作者の事前準備やスキルのある字幕キャスターの確保が課題となっており,コストをかけられる番組で利用されている。

(2)直接認識とリスピークの併用方式

毎日決まった時間に放送している短いニュース番組や,地域放送局発のニュース番組では,字幕制作の運用コストをより低廉にする必要がある。NHKの開発した音声認識技術は,アナウンサーの原稿読み上げや記者リポートでは,番組音声を直接認識した場合でも高い認識精度を確保できる。しかし,一般話者へのインタビューなど,現状では認識の難しい発話部分も含まれている。そこで,番組音声を直接認識する方法と,認識が困難な部分は修正オペレーターがリスピークする方法を併用する方式を採用している10)3図)。

直接認識とリスピークの併用方式は,主にニュース番組で利用されており,認識精度を確保するために,記者が入稿する記事のデータベースを使って,音声認識用の言語モデルを更新する。これにより,最新のニュースを認識するために必要な固有名詞や人名を自動で学習させることができる。また,放送中に入稿される原稿も学習して利用できるように,字幕制作システムを稼働させながら,新しい言語モデルに切り替える仕組みも備えている。さらに認識誤り修正用のインターフェースでは,入稿された原稿を参照して原稿内の単語も字幕として活用できるようになっている(4図)。このとき,誤り単語の同音異義語が右側の枠内に,修正履歴が左上の枠内に適応的に提示されるようになっており,タッチパネルで選択することで効率良く修正することができる。また,音声認識の難易度に応じて修正者を増減できるように構築しており,例えば地方放送局の番組での特別なコーナーなど,認識の難しい部分は修正者を増やして対応することもできる。さらに,事前収録した素材を放送する場合などでは,事前に用意した原稿を番組の進行に合わせて手動で送出することもできる。

併用方式は,明瞭性が低くて音声認識が難しくなる部分についてはリスピークを使う方式であるが,明瞭性が低い発話部分については,番組演出の判断によりオープンキャプションが付与されることが多く,実際の番組では直接認識のみで対応できるケースが多いため,極めて実用的なシステムとなっている。この併用方式による字幕制作システムは,東京のほか,大阪,名古屋,福岡,仙台といった地域の拠点となる放送局に導入され,比較的規模の大きな地域局発のニュースに字幕を付与できるようになった。

以上で述べた直接認識とリスピークの併用方式や,リスピーク方式では,修正作業を担当するオペレーターには,ある程度の経験やスキルが必要となることから,字幕の付与率を向上させようとした場合,修正するオペレーターの確保が課題となる。

4図 ニュース用認識誤り修正用インターフェース

(3)音声認識による字幕原稿推定方式

ニュース番組においては,事前に読み原稿が用意されていることが多いが,東京発のニュースでは,放送直前や放送中に原稿が修正される場合が多いため,字幕は音声認識結果を修正する方式で送出している。一方,地域局発のニュースでは,直前や放送中の原稿の修正は少ないことから,(e)の字幕原稿推定方式を用いて,ニュース原稿の字幕送出システムを開発した11)。このシステムでは,番組音声の認識結果から原稿中の発話されている部分を推定し,原稿の対応している部分を字幕として送出する。

字幕原稿推定方式の概要を5図に示す。地域局発のニュース番組に字幕を付与する場合,次の条件のもとで原稿を推定する。

  • (ⅰ) 読み原稿がどの順番で読まれるかは事前に特定できない。
  • (ⅱ) 放送音声は,読み原稿に基づいているものの読み飛ばしや言い換えがある。
  • (ⅲ) 読み原稿が用意されていない音声もあるが,この部分に間違った字幕を付与しない。
  • (ⅳ) ニュース番組の場合,音声認識結果には,5%程度の単語に認識誤りがある。
  • (ⅴ) 放送中に字幕制作システムを停止することなく送出する原稿を修正できる。

ニュース項目のリストと原稿は,各地域局の記者が入力する原稿のデータベースから参照できる。ニュース項目の順番は,番組放送前に仮確定されているが,条件(ⅰ)のように,時事の推移に応じて放送中でも変更される場合がある。また条件(ⅱ)として,原稿は読みやすいように修正されたり,番組時間内に読み終えられるように読み飛ばされたり,言い換えられたりする。5図の例では,「気象庁によりますと」と「先月」が,それぞれ読み飛ばされた部分と言い換えられた部分である。条件(ⅲ)としては,事前に収録されたインタビュー映像を再生する部分などでは,対応する原稿が無い場合がある。図の例では「雨が降ればうれしい」が原稿の無い部分である。そして条件(ⅳ)は,図の「更新地方」が音声認識の誤りの例である。これらの条件(ⅰ)~ (ⅳ)を満たすように,誤りも含まれる音声認識の結果から対応する原稿を特定することは容易ではない。そこで,認識結果の単語列から原稿の読み上げられた部分を正確に推定できる「重み付き有限状態トランスデューサ」(WFST:Weighted Finite-State Transducer)と呼ばれる仕組みを利用することで,どの原稿がどの順番で読まれたかを推定した。さらに条件(ⅴ)として,送出する原稿を最新の情報に保つために,送出用の原稿を随時修正できるシステムとした。

これらの条件を満たすことで,災害時の被災者数など,放送中にも新たな情報が入ってくる項目は,読み上げる時点の情報に更新して字幕を送出できるようになる。

この字幕原稿推定方式における字幕の表示遅れを軽減するために,原稿文をすべて読み終える前に,精度よく出力字幕文を確定できるアルゴリズムを開発した。このアルゴリズムで作られる字幕は,ニュース原稿の読み始めは対応する字幕の表示が遅れるが,文の読み終わりの頃には字幕表示が読み上げ音声に追いつくため,字幕表示遅れに対する視聴者からの不満を軽減することができる。

このシステムは,札幌,松山,広島といった地域の拠点となる放送局に導入されている。前項の直接認識とリスピークの併用方式と合わせて,NHKの国内の全拠点放送局発のニュース番組に字幕を付与できる体制を整えている。

5図 字幕原稿推定方式の概要

2.3 緊急時の放送番組に字幕を付与する方式

2011年の東日本大震災以降,緊急時の放送番組に字幕を付与することの重要性が高まっている。緊急時に人手で長時間字幕を付与することは,人手による字幕制作のアウトソーシングが進んでいることもあり,人的リソースを確保するためのコストが課題となる。また,緊急報道が長時間に及ぶケースでは,オペレーターの疲労という面からも,人手による字幕制作は困難であることが明らかになった。

東日本大震災を受けて,平成24年の「視聴覚障害者向け放送普及及び行政の指針」の見直しでは,「大規模災害時緊急放送時については,できる限りすべての番組に字幕を付与する。」「災害発生後速やかな対応ができるように字幕を付与する。」の2項目が新たな目標として加わった。東日本大震災時,NHKでは高速キーボードを使った方式で可能な限り字幕を付与したが,災害報道が長期にわたったことで,特殊技能を有するオペレーターの確保が難しくなり,字幕を付与できない期間が生じた。このような状況でも音声認識を用いた方式で字幕を付与できるようにするため,刻一刻と変わる災害報道のアナウンサーや記者の発話を認識するための「言語モデル更新手法」を新たに開発した。

6図は,東日本大震災の発災から23:00までの災害報道における,アナウンサーによる発話の単語誤認識率のシミュレーション結果を示している。「適応なし」の赤線は,言語モデルを更新しない場合を示す。また,「オンライン原稿」の青線は,ニュース原稿のみから言語モデルを更新して学習した場合を示す。災害直後には,ニュース原稿のデータベースの中には災害情報はほとんど含まれておらず,最新の情報は,放送されている音声そのものの中に含まれている。その情報を繰り返し伝えるのが災害報道の特徴である。そこで,災害報道の音声を認識した結果や,高速キーボードで制作された字幕を,言語モデルの学習データとして利用できるようにした12)13)。その場合の誤認識率は,6図の「+認識結果」および「+速記字幕」のようになる。さらに,誤り修正の情報を学習データに加えることにより,「+誤り修正」の線で示すように,発災後1時間程度(6図の16:00ごろ)で認識誤りを5.7%まで改善できる見込みを得た。この精度は,システムが目標とする認識精度95%には届かなかったが,非常時であるということと,同じ内容が繰り返し伝えられるという災害報道の特徴を考えると,運用可能な認識精度である。また,発災後5時間を過ぎると,データベースの原稿が役立つようになり,「オンライン原稿」の場合でも,ほぼ目標とする認識精度が得られている。この結果から,発災後5時間を過ぎれば,記者が入稿した記事のデータベースを使って言語モデルを更新して学習するという通常の運用に戻すことができると考えられる。

6図 東日本大震災時の音声認識シミュレーション

3.AI技術と音声認識を利用した字幕の付与

近年のAI技術の発展,具体的には深層学習の発展により,音声認識の性能がこの10年程で大きく向上してきた。これまで,わが国の放送局の中で,番組音声をそのまま音声認識して字幕を制作する手法を採用していたのはNHKのみであったが,近年は民放を含めて,番組音声を音声認識した結果をそのまま字幕として放送する試みが進められている。本章では,このような試みの例として,3.1節ではインターネット放送に字幕を付与するテレビ朝日のAIポンについて,3.2節ではCS(Communications Satellite)放送で24時間字幕を付与することを試みたTBSの取り組みについて,3.3節ではパソコンやタブレットなどのセカンドスクリーンに字幕を付与するマルチスクリーン放送協議会・マルチスクリーン型放送研究会の取り組みについて,3.4節では地域放送局の番組に生字幕を付与するNHKの実験について述べる。

3.1 インターネット放送に付与する字幕:テレビ朝日のAIポン

テレビ朝日では,インターネット放送であるAbemaTV(現ABEMA)内のAbemaNewsの番組制作と併せて,インターネット放送用のテレビ映像に自動でキャプションを付けるシステムを開発した(7図)。このシステムを用いて,2018年12月から生放送番組の映像にオープンキャプションを付与している4)14)

このシステムでは,アナウンサーの会話またはコメントを音声認識し,その結果を,次の3つのツールを利用して字幕用のテキストに変換している。

  1. 句読点を付与するツール
  2. 「えー,あのー,まぁ」などフィラーと呼ばれる不要語を削除するツール
  3. 放送用として不適切な単語やフレーズを修正するツール

このAIアプリケーションは,形態素解析*3および音声認識に,オープンソースプログラムおよびAPI(Application Programming Interface)*4を使用して実現している。音声認識のエンジンにはGoogle Speech APIを採用しているが,放送用として不適切な単語やフレーズを修正するために,独自の補正機能を実装している。

修正オペレーターを必要とするこれまでのリアルタイム字幕制作手法では,表示までの遅延時間が課題であったが,このシステムでは,約1秒の遅延時間で画面表示を可能にしている。これは,音声認識の途中のデータを仮確定させて表示することにより実現している。その後の補正処理で,一度画面に表示された後に変更される場合もあるが,表示されるまでの時間を極力短くすることが可能となっている。

7図 インターネット放送に字幕を付与するシステム:テレビ朝日のAIポン
(枠線内のオープンキャプションを自動で生成)

3.2 CS放送に付与する字幕:TBSの開発した3システム選択方式

TBSテレビでは,CS放送の24時間ニュースチャンネルである「TBS NEWS」において,同チャンネルでの字幕放送用の原稿を作成するためのシステムを開発しており,字幕放送での利用を実現している15)。このシステムは,以下の3つのシステムから構成されている。

  1. キャスターの前のカメラに付属するプロンプターシステムに表示された原稿から,字幕原稿を自動加工する字幕システム
  2. 地上波のリアルタイム字幕を利用する字幕システム
  3. 音声認識システムと連携する字幕システム

プロンプターシステムに表示される原稿には,それぞれのニュース番組のニュース項目や,カメラを制御するための記号,読み仮名(ルビ)なども含まれており,そのままでは字幕には使えないため,字幕原稿に加工するためのインターフェースサーバーを開発することで字幕システムを実現している。

また,あらかじめ完パケ(完成された番組項目)にされたナレーション込みのニュースなどは,プロンプターシステムに読み原稿が入っていない。このような場合は,地上波TBSテレビのニュース番組において前述のリレー方式によるリアルタイム字幕送出を行っているため,この字幕のログを項目ごとに取り込むことによって,同じ項目のニュースの字幕を送出している。

さらに,長時間のワンマン操作を可能とするために,再放送時には,録画放送サーバーと字幕サーバーを連携させ,録画放送の送出と同時に,字幕もタイムシフトさせて送出する仕組みとしている。

3.3 セカンドスクリーンに字幕を送出するマルチスクリーン放送協議会・マルチスクリーン型放送研究会の実験

セカンドスクリーンサービスの実用化を目指す目的で,在阪民放5局を中心とした呼びかけに応じた97社(うち放送局66社:2020年4月現在)から構成されたマルチスクリーン型放送研究会16)と,研究会の提案を実現する目的で設立されたマルチスクリーン放送協議会17)では,スマートフォンやタブレットなどのセカンドスクリーンを放送視聴時に利用する方法を検討してきた。そして,このセカンドスクリーンの活用方法として,「字幕キャッチャー」と呼ばれるシステムを構築した。字幕キャッチャーは,音声認識技術でテレビ音声をテキスト化し,セカンドスクリーンへ配信するシステムである。このシステムを用いて,全国11地区の24局の放送局が実際の放送番組で,聴覚障害者を対象に実験を行った18)

この実験では,放送局内に設置したパソコン端末にスタジオからの出力音声を入力し,その音声を外部の音声認識システムに送り,字幕化した。その際,CM等の時間帯を考慮して,番組内容のみを字幕化するために,人手で音声入力のON-OFFを切り替える仕組みを採用した。音声認識のエンジンとしては,(国研)情報通信研究機構(NICT)とNHK の2種類の音声認識エンジンを用いて,ネットワーク経由で音声認識エンジンに音声を入力する構成とした。そして,音声認識エンジンの出力結果を,セカンドスクリーン字幕として配信し,障害者団体などを通じて募集した聴覚障害者の方に自宅で番組を視聴してもらった。番組の視聴は,自身のスマートフォン・タブレットに字幕を表示して体験してもらう形式とした。2018年11月26日~30日の間,平日夕方のニュース番組を中心に字幕を配信し,聴覚障害者の方へのアンケートが行われた(一部地域のみ先行して19日~23日に実施)。

アンケート結果では,アナウンサーが読むニュース原稿の認識精度は高いが,街中のインタビュー部分などの背景ノイズが入る部分で認識精度が悪くなることなどが指摘された。実験参加者からは,取り組みに対する肯定的な意見とともに,認識誤りについての厳しい意見も寄せられるなど,音声認識結果をそのまま字幕として付与する場合の課題が指摘された。

3.4 地域放送局の番組に生字幕を付与する実験

NHKでは,字幕サービスの拡充に向け,音声認識結果を修正せずに字幕として送出する検討を進めている。2019年2月~8月の間で,パソコンやタブレット端末に認識結果をそのままインターネット配信するトライアルサービスを実施し,番組内容理解への影響などについて調査した。さらに,2019年10月~11月には,ハイブリッドキャスト19)によるサービスを試行運用した20)

音声認識結果をそのままインターネット配信するサービスを実現するためには,人手による修正を行わないため,高い認識精度が求められる。そこで,アナウンサーの明瞭な発話に比べて認識が難しい背景雑音が付加された音声や,一般人のくだけた口調の音声など,多様な音声に対応させるために,地域局の生字幕用の音声認識エンジンにはDNN音声認識エンジン21)22)を採用した。このエンジンには,放送番組や記者会見などから収集した4,500時間分の音声を学習させ,高精度化を図った。

また,全国に多数ある地域放送局に音声認識の設備を設置することを想定すると,その設備を整備・維持するには大規模な設備投資と運用コストが必要になる。そこで,音声認識とインターネット配信に必要な設備をクラウド上に集約することで設備の効率化を目指した。構築したシステムは,ネットワークを介してストリーミングされる音声を入力として,認識結果を逐次配信することができる。

トライアルサービスのイメージと実験システムの概要を,それぞれ8図9図に示す。福島・静岡・熊本にある放送局から,番組音声をクラウド上の音声認識サーバーへ送り,認識結果を各家庭のパソコンやタブレット端末上にそのまま表示する仕組みとした。また,ハイブリッドキャストによるトライアル放送では,テレビ画面上に認識結果を表示できるようにした。さらに,アンケート等によるトライアルサービスについての調査を実施し,その結果を基にサービスの改善を図った。

地域放送局の番組では,地域独自の地名や名称などが発話されることがあるため,音声認識エンジンは地域放送局ごとに過去1年分の番組原稿データを学習した。また,各地域放送局の番組名やコーナー名,地域の地名や「令和」などの新しい言葉も学習することで認識精度を改善した。人名の表記に関しては,人名の読みに対応する漢字表記は多岐に及ぶことがあり,漢字表記の誤りが放送内容に齟齬を生じさせてしまう可能性があるため,認識結果の単語が人名であると判断された場合には人名をカタカナで表記することにより,この課題を回避した。字幕の見やすさについても配慮し,映像と字幕が重ならないように,映像の外側に字幕を表示するアウトスクリーン表示も試みた。また音声認識が難しい箇所を自動で推定し,認識結果の代わりに「。。。」を表示することで,字幕の読みやすさを向上させる試みにも取り組んだ。

8図 地域放送局の番組に生字幕を付与するトライアルサービスのイメージ
9図 地域放送局の生字幕用実験システムの概要
(ハイブリッドキャストを使った実証実験システム)

4.まとめと今後の課題

さまざまな環境下の視聴者すべてに情報を届けることが放送の使命であり,字幕放送はその有力な手段の1つである。本稿では,現行の字幕放送サービスを拡充するための技術について解説するとともに,AI技術の発展により性能の向上した音声認識を用いて,人手による修正を介さずに字幕を付与する試みについて紹介した。

今なお多くの方々から,字幕放送の拡充が求められている。また,昨今の新型コロナウイルスの流行などにより,地域の情報をきめ細かく伝える必要性という観点からも,県域局の番組に字幕放送を拡充することの重要性が増している。そのためには,AI技術のより一層の活用が必要となる。一方で,AI技術が発展したとしても音声認識には誤りが含まれている,という社会の理解を醸成していくことも,民放とともに取り組むべき課題だと考えている。

今後も,字幕放送の拡充に向けた目標を早期に達成するために,音声認識技術の研究開発を進めていく予定である。

謝辞 本稿をまとめるにあたり適切なアドバイスを頂戴した民放およびマルチスクリーン放送協議会・マルチスクリーン型放送研究会の皆様に感謝いたします。