AIを活用した新たな日本語音声合成システムの開発

~原稿を「仮名文字と韻律記号」に変換して大量に学習~

技研では、効率的な番組制作を支援するため、AI(人工知能)を活用した音声合成技術の研究を進めています。現在、この技術はNHKニュースのヨミ子や地域放送局の気象情報の読み上げなど、番組制作で広く活用されています。今回、より流暢りゅうちょうで自然な発声を実現する新たな音声合成技術*1,2を開発しました。

英語の音声合成では近年、読み上げる原稿とその音声をそのまま大量かつ効率的にAIに学習させることができる系列変換モデル*3のニューラルネットワークが用いられており、合成音声の品質が向上しています。

この系列変換モデルを用いる場合、英語では、読み上げる原稿をそのまま入力して学習を行いますが、日本語に適用する際には、日本語特有の複数の読み方がある漢字仮名交じり文をそのまま入力しても、うまく学習できないという課題がありました。

今回の開発では、「漢字仮名交じり文」から「仮名文字と韻律記号*4」を自動的に生成し、それを「系列変換モデル」の入力データとすることで大量のデータを効率的に学習させ、日本語の合成音声の品質を向上させることに成功しました。

また、仮名文字と韻律記号を簡単に編集できるユーザーインターフェースや、口調をニュース調や会話調などに切り替えられる技術も開発し、さまざまな番組の演出要件への対応も可能にしました。

今回の研究成果は、毎週土曜日午前11時からのBS1「週刊ワールドニュース」で使用されています。今後も、より自然で使いやすい音声合成を実現する研究を進めます。

*1 NHKの第2世代音声合成システム。NHK「ヨミ子の部屋」で使用されてきたNHK第1世代音声合成システムを改善。
*2 開発した音声合成技術によるナレーションを、デモ映像でご覧いただけます。
*3 系列変換モデル:入力系列(テキスト)を出力系列(音)に変換するニューラルネットワーク
*4 韻律記号:アクセントや間などの情報を表す記号

AIを活用した音声合成の実施例(ニュースのヨミ子)
系列変換モデルを使用した日本語音声合成