写真:世木 寛之

音声合成による株価の自動読み上げ

人間・情報科学研究部 専任研究員 世木 寛之

NHKラジオ第2放送の番組「株式市況」では、約830の株価を、42分間にわたって読み上げています。限られた時間内に多くの株価を早口で読み上げるのは、ベテランのアナウンサーでも苦労が多い仕事です。そこで技研では、高品質な合成音声により株価を自動的に読み上げるシステムを開発しました。これまで放送で利用されている音声合成方式は、必要な単語や短文をすべて録音しておき、それらを並べて再生する方式が知られています。しかし株価の場合は、数十円から数百万円の間のあらゆる金額を事前に読み上げて録音することは困難です。

そこで、本システムの開発にあたり、4000個程度の金額をアナウンサーが読み上げた録音データから、1億円未満のすべての金額の高品質な合成音声を生成できる音声合成手法を考案しました。この手法は、読み上げる金額の桁の間の "音のつながり"の複数の候補を録音データから検索します。そして、そのなかから接続部の音声波形の相関が最も高い "音のつながり"を選択します(図)。最後に、各桁の録音データを音声波形の位相を合わせて接続します。これにより、アナウンサーによる自然な発声に近い、高品質な合成音声を少ない録音データから生成します。また、話速変換技術を用いて株価を読み上げる速度を変化させることで、番組時間に合わせることができます。

現在、放送現場と連携し、開発した株価の自動読み上げシステムの「株式市況」での実用化を検討しています。今後は、アナウンサーや俳優が行っているように、文脈や場の雰囲気などを総合的に判断しながら合成音声を生成することのできる、究極の音声合成システムの実現を目指して研究を進めていきます。

図 : 音声合成による株価の自動読み上げシステム