株式市況音声合成システムの開発

世木 寛之 清山 信正 田高 礼子 都木 徹 大出 訓史 今井 篤 西脇正通

NHKのラジオ第2放送で放送している「株式市況」は,東証一部に上場されている銘柄の終値と前日比を伝えている。この番組を担当するアナウンサーには,数値を間違えずに読むことと決められた時間内に読み上げることが要求され,正確に数値を読みながら時間配分を調整しなければならない非常に難度の高い業務であった。本稿では,数値音声合成と話速変換技術を用いて開発した株式市況音声合成システムについて述べる。まず,終値と前日比を合成するために必要な音声データを収録するための読み上げ文の抽出法について述べ,次に,この読み上げ文に基づいて構築した音声データベースを用いて数値音声を合成する方法を説明する。更に,作成した合成音声の自然性について評価した結果と開発した株式市況音声合成システムについて述べる。

1. はじめに

音声合成は1990年ごろから放送で利用されるようになった1)。その用途としては,天気予報の自動送出1)2)3)4) が最も多く,それ以外に交通情報5),スポンサー名のテロップの読み上げ6) などがある。これらの音声合成システムに用いられている方式のほとんどは,収録した音声を短い無音区間で接続して再生する録音編集方式7) である。録音編集方式以外の音声合成方式もあるが,それらの方式ではアナウンサーの声と同等の品質の声を合成することが困難で,放送に利用されることはほとんどない。

当所では,収録した音声を無音区間を入れずに接続して再生する波形接続方式を用いた株式市況音声合成システムを開発した。音声の途中でつなぎ合わせることができるので,約4,000個の数値を読み上げた音声を収録するだけで,1から1億未満の数値全てを合成することが可能である。

開発した音声合成システムのもう1つの特徴は,放送用の音声合成システムとしては世界で初めて,話す速度(話速)を変えて全体の読み上げ時間を調整できるようにしたことである。合成音声の無音区間の長さを変えるだけで全体の時間の長さを調整していた従来の音声合成システムよりも,音声の自然性を保ったまま,調整できる時間の範囲を拡大することができた。

2006年10月から2008年3月までの毎週金曜日に,地上デジタル音声放送実用化試験放送(通称,デジタルラジオ)で,開発した音声合成システムを試験運用した。また,2010年3月からラジオ第2放送で本運用を行っている。本稿では,この株式市況音声合成システムについて報告する。

2. 従来の音声合成システムと開発した音声合成システムの概要

株式市況用音声合成システムを開発する際に,従来の音声合成技術を活用することを検討した。まず,駅のホームで列車の行先案内に使われている録音編集方式を検討した。この方式では,句読点で区分されたフレーズ単位で音声を収録し,その音声を接続している。従って,この録音編集方式で株式市況用音声合成システムを実現するためには,現在の株価の最高値である数百万円までの株価全てを録音する必要があり,膨大な時間とコストがかかり現実的ではない。また,録音編集方式で自然な音声を合成するためには,音声を接続するときに適切な長さの無音を間に入れる必要がある。「株式市況」の読み上げでは,アナウンサーでも早口と思える速さで読み上げなければならないこともあり,必要な長さの無音を入れることが困難な場合もある。

他の音声合成方式8)9)10) についても検討したが,いずれの方式もアナウンサーの代替として放送に使うには自然性が不足していた。音声データの基本周波数を変更したり,音声データをパラメーターに変換したりすることで人の声らしさが損なわれることが原因であった。検討した方式の1つである波形接続方式は大規模な音声データベースを用いるので音声データを変更することは少ない。従って,他の方式と比較すると合成音声の自然性は高かったが11),この方式でも放送に使用できるほどの品質ではなかった。これは,音声データベースの規模を単純に拡大するだけでは,合成時に必要となる全ての音声を揃えることができないためである。放送品質を満たす合成音声を実現するためには,音声データベースを効率的に構築する方法も併せて開発する必要がある。

音声データベースを構築するためには,まず,アナウンサーや声優が指定された文を読み上げる音声を録音する必要がある。合成時に必要となる音声を全て録音することができれば,アナウンサーの声とほぼ同じ高品質な音声を合成できるが,調音結合*1 の影響12) を考慮しただけでも,合成時に必要な音声を全て網羅する読み上げ文の数は膨大になる。

そこで,音声合成をする数値を1から1億未満の整数の数値に限定し,合成時に必要となる音声を全て網羅する読み上げ文の抽出法を提案する。また,この抽出法を利用して構築した音声データベースを用いて,連続した桁(3.2節参照)単位で接続するための音声波形の探索方法および接続方法を提案する。この数値音声合成手法の詳細は3章で述べる。

ところで,NHKは株価データを数値データとして受信している。株価データを受信した時点で,再生に必要な時間を計算し,音声と音声の間に均等に無音を入れることで,ある程度は時間を調整することができる。株式市況の場合,合成音声の自然性を保つためには,銘柄名と株価の間には100ms~200ms程度の無音区間を入れる必要があるが,無音区間を入れると決められた時間内で放送できなくなることがある。そこで,銘柄名と数値合成音声の両方に話速変換13) 技術を用いることにした。話速変換技術によって合成音声の時間を縮め,そこに無音区間を割り振ることができるようになった。また,調整できる時間範囲を拡大することができた。これらの詳細と開発した株式市況音声合成システムについては4章で述べる。

3. 数値音声合成

3.1 数値音声合成の概要

数値音声合成の概要を1図に示す。数値が入力されると,数値音声合成エンジンは3.2節で述べる音声データベースの基本単位「前後の音声を考慮してクラスタリングされた桁」に分割する。例えば,「1,234円」が入力された場合には,「一千(二百)」,「(千)二百(三十)」,「(百)三十四円」に分割する。ここで,「(千)二百(三十)」は,前が「千」で後ろが「三十」であるような「二百」を意味する。

音声データベースには目的の基本単位の数値を読み上げている音声データが,通常,複数存在する。例えば,「一千(二百)」の音声データが2個,「(千)二百(三十)」の音声データが5個,「(百)三十四円」の音声データが10個ある場合を仮定すると,目的の数値「1,234円」を実現するための音声データの組み合わせは100(=2×5×10)通りになる。そこで,隣り合う音声波形データの音響的な特徴がなるべく類似する音声データの組み合わせを選択し,自然性の高い音声を合成することにした。また,株価の終値の場合には「~円」と読むが,前日比の場合には「~円高」または「~円安」と読むので,下2桁の数値に「円」と「円高」と「円安」の語尾が付く音声をそれぞれ別の基本単位として用意した。なお,前日比が0円の場合には「変わらず」である。

1図 数値音声合成の概要

3.2 音声データベースの構築と基本単位

数値を合成する音声データベースの基本単位を下2桁,百,千,万下2桁,百万,千万の6種類の桁とした。ただし,「株式市況」の場合には各桁の間に無音区間を入れる時間的な余裕がないので,調音結合を考慮して音声データベースを構築した。「前後の数値と桁が異なる音声」を全て録音することができれば良いが,その場合には基本単位の数が約4万にもなる。そこで,下記の条件の桁は同じ調音結合を持つ音声と見なして1つにまとめ,「前後の音声を考慮してクラスタリングされた桁」として扱うことにする。

  1. 前の桁が十で終わる桁(十,二十,三十,…,九十)と,前の桁が百で終わる桁(百,二百,三百,…,九百)と,前の桁が千で終わる桁(一千,二千,三千,…,九千)と,前の桁が万で終わる桁(一万,二万,…,九万,十万,…など)をクラスタリングされた同じ桁とする。
  2. 後ろの桁が十で始まる桁(十一,十二,十三,…,十九)と,二十で始まる桁(二十,二十一,二十二,…,二十九)と,三十,四十,五十,六十,七十,八十,九十で始まる桁をそれぞれクラスタリングされた同じ桁とする。なお,十と十一を区別した理由は音声の長さが異なるからである。

上記のクラスタリングによって,1から1億未満の整数に含まれる基本単位の数を5,330に削減することができた。

3.3 音声データベース構築のための読み上げ文の抽出

2章で述べたように,放送品質を満たす音声を合成するためには,合成時に必要となる音声が全て音声データベースに含まれていなければならない。ここでは,株式市況の終値と前日比を放送品質の音声で合成するための音声データベースを構築するために必要な読み上げ文の抽出法について述べる。音声の収録作業を効率よく行うためには,読み上げ文はできるだけ少ない方が望ましい。一方,放送品質の音声を合成するためには,合成時に必要となる基本単位を音声データベースに少なくとも1個は含ませる必要がある。

このため,まず,各基本単位を一個以上含む読み上げ文の集合を作成し,次に,読み上げ文の集合から読み上げ文の数がなるべく少なくなるように,以下のアルゴリズムで読み上げ文を抽出した。ここでは,読み上げ文の集合が1から1億未満の整数を合成する場合を例として示す。

  1. 最初に,1文に含まれる基本単位の最大数を記憶するカウンターの初期値を0とする。
  2. 読み上げ文の候補から順に1文ずつ選択し,その文に含まれている基本単位の数を数える。ただし,既に採用が決まっている文に含まれている基本単位はカウントしない。例えば,選択された文を「1,234円」とすると,その文に含まれている基本単位は「一千(二百)」,「(千)二百(三十)」,「(百)三十四円」であり,「一千(二百)」が既に採用が決まっている文に含まれているとすると,基本単位の数は2である。
  3. 1文に含まれる基本単位の数が,基本単位の最大数を記憶するカウンターの値以上の場合にはこの文を採用する。また,基本単位の数がカウンターの値より大きい場合にはカウンターの値をその数に置き換える。例の場合には,基本単位の数がカウンターの値0より大きいので,カウンターの値を2に置き換える。
  4. ②から③を読み上げ文の候補に含まれる全ての文について逐次繰り返し,採用する文を増やしていく。
  5. ④の操作を行った後,基本単位の最大数を記憶するカウンターの値が0でない場合には,採用した文を保持したまま,①の初期化を行い②から④を採用した文を除いて再び繰り返す。
  6. ④の操作を行った後,基本単位の最大数を記憶するカウンターの値が0の場合には,読み上げ文の集合の全ての基本単位が採用した文に含まれることになるので,文を抽出する操作を終了する。

株式市況音声合成システムの音声データベースを構築するために読み上げ文を抽出した結果,読み上げ文の数を4,486にすることができた。株式市況の番組を担当している男性のアナウンサーが4,486のテキストを防音室で読み上げた音声を収録して音声データベースを構築した。

3.4 合成音声の評価実験

開発した手法で合成した音声の自然性を評価するために合成音声の品質評価実験を行った14)

評価用の数値として,百円台・千円台・一万円台・十万円台・百万円台・千万円台の数値をランダムにそれぞれ40個,合計で240個選択した。ただし,音声データベースには含まれない数値とした。240個の数値を終値と前日比の2通りで評価させるために,480個の音声を合成した。480個の合成音声の他に,比較のために同じアナウンサーが読み上げた自然音声(原音)の終値を40個,前日比を40個追加して,合計560個の音声を評価した。

評価実験は防音室内でスピーカーを用いて行った。評定者は音声の評価実験の経験の無い20歳代の男性5名,女性5名である。音声をランダムな順序で提示し,評定者には自然性の違いを5(自然である),4(不自然な部分はあるが気にならない),3(少し気になる),2(気になる),1(非常に気になる)の5段階で評価するように指示した。ただし,評価を行う前に,音声データベース内の音声(原音)を3つ聞かせ,これと同じ程度の品質であれば,評価5(自然である)と評価するように指示した。また,各音声の評価は1回だけとした。なお,適切な時間で休憩を取りながら評価実験を行った。

結果を2図に示す。合成音声の全体の平均評価値は4.90,自然音声の平均評価値は4.98であり,合成した音声の自然性は十分に高いことが示された。

2図 合成音声の自然性

4. 株式市況音声合成システム

4.1 株式市況音声合成システムの概要

開発した株式市況音声合成システムの概要を3図に示す。株式市況音声合成システムは外部の通信社から株価データを受信するFTPサーバーと,音声データの制作および送出を行う音声合成サーバーとで構成される。株価データの送信時間になると,電子化された株価データが株価データ提供元である通信社から専用回線を通して放送センター内のFTPサーバーに送信される。

FTPサーバーと音声合成サーバーはファイルを共有しているので,音声合成サーバー上で動作している制作プログラムが株価データの更新を自動的に検知する。制作プログラムは株価データに存在する銘柄名・終値・前日比の音声を全て含んだ1つの大きな音声ファイルを作成する。放送中に銘柄名・終値・前日比の音声ファイルを読み込み順次再生することもできるが,放送中にファイルの入出力エラーが起こらないようにするために,事前に1つの大きな音声ファイルにまとめている。

制作時に必要となる銘柄名の音声は収録した音声をそのまま使用し,終値と前日比の音声は開発した手法で合成した。

ところで,東京証券取引所では,株価は「呼値の刻み*2」の整数倍でしか取引できない。また,前日比も「制限値幅*3」までしか変動しない。そこで,これらの制限を利用して,1億未満の終値と前日比について想定される数値を検討した。その結果,終値の種類は9,499個,前日比の種類は5,560個であることが分かった。そこで,これらの数値については事前に音声を合成し,音質に問題がないことを確認した後,株式市況音声合成システムへその音声を登録した。すなわち,これらの数値に対してはその度に合成するのではなく,事前に登録した合成音声をそのまま使うことにした。ただし,「呼値の刻み」や「制限値幅」が変更されることもあるので,株式市況音声合成システムでは任意の終値と前日比の音声を合成できるようにしている。

一方,音声合成サーバー上で動作する送出プログラムは制作プログラムが出力する音声ファイルの更新を自動的に検知し,放送開始時刻になると,音声ファイルを自動的に送出する。放送時間内に830銘柄の音声が収まるように,話速を絶えず調整しながら再生する。従って,途中でいくつかの銘柄の再生をやめたり,一時停止をしたり,終了する時刻を変更したりしても,指定した時刻までに正確に読み終えることが可能である。

なお,株式市況音声合成システムは全て2重化されており,一方の回線やサーバーが壊れた場合にも,放送には支障がないようになっている。

3図 株式市況音声合成システム

4.2 話速変換

明瞭に発声された音声データベースを作成するために,アナウンサーは実際に株式市況で読み上げる音声よりもゆっくりとした速度で数値を読み上げた。従って,数値音声合成エンジンで音声を合成しただけでは放送時間の45分で830銘柄を読み終えることはできない。そこで,話速変換13) で合成音声の読み上げ速度を速くした。母音や半母音など音声波形が周期的に繰り返されている所では基本周期単位で波形を間引き,子音や無音区間などでは擬似的な基本周期単位を求めて,その単位で波形を間引いた。このような間引きを行うことで,声の高さや音質を損なわずに話速を変換することができた。話速変換率は番組の長さ,株価データ,読み上げる銘柄数に依存するが,通常の運用では,株式市況音声合成システムで元の音声波形を約84%に縮めている。

また,銘柄名,終値,前日比の接続部において,接続部の無音の長さが短く,声の高さや話速の差が大きい場合には不自然に聞こえることがある。そこで,自然性を保つために,接続部の無音の長さを少なくとも80ms以上とし,接続部の声の高さや話速の差が大きくなる場合には無音区間を更に長くするようにした15)

4.3 検討課題

開発した株式市況音声合成システムは運用開始当初から安定して運用されている。しかし,運用中に今後に向けた課題が2つ明らかになった。

1つは,銘柄名の変更に伴う作業である。銘柄名の変更は会社の商号変更,合併,新規上場に伴い,数か月に1回程度の割合で生じる。現状ではその度に音声データベースを構築したアナウンサーに新規銘柄名を読み上げてもらう必要があるが,将来にわたって同じアナウンサーを確保することは難しい。そこで,新規銘柄名の音声を同じアナウンサーを使わずに合成できるようにすることが求められている。当所では,音声データベースの不足分を異なる話者の音声の一部で補って,新規銘柄名の音声を高品質に合成できることを示しており16),この技術を利用した新規銘柄作成システムの開発が期待されている。

他の1つは,システムの障害時におけるバックアップ方法の改善である。現状の株式市況音声合成システムでは,本番系に障害があった場合には手動で予備系に切り替えることになっている。しかし,現状では本番系と予備系が同じ内容を同時に再生しているので,障害時に本番系で放送できなかった銘柄を予備系ですぐに放送し直すことができない。そのため,本番系でどの銘柄まで放送されたのかを予備系で監視して,本番系に問題があった場合には,予備系でまだ放送されていない銘柄から放送するようにすることが望ましい。その際,話速を再度調整し,終了時刻に読み終えるようにすることは技術的には可能である。

5. おわりに

数値音声合成と話速変換技術を用いて開発した株式市況音声合成システムについて述べた。

数値音声合成では,1億未満の数値を合成することのできる音声データベースを構築するための読み上げ文の抽出手法を提案し,抽出した約4,000個の数値を読み上げるだけで,人の声とほぼ同等の自然性を持つ音声が合成できることを示した。また,発声のバリエーションの多い番組の音声は録音編集方式では合成できなかったが,開発した手法で合成した音声が利用できるのではないかと期待される17)

また,話速変換技術を用いることで,調整できる時間範囲を拡大し,放送時間内に正確に読み終えることが可能となった。話速変換技術によって,合成音声を放送で利用することが一段と容易になった。今後,さまざまな番組で音声合成技術を応用し,視聴者サービスの向上を図っていく予定である。

謝辞:運用の際にご協力いただいた放送技術局運行技術部小山隆二元チーフエンジニアに深謝する。また,本研究のきっかけを与えていただいた静岡放送局島津敏雄元局長,放送総局アナウンス室高橋淳之元次長に深謝する。更に,音声データベースの構築にあたりご尽力いただいた瀬田光彦アナウンサーに深謝する。

本稿は映像情報メディア学会誌に掲載された以下の論文を元に加筆・修正したものである。
世木,清山,田高,都木,大出,今井,西脇,小山:“高品質な株価音声合成装置の開発とデジタルラジオでの試験運用,” 映情学誌,Vol.62, No.1, pp.69-76(2008)