スーパーハイビジョン音響用バイノーラル技術

松井 健太郎

1. まえがき

スーパーハイビジョンの音響方式として,22.2マルチチャンネル音響(以下,22.2ch音響と略記)の研究を進めている1)2)。この方式は,22個のスピーカーと2個の低音効果(LFE:Low Frequency Effects)用のスピーカーを視聴者を取り囲むように配置して,3次元的な音響空間を再現する方式である。この22.2ch音響を家庭で簡易に再生するための要素技術としてバイノーラル技術の研究を進めている。バイノーラル技術は音源から左右耳までの音の伝搬特性を模擬することで,聴取者に任意の方向の音源から音が到来するように知覚させる技術である3)。音源から左右耳までの音の伝搬特性を頭部伝達関数(HRTF:Head-Related Transfer Function)といい,HRTFの時間領域の表現を頭部インパルス応答(HRIR:Head-Related Impulse Response)という。このHRIRを音響信号に畳み込むことによって,知覚される音の到来方向を制御する。

本稿では,まず,バイノーラル技術の基礎となるHRTFの測定とHRTFを聴取者に適合させるための補正手法を概説する。次に,HRTFを22.2ch音響再生へ応用した例として,中継車やロケ現場で22.2ch音響をヘッドホンで受聴することのできる22.2ch音響ヘッドホンプロセッサーを紹介する。更に,22.2ch音響を視聴者の前方に置いたスピーカーだけで再生する家庭用の再生方式について紹介し,バイノーラル技術の研究の現状と実用化へ向けた取り組みを述べる。

2. HRTFの測定

2.1 HRTFの測定

HRTFの測定は当所の音響無響室で行った4)5)1図に示すように,被験者の頭部が動かないようにヘッドレストで固定し,いすに腰掛けた状態で測定した。スピーカーは被験者の頭部の位置を中心として,円弧状に仰角10°間隔で配置されている。このスピーカーから測定用の音響信号を再生し,被験者の外耳道入口に挿入したマイクロホンで収音する。被験者の腰掛けるいすを一定角刻みで水平方向に回転させて全周囲の測定を行う。測定条件を1表に示す。

1図 HRTFの測定
1表 測定条件
測定用音響信号 OATSP
サンプリング周波数 48kHz
信号長 16,384サンプル
測定音圧 65dBA
測定距 離1.3m

※ Optimized Aoshima's Time - Stretched Pulse。インパルスの位相を周波数の2乗に比例してシフトさせることによって時間軸を引き延ばした時間引き延ばしパルスの一種。

2.2 HRTFの個人性

HRTFは被験者の肩や頭部,耳介などにおける音の反射や回折の影響を受けて変化する。肩や頭部,耳介の形状などの身体的な特徴は個人によって異なるので,HRTFも個人によって異なる。

多数の方向のHRTFを測定するためには被験者を長時間拘束する必要があるが,長時間にわたる測定は被験者に与える身体的な負担が大きい。また,被験者の姿勢が変化し測定精度が低下する恐れもあるので,測定を短時間で行うための方法を検討した。

当所では,あらかじめ測定した多人数のHRTFを主成分分析(PCA:Principal Component Analysis)*1 して,固有値の大きい基底を求め,被験者ごとに測定した少数の方向のHRTFから測定していない方向のその被験者のHRTFを推定する手法を開発した4)5)。その結果,正面と測定耳側の後方のHRTFと,それらの方向と角度が十分に異なる水平面内のもう1つの方向のHRTFを測定するだけで,水平面内の5°間隔の全周囲のHRTFを精度よく推定できることなどが分かった。更に,周波数特性上のピークやディップをシフトさせて個人に適合させる補正手法の研究も進めている6)

3. ヘッドホン受聴におけるバイノーラル技術の応用

3.1 22.2ch音響ヘッドホンプロセッサーの概要

HRIRを畳み込んだ音響信号をヘッドホンを用いて左右耳に直接提示することで,聴取者に任意の方向から音が到来するかのように知覚させることができる。この技術を22.2ch音響再生に応用したものが22.2ch音響ヘッドホンプロセッサーである。22.2ch音響方式のLFE用の2個のスピーカーを除く22個のスピーカーをそれぞれ仮想的な音源とみなし,それぞれのスピーカーから再生する音響信号にその方向のHRIRを畳み込み,ヘッドホン受聴する。なお,LFE用の2チャンネルの音響信号はそのまま左右の音響信号に混合した。2図は1つの音源を処理する場合の模式図である。INVはヘッドホンの周波数特性を補償するための逆フィルターである。この22.2ch音響ヘッドホンプロセッサーは24個のスピーカーを置くことのできない中継車内やロケ現場において,22.2ch音響をモニタリングするシステムとして運用されている。

HRTFは個人によって異なるので,他人のHRTFを使用した場合には模擬した方向に音像が定位しないことがある。そこで,開発したシステムでは,あらかじめ複数のHRTFをメモリー上に記録しておき,その中から最も適合するHRTFを選択することができるようにした。また,適合するHRTFが無い場合には,USBメモリーなどを接続して,自分のHRTFをそこから読み出して使用することができるようにした。

2図 ヘッドホン受聴時のバイノーラル処理

3.2 定位精度の向上

音像の定位精度を向上させるために,所望の音場を模擬する残響を付加する機能と,聴取者の頭部の運動に追従して音の到来方向を制御するヘッドトラッキング機能の検討を進めている。

(1) 残響付加機能

残響のある室内の22.2ch音響のスピーカーごとの残響応答はスピーカーの方向だけでなく,全ての方向から到来する室内の反射音を考慮しなければならない。そこで,スピーカー位置を音源位置とし,所望音場の受聴位置で指向性マイクを用いて測定した方向別の室内インパルス応答(DRIR:Directional Room Impulse Response)*2 に聴取者のHRIRを方向別に畳み込むことで方向別の残響応答が近似できると仮定した。ただし,方向別に全てのスピーカーの残響応答を重ね合わせる必要がある。しかし,DRIRを測定する方向は有限であり,マイクロホンには主軸の方向以外にも感度があるので,測定したDRIRをそのまま使用したのでは,十分な近似精度が得られない。一方,受聴位置でダミーヘッドを用いて測定したバイノーラル室内インパルス応答(BRIR:Binaural Room Impulse Response)*3 には,所望音場の残響の応答に,測定に使用したダミーヘッドのHRIRも含まれているので,聴取者に適合しないことがある。そこで,DRIRとダミーヘッドのHRIRから推定したBRIRとダミーヘッドを用いて実測したBRIRのスペクトログラムを比較し,両耳の位置で両者が一致するようにスケーリングを行った補正DRIRを求め,これを用いて聴取者に適合する残響応答を推定する。残響付加機能の処理の流れを3図に示す。残響応答計算部では,まず,DRIRにその方向のダミーヘッドのHRIRを畳み込み,その信号を短時間フーリエ変換(STFT:Short Time Fourier Transform)して複素スペクトログラムに変換する(処理1)。同様に,BRIRを複素スペクトログラムに変換する(処理2)。この両者を比較し,各時間の周波数の振幅特性,位相特性が(1)式の関係を満たすようにスペクトログラムを計算し(処理3),逆短時間フーリエ変換(ISTFT:Inverse STFT)を行って時間信号に変換する(処理4)。

ここで,SBSDiはそれぞれBRIRのスペクトログラム,i番目の方向のDRIRにダミーヘッドのHRIRを畳み込んだ信号のスペクトログラム,導出されるi番目の方向の信号のスペクトログラムを表す。kは時間,fは周波数,Nは全方向数である。更に,BRIRの測定で使用したダミーヘッドの特性をキャンセルするために,HRIRの最小位相成分*4 との逆畳み込みを行い,補正DRIRを得る(処理5)。

次に,残響生成部で信号処理量の圧縮と残響の生成を行う。まず,残響応答計算部で計算した補正DRIRを主成分分析で基底展開し(処理6),寄与率が上位の基底だけを用いて畳み込みを行う(処理7)。この出力を主成分分析の際に算出される重み係数に従って加重加算することにより方向別の残響を得る(処理8)。この方向別の残響に聴取者のHRIRを畳み込むことで,所望の音場の残響を生成することができる(処理9)。なお,残響応答計算部で分割されたHRIRの全域通過成分*5 は遅延として近似し,この遅延に相当するサンプル分だけ方向別の残響の先頭より切り詰める(処理10)。以上の処理を,22.2ch音響の全てのスピーカーで行う。

3図 ヘッドホン受聴時の残響付加処理

(2) ヘッドトラッキング機能

モーションセンサーを用いて聴取者の頭部の運動を検出し,それに合わせてHRIRを切り替える機能である。この機能によって,各チャンネルの音像の位置をスピーカーで受聴する場合と同様に固定することができる。被験者への事前調査に基づいて,頭部の水平運動の許容範囲を全方位,垂直運動の許容範囲を基本姿勢から±20°とした。また,検出空間分解能は水平運動に対しては1°~5°とし,検出精度の求められる正面では細かく,側面から背面では粗く設定した。垂直運動に対しては運動の頻度が低いので20°とした。なお,モーションセンサーでは1/125秒おきに頭部の運動を検出した。

検出空間分解能を高くすると測定しなければならないHRTFの方向数が増加し,被験者の負担が大きくなる。そこで,HRTFの測定方向を方位角5°間隔とし,測定していない方向のHRTFを補間して求めた。補間はHTRFを最小位相成分と全域通過成分に分割して行った。最小位相成分は周波数スペクトルの各周波数を方位角方向に隣接するHRTFの最小位相周波数スペクトルの値を用いてスプライン補間*6 した。また,全域通過成分は同じく方位角方向に隣接するHRTFの全域通過成分を遅延近似し,この値をスプライン補間した。

ヘッドトラッキング機能を付加することで,特に,正面方向の音像の定位に改善が見られた。頭部運動の許容範囲やセンサーの検出分解能など,パラメーターは今後詳細に検討する予定である。

4. スピーカー再生におけるバイノーラル技術の応用

4.1 22.2マルチチャンネル音響の家庭再生方式

バイノーラル技術をスピーカー再生に応用することで少数のスピーカーで22.2ch音響を再生することができ,家庭において22.2ch音響を簡易に再生できると期待される。バイノーラル技術をスピーカー再生に応用するためには,スピーカーから耳へ伝搬する不要な音を抑圧する処理(クロストークキャンセル処理)が必要である7)8)4図は2つのスピーカーで1つの音源を模擬する場合の処理の模式図である。矢印の破線がクロストークで,青地の部分でこのクロストークを抑圧する。4図に示すようにそれぞれの伝達関数を要素に持つ行列をGHとすると,クロストークキャンセル処理は(2)式を満たす逆変換行列Hを求めることになる。

ここで,Iは単位インパルス関数を対角成分に持つ行列である。試作したシステムでは,22.2ch音響の上層・中層・下層ごとにクロストークキャンセル処理を行った。いずれの層においても前方の左右の2つのスピーカー(上層はTpFL / TpFRチャンネル*7,中層はFL / FRチャンネル,下層はBtFL / BtFRチャンネル)を使ってクロストークをキャンセルした。従って,トールボーイ型*8 のスピーカーに上・中・下の3個のスピーカーを収納すれば,視聴者の前方に2本のスピーカーを置くだけで22.2ch音響を再生することができる。

4図 スピーカー受聴時のバイノーラル処理

4.2 安定解の導出

一般に,逆変換行列Hは因果律を満たさないので,安定な解とはならない。そこで,(3)式のようにHの各要素である伝達関数を全域通過成分と最小位相成分に分割し,それぞれを独立に処理することで安定な解を得ることにした。

ここで,添え字のallとminはそれぞれ全域通過成分と最小位相成分を表す。

(1) 全域通過成分

周波数振幅特性が一定である全域通過成分を遅延で近似した。各伝達関数の遅延量は伝達関数の分子と分母の時間領域表現の相互相関関数を用いて算出した。

(2) 最小位相成分

最小位相成分は因果律を満たすので,そのまま自己回帰移動平均モデル*9 として実装が可能である。しかし,系の変動,測定時の雑音や誤差,HRTFの個人性などさまざまな要因によって,周波数特性上のピークがキャンセルできず,音質が劣化することがある。そこで,以下のような処理を行って,逆変換行列の周波数特性を維持したまま,急しゅんなピークを抑圧した。

  1. 全伝達関数中の周波数振幅特性上のピークを探索する。このピークが平均振幅よりしきい値NdB以上大きい場合には次の②のステップに進む。
  2. 全伝達関数の極(零点)の中から,ピークを抑圧する極(零点)を探索する。①で探索されたピーク周波数が全伝達関数で共通してしきい値MdB以上のピークである場合には,その探索範囲を全伝達関数で制御する極とする。そうでない場合には,その探索範囲を該当する伝達関数で制御する零点とする。
  3. ②で制御対象となった全伝達関数の極または該当する伝達関数の零点の中から,ピークの正規化角周波数に偏角が最も近いものを探索し次の④の処理対象とする。
  4. 処理対象となった極(零点)を,ピーク周波数に対応する単位円上の点に対して遠ざける(近づける)方向にシフトする。このときのシフト量は極(零点)をシフトする前後で,振幅比が-1dBとなる値にする。
  5. シフト後の周波数特性を再計算し①に戻る。

以上の処理を行った後,包絡線近似を行って伝達関数を平滑化する。この処理によって,ミュージカルノイズなど周波数振幅特性上のピークに起因するノイズを良好に抑制することができた。

5. あとがき

22.2ch音響再生の要素技術として研究を進めているバイノーラル技術を概説した後,22.2ch音響ヘッドホンプロセッサーと22.2ch音響を家庭で再生する方式の概要を紹介した。

22.2ch音響ヘッドホンプロセッサーは2012年に開催されるロンドンオリンピックの中継制作の現場で使用される予定である。また,22.2ch音響を家庭でヘッドホン再生する際にもその技術が応用できると期待される。これらの方式を実用化するためには,HRTFの一般化や簡単な補正手法の検討,信号処理量の削減などが課題となる。また,家庭用の再生方式では,良好なリスニングエリアの拡大が課題である。バイノーラル技術は基本的には聴取位置を限定する点制御方式である。リスニングエリアを拡大するためには,この制御点をより多くの点へ,更に,音の波面を制御する技術へと拡張する必要があると考えている。