MPEG-4 AACを用いた22.2ch音声符号化・復号装置の開発

杉本岳大中山靖茂小森智康

8Kスーパーハイビジョン放送の実現に向け，22.2マルチチャンネル音響の音声信号を伝送する目的で，MPEG-4 AAC（Advanced Audio Coding）を用いた22.2ch音声符号化・復号装置を開発した。本稿では，ARIB（Association of Radio Industries and Businesses：電波産業会）規格に準拠した符号化・復号装置の仕様と音声品質について説明するとともに，放送音声の多機能化を目的に実装したダウンミックス機能とダイアログ制御機能についても紹介する。

１．まえがき

8Kスーパーハイビジョン（以下，8K）は，既存の映像音響システムをはるかに上回る臨場感を視聴者に提供できる次世代のテレビジョンである¹⁾。8Kは7,680×4,320個の画素を有し，現行のデジタル放送（2Kハイビジョン）の16倍の解像度を実現している。NHKは8Kの映像と組み合わせる音響システムとして，24個のチャンネルを上下方向に３層配置した22.2マルチチャンネル音響（以下，22.2ch音響）の研究開発を進めている²⁾³⁾。

わが国では，超高精細度テレビジョン放送の早期実現を目指して，2013年に4K・8K放送のロードマップが総務省から示されるとともに，次世代放送推進フォーラム（NexTV-F）が設立された⁴⁾。このロードマップによると8K放送に関しては，2016年に試験放送，2018年に実用放送を開始し，さらに東京オリンピック・パラリンピックが開催される2020年における本格普及を目指すことが目標として定められている。22.2ch音響による放送についても，8K放送の魅力を映像・音響の両面から高めるために，ロードマップに沿った開発を進めており，その一環として，今回22.2ch音声符号化・復号装置を開発した。さらに，放送サービスとしての22.2ch音響の機能性を高めてユーザビリティー（利便性）を向上させることを目的に，ダウンミックス^*1 機能とダイアログ（ナレーション，せりふ）制御機能を22.2ch音声符号化・復号装置に実装した。本稿では，開発した22.2ch音声符号化・復号装置の仕様と性能について紹介する。

２．22.2ch音響システム

1図に，22.2ch音響のチャンネル配置とチャンネルラベルを示す³⁾。22.2ch音響は３次元的に配置した24個のチャンネルから構成される。聴取位置の上方に上層９チャンネル，聴取者の耳の高さに中層10チャンネル，聴取位置の下方に下層３チャンネルを配置し，さらに２個の低域効果チャンネル（Low Frequency Effects：LFE）を加えている。

8K用の音響システムとしての観点（画面とチャンネル配置との関係）からは，11個の前方チャンネルを画面の周囲と画面上に配置し（FL, FR, FC, FLc, FRc,TpFL, TpFR, TpFC, BtFC, BtFL, BtFR），５個のチャンネルを聴取者の横断面（両耳と頭頂部を含む平面）に配置し（SiL, SiR, TpC, TpSiL, TpSiR），さらに６個のチャンネルを後方に配置する（BL, BR, BC, TpBL, TpBR, TpBC）音響システムと見なせる。また，Rec. ITU-R（International Telecommunication Union - Radiocommunication Sector）BS.1909が規定する先進的なマルチチャンネル音響システムの要求条件⁵⁾（下記の①～⑥）を満たすことも，22.2ch音響の重要な特徴である。

画面上の任意の位置に音像が定位可能であること
聴取位置を取り囲む全方向から到来する音が再生可能であること
自然で高品質な３次元音場が再生可能であること
最適な聴取範囲を拡大できること
既存のマルチチャンネル音響方式との互換性があること
ライブ収録および生放送に対応できること

①～④は３次元音響の品質に関わる特徴であり，⑤は実用的な音響制作システムに，また⑥は放送システムに必須の要件である。

３．22.2ch音声信号の圧縮符号化方式

日本国内の放送における22.2ch音声信号の圧縮符号化方式は，ARIB標準規格STD-B32の第２部として規格化されている⁶⁾。8K放送では，このARIB STD-B32で規定された音声符号化方式のうち，MPEG-4 AAC⁷⁾ に基づいた圧縮符号化法を用いる。また，22.2ch音声信号の各チャンネルの圧縮符号化法はMPEG（Moving Picture Experts Group）で国際標準化されており⁸⁾，SCE（Single Channel Element：単一チャンネル用の圧縮符号化），CPE（Channel Pair Element：２チャンネルをペアとして扱う圧縮符号化）およびLFE（LFE Element：LFEチャンネル用の圧縮符号化）を組み合わせて圧縮符号化を行う。1表に22.2ch音声信号の圧縮符号化法を示す。

22.2ch音声信号圧縮符号化のためのツールセットを示すAOT（Audio Object Type）としては，LC（Low Complexity）を選択した。LCは，現行のデジタル放送に採用されているMPEG-2 AACのLCプロファイルとほぼ同性能の技術であり，使用するツールを制限する代わりにデコーダーでの処理負荷を軽減するツールセットである。

1表 22.2ch音声信号の圧縮符号化法
チャンネルラベル	圧縮符号化法
FC	SCE
FLc, FRc	CPE
FL, FR	CPE
SiL, SiR	CPE
BL, BR	CPE
BC	SCE
LFE1	LFE
LFE2	LFE
TpFC	SCE
TpFL, TpFR	CPE
TpSiL, TpSiR	CPE
TpC	SCE
TpBL, TpBR	CPE
TpBC	SCE
BtFC	SCE
BtFL, BtFR	CPE

４．22.2ch音声符号化・復号装置の構成

2図に，8K映像/22.2ch音声符号化装置の外観を示す。装置全体は，映像符号化・音声符号化・多重化の合わせて19枚の基板から構成されており，そのうちの１枚が音声基板である。映像の符号化方式にはMPEG-H HEVC（High Efficiency Video Coding）/ H.265を，映像・音声の多重化方式にはMPEG-H MMT（MPEG Media Transport）を採用した。復号装置は，符号化装置と同様の19枚の基板から成る対向の構成とした。

22.2ch音声符号化・復号装置の仕様を2表に示す。22.2ch音声符号化・復号装置は，ベースバンド音声信号の入出力部（AES10 / MADI（Multichannel Audio Digital Interface)），MPEG-4 AACで圧縮符号化・復号する信号処理部，MPEG-4 AACストリームの入出力部の３つのセクションから成る。

2表 22.2ch音声符号化・復号装置の仕様
パラメーター	値
入力チャンネル数	最大22.2ch
標本化周波数	48kHz
量子化ビット数	16bit，24bit
オーディオオブジェクトタイプ	LC (Low Complexity)
ダウンミックス機能	5.1ch，2ch
入出力インターフェース	AES10 (MADI)

５．22.2ch音声信号のダウンミックス機能

一般にダウンミックスの役割は，2chステレオ音声やモノ音声に対する下位互換性をマルチチャンネル音響に持たせることにある⁹⁾。現在広く普及しているダウンミックス法は，マルチチャンネル音声信号を線形変換してチャンネル数を削減する方法であり，中でもITU-Rが推奨するダウンミックス法は広く受信機に実装されている¹⁰⁾。22.2ch音声信号のダウンミックス法は，従来の線形変換を8Kの音響システムとしての要求条件に添って拡張し¹¹⁾，MPEG-4 AACの枠組み内で取り扱い可能なように，ダウンミックス式とダウンミックス係数の初期値の組み合わせとして実現したものである。

５．１　ダウンミックス式

22.2chから5.1chへのダウンミックス式を下記に示す。また，5.1ch音響のチャンネル配置を3図に示す。

αはFLcとFRcのダウンミックス係数，βは側方チャンネルのダウンミックス係数，γは後方チャンネルのダウンミックス係数，δはTpCのダウンミックス係数，εは上層と下層に係るダウンミックス係数，そしてζはLFEのダウンミックス係数である。各ダウンミックス係数の値の範囲を，3表に相対レベル（デシベル値）で示す。3表における0dBは，(1)～(6)式においては係数１に相当する。

また5.1chから2chへのダウンミックス式は，Rec. ITU-R BS.775-3¹⁰⁾ の中で以下のように規定されており，既存の受信機に実装されている。

ここで(1)～(6)式と(7)，(8)式を組み合わせることで，5.1chを経由して22.2chから2chを得られる。

なお，ダウンミックス係数を変数にしている理由は，番組の内容やデザインによって最適なダウンミックス係数を選別するためである。

3表ダウンミックス係数の範囲と初期値
ダウンミックス係数	範囲 (dB)	初期値 (dB)
α	0 ～ -∞	-4.5
β	0 ～ -∞	-4.5
γ	0 ～ -∞	-3.0
δ	0 ～ -∞	-6.0
ε	0 ～ -∞	-0.0
ζ	+10 ～-∞	-3.0

５．２　ダウンミックス係数の初期値

前節では，ダウンミックス係数を放送局側で設定可能な変数として扱った。一方で，ダウンミックス係数が伝送されない場合にも対応できるように，ほとんどの番組で破綻なく機能するダウンミックス係数の初期値を規定しておく必要がある。そこで，我々はMPEG-4 AACの枠組みで選択できるダウンミックス係数の数値的制約^*2 を考慮し，5.1chと2ch双方の音質を両立できるダウンミックス係数の初期値を導出した¹¹⁾。3表に，ダウンミックス係数の初期値を相対レベル（デシベル値）で示す。

６．ダイアログ制御機能

放送音声に対する視聴者の意見の多くは，ダイアログの聞こえに関するものである¹²⁾。しかし，視聴者の音量に対する好みは年齢や興味の対象によって多様であり，現行の放送音声の仕組みですべての要望に対応することは困難である。一方，国際発信力強化の一環としての多言語放送や，音声解説放送の普及促進¹³⁾，スポーツ番組におけるバックネット音声など，ダイアログに関係のある音声サービスへの関心は高まっている。これらの背景を踏まえ，22.2ch音響の放送サービスにおいて，受信機でダイアログを制御するための仕組みを開発し，ARIBで規格化するとともに⁶⁾，22.2ch音声符号化・復号装置に実装した。

今回実装したダイアログ制御機能は，ダイアログエンハンスメント機能（受信機でのダイアログ信号のレベル調節）とダイアログ信号の差し替え機能の２種類である。従来の22.2ch音響の番組制作との整合性を考慮し，以下の２点に留意した仕組みとした。

ダイアログ制御機能の使用可否を，放送局側で番組ごとに選択できること
従来の22.2ch音響の番組制作を妨げないこと

６．１　ダイアログエンハンスメント機能

ダイアログエンハンスメント機能は，ダイアログチャンネル（ダイアログが再生されるチャンネル）とそれ以外の背景音チャンネルを番組ごとにフラグにより区別して伝送し，ダイアログチャンネルに割り当てられた信号のレベルを，背景音チャンネルの信号から独立して受信機で調節するための機能である。具体例として，4図(a)にダイアログチャンネルの例を示す。この例では，FCとBtFCの２チャンネルをダイアログチャンネルとして選択している。なお，選択可能なダイアログチャンネルの数に制限はない。

放送局側で制御できるパラメーターとしては，ダイアログチャンネルの位置・個数のほか，受信機でのレベル調節範囲の上限・下限が含まれる。また複数のダイアログチャンネルを指定した場合に，各チャンネルに異なる音声信号を割り当てることもできるが，ダイアログチャンネルのレベルは一括して調節することになる。

5図に，試作したダイアログエンハンスメント機能用のユーザーインターフェースを示す。放送局で制作されたダイアログと背景音のレベルバランスの初期値を，中央のインジケーターが示している。レベルバランスを「ダイアログ大」の方向に変化させると，背景音レベルが下がってダイアログが聞きやすくなる。一方，「ダイアログ小」の方向に変化させると，ダイアログのレベルが下がり，背景音（スポーツ番組における競技音など）のみを聞くことができる。

６．２　ダイアログ信号の差し替え機能

ダイアログ信号の差し替え機能は，22.2chの音声信号とは別に差し替え用の追加ダイアログ信号（例：英語/解説放送/バックネット音声）を22.2chと同一の音声ストリーム内のユーザー領域（Data Stream Element：DSE）に埋め込んで伝送し，受信機でダイアログチャンネルにもともと割り当てられていた信号（以下，初期ダイアログ信号）と差し替える機能である。

4図(b)の例に沿って，ダイアログ信号の差し替え機能の概要を説明する。

差し替えの対象となるダイアログチャンネルが１個の場合（例：FC）は，制作時にFCに割り当てられていた初期ダイアログ信号と追加ダイアログ信号とを，受信機で差し替える。
差し替えの対象となるダイアログチャンネルが複数の場合（例：FCとBtFC）は，対象となるすべてのダイアログチャンネルの初期ダイアログ信号が，選択された１個の追加ダイアログ信号と差し替えられる。その際，同一の音声信号を異なるレベルで各ダイアログチャンネルに割り当てている場合は，もともと指定されていたレベル分配比（例：FC → -３dB，BtFC → -０dB）に従って，各ダイアログチャンネルの初期ダイアログ信号と，選択された１個の追加ダイアログ信号とを受信機で差し替える。
初期ダイアログ信号に含まれる背景音と，追加ダイアログ信号に含まれる背景音とを等しくすることで，背景音を含むダイアログ信号の差し替えも可能になる。

なお，追加ダイアログ信号に背景音が含まれない場合には，ダイアログエンハンスメント機能とダイアログ信号の差し替え機能とを組み合わせて運用することも可能である。

７．客観評価試験

開発した22.2ch音声符号化・復号装置の性能を調べるために，音声信号の客観評価法に関するITU-R勧告¹⁴⁾ に準拠してCRC（Communications Research Centre)^*3 が開発したCRC-SEAQ（System for the Evaluation of Audio Quality)^*4 を用いて，客観評価試験を行った。22.2ch音響のサンプル音源の中から8Kのロゴ効果音，オーケストラ，スポーツ，ドラマを選び，非圧縮音と圧縮音を比較した。評価するビットレートは，22.2chの合計で1.4Mbpsとした。客観評価法はマルチチャンネル音響には未対応であるため，ドラマについてはダイアログが割り当てられたFCの信号に，それ以外の音源についてはFLの信号に着目して評価した。なお，マルチチャンネル音響のうちの１チャンネルのみで圧縮符号化の劣化を評価することは，マルチチャンネル音響の特徴である３次元音場の再現性や定位の精度などを評価対象から除外してしまうため，本実験は，主観評価実験の予備実験（結果を予測するための実験）として実施した。

6図に客観評価試験の結果を示す。この結果から，すべての音源の客観評価値^*5 が-1.0を上回っていることが分かる。ITU-R勧告によると，放送品質（放送に適した品質）とは「音質劣化を判別しやすい音源で主観評価値の平均が-1.0以上であること」と規定されている¹⁵⁾。よって今回開発した22.2ch音声符号化・復号装置は，1.4Mbpsのビットレートと評価した音源の範囲において，放送品質を満たすことが予想される。

８．むすび

本稿では，今回開発したMPEG-4 AACを用いた22.2ch音声符号化・復号装置の仕様と性能について述べた。今後は，精緻な主観評価実験を実施し，マルチチャンネル音響用の音声符号化・復号装置としての性能を評価する予定である。

本稿は，音響学会秋季講演論文集およびAESジャパンコンファレンス・名古屋2015に掲載された以下の論文を元に加筆・修正したものである。
杉本，中山：“MPEG-4 AACを用いた22.2ch音声符号化・復号装置の開発，”音響学会秋季講演論文集，2-P-9（2015）

杉本，小森，中山，知念，畠中：“放送サービスにおける22.2ch音響の多機能化，”AESジャパンコンファレンス・名古屋2015，No.2（2015）