映像符号化技術の標準化動向

市ヶ谷 敦郎

1970年代末に開発されたDCT(Discrete Cosine Transform:離散コサイン変換)とハフマン符号化技術を用いて,1980年代から1990年代にかけて,静止画像用の符号化方式であるJPEGの標準化が行われた。その技術は,複数枚の静止画像の集合である動画像信号に拡張され,デジタル方式の映像符号化方式としてH.261およびMPEG-1が,それぞれ1990年と1991年に国際標準化された。これらの方式は,ISDN(Integrated Services Digital Network)回線によるテレビ会議システムや,蓄積メディアとしてのCD(Compact Disc)をターゲットとしていたため,その性能は,当時一般的であった標準テレビ相当の解像度の映像信号を,VHS(Video Home System)程度の品質に圧縮できる程度であった。しかし,これにより基本的な映像符号化方式の有効性が示され,その後,ハイビジョンの普及に伴い,高解像度の映像信号を,放送に適した品質を保ちながら圧縮することを目的としたMPEG-2|H.262やMPEG-4 AVC(Advanced Video Coding)|H.264が標準化された。現在では,これらの符号化方式を使用して,デジタルテレビ放送やDVD(Digital Versatile Disc)/BD(Blu-ray Disc) などで,広くHDTV(High Definition Television) が視聴されている。2013年には,新しい映像フォーマットである4K/8K高解像度映像に対応したMPEG-H|H.265 HEVC(High Efficiency Video Coding)が標準化され,現在,この符号化方式を用いた4K/8K放送サービスの開始に向けて準備が進められている。本稿では,映像メディアの発展とともに進化してきたこれまでの映像符号化方式の標準化動向と,放送サービスにおける映像符号化方式の運用ガイドラインについて解説し,次世代の符号化方式の開発に向けた動向を紹介する。

1.まえがき

NHKでは,次世代の放送サービスとして,3,300万画素の映像と22.2マルチチャンネル音響を持つ8Kスーパーハイビジョン(以下,8K)の研究開発を進めている。その映像フォーマットは,現在のデジタル放送で用いられているハイビジョンの16倍の解像度を持ち,フレーム周波数は最大120Hz,走査方式はプログレッシブ(順次走査方式),信号のビット深度は最大12bitであり,従来のハイビジョンに比べて実物感の高い表現が可能である1)。NHKでは,この8Kシステムのパラメーターの国際標準化作業を進め,実用化を視野に入れた機器開発を行っている。また,国際的な技術協力の下で,インターネットや放送衛星を利用した国際間の8K伝送実験を実施し,技術的な検証も行ってきた2)3)4)5)6)。これらの成果により,総務省を中心として作成されたロードマップにおいて,4K/8Kによる次世代放送サービスの導入が決定し,2020年までに放送衛星を用いてサービスの充実を図ることとなった7)。現在,4K/8K放送サービスの実現を目指して,官民で準備が進められている。

2.映像符号化方式の歴史

1表に,映像メディアを取り巻く主な出来事と,映像符号化方式の標準化の流れを示す。これまで,新たな映像フォーマットの登場は,常にその映像信号データを伝送あるいは記録する技術の発展を後押ししてきた。NHKは1964年に標準テレビ方式の6倍の情報量を持つハイビジョンの研究・開発を開始し,1984年には放送衛星によるハイビジョンの伝送技術としてMUSE(Multiple Sub-Nyquist Sampling Encoding)方式を開発した。1989年には,MUSE方式を用いた実験放送が開始され,放送衛星によってハイビジョン信号を伝送できることが実証された。この成果によりHDTVに対する世界的な関心が高まり,国際的なワークショップなどの場で,ハイビジョン信号の圧縮技術について,アナログ方式とデジタル方式の両面から議論が重ねられた。

1988年にはISO/IEC(International Organization for Standardization / International Electrotechnical Commission:国際標準化機構/際電気標準会議) JTC1(Joint Technical Committee 1)/SC2(Sub Committee 2)/WG8(Working Group 8)が,傘下の画像符号化方式(JPEG:Joint Photographic Experts Group)*1 の標準化活動から派生した映像符号化方式検討グループMPEG(Moving Picture Experts Group)*2 を組織した。当初,MPEGは,当時の大容量記録メディアであったCD-ROMに映像を記録することを目標として,デジタル符号化方式の標準化を開始した。同時期にITU-T(International Telecommunication Union Telecommunication Standardization Sector:国際電気通信連合 電気通信標準化部門)の映像符号化専門家グループであるITU-T SG16(Study Group 16)/WP3(Working Party 3)/Q.6(Question 6)VCEG(Video Coding Experts Group)では,ISDN回線を用いたテレビ会議システム用の映像符号化方式を検討していたことから,MPEGとVCEGは技術交流を進め,VCEGは1990年に64kbpsの伝送路を想定した映像符号化方式としてH.2618) を,MPEGは1991年に1.5Mbpsを上限とする蓄積用の映像符号化方式としてMPEG-19) を,それぞれ標準化した。

MPEG-1はデータの蓄積を目的としていたため,エラーフリーの環境が前提であり,また,映像の品質もVHS程度であった。そこで,MPEGはMPEG-1の機能を拡張・強化し,1995年に,汎用・高品質な映像符号化方式として,ハイビジョンをサポートしたMPEG-210) を標準化し,同時にVCEGはITU-TにおいてH.262(以下,MPEG-2)11) としてこれを標準化した。MPEG-2はその高い符号化性能と汎用性により,放送をはじめ通信や,DVDなどの蓄積メディアへと爆発的に普及し,日本をはじめ各国のデジタルテレビ放送にも採用された。

VCEGは同時期に,狭帯域用の符号化方式の開発を目的として,H.261をさらに高効率化したH.263を1996年に標準化した。MPEGではこのH.263をベースに,エラー耐性の強化を主としたさまざまな改良を加え,1998年にMPEG-4として標準化した。

その後,ハイビジョンの普及が進み,新たな大容量蓄積メディアとしてBDが開発され,また,1999年に第3世代移動通信システム(3G)の国際標準化が成立し,携帯電話のデジタル通信網を利用した映像伝送が可能になったことから,新しい符号化方式の標準化が検討された。そして2001年に,MPEGとVCEGは共同作業班JVT(Joint Video Team)を結成し,モバイル機器を用いた映像配信サービスから4K相当の解像度の映像信号までを視野に入れた新しい符号化方式の標準化を開始した。この方式はMPEG-2の倍の符号化効率を達成し,MPEG-4 AVC|ITU-T H.264(以下,AVC)12)13) として2003年に標準化された。AVCは低ビットレート下における優れた符号化性能から,国内の放送においては,モバイル受信機向けのワンセグサービスに採用されている。このように映像信号の符号化方式は,新しい映像メディアおよび配信網の発展とともに進化を続けている。

2006年には新たに,ハイビジョンを大きく上回る高解像度映像フォーマットである4K/8Kが,UHDTV(Ultra High Definition Television)の呼称で国際標準化14) された。また,同時期にネットワークサービスでは,YouTubeに代表されるストリーミングサービス*3 などの新たな映像配信サービスが普及期を迎えており,回線容量の逼迫が問題となっていた。このような状況の下,2010年1月にMPEGは,AVCの2倍の符号化効率改善を目標として,新映像符号化方式であるHEVCの標準化をVCEGと共同で開始することを決議した。

HEVCの標準化は,MPEGとVCEGで結成した共同作業班JCT-VC(Joint Collaborative Team on Video Coding)によって進められた。JCT-VCが策定した規格案をそれぞれの標準化機関が承認することで標準化が行われ,2013年にそれぞれISO/IEC 23008-2,Rec. ITU-T H.26515)16) の第一版として標準化された。なお,MPEGではISO/IEC 23008の標準名がMPEG-Hであり,映像符号化が第2編であることからMPEG-H part2と呼び,ITU-TではH.265と呼ばれるが,一般的にはそれぞれの規格文書のタイトル名からHEVCと呼ばれ,普及が始まっている。

1表 映像メディアを取り巻く主な出来事と映像符号化方式の標準化の流れ

3.HEVCの標準化活動

3.1 HEVC標準化の流れ

HEVCの第一版の標準化作業は,2010年4月の第1回JCT-VC会合から2013年1月の第12回JCT-VC会合までの12回の会合において行われた。第12回会合で発行された規格文書案は,ISO/IECとITU-Tのそれぞれの標準化プロセスにのっとり承認・投票を経て,2013年4月と12月に,それぞれRec. ITU-T H.265とISO/IEC 23008-2の第一版として発行された。

第一版は最も汎用的に用いられる符号化ツールセット*4(プロファイルと呼ぶ)を標準化している。第一版の規格においては,輝度・色差信号の画素構造が4:2:0*5,信号の階調が8または10bitの信号を符号化の対象としている。第一版では,それらの信号を静止画として符号化する符号化信号階調が8bitの静止画用プロファイル(Main Still Pictureプロファイル),符号化信号階調が8bitの動画用プロファイルとしてMainプロファイル,および符号化信号階調が10bitの動画用プロファイルとしてMain10プロファイルの3つが規定された。

次に,HEVCの標準化会合における標準化作業の進め方について解説する。HEVCの標準化における主な出来事を2表に示す。HEVCの標準化を進めるにあたり,JCT-VCは新符号化方式の元となる方式を公募した。第1回JCT-VC会合では,NHKを含め公募に応じた27の機関から方式の提案があり,そのうちの5方式を基に,有力な符号化ツールを組み合わせ,基準となる符号化方式であるHEVC Test Model(通称HM)および規格文書案を策定した。新しい技術を提案する機関は,各会合ごとに,処理量と性能の2点について,HMに対する改善を定量的に示す必要があり,併せて提案方式とそれまでの規格文書案との差分文書を用意する必要がある。提案された技術については,上記の2点についての分析結果と,規格文書案の正確性・明瞭性が評価され,採用の要否が議論される。採用された技術は会合後にまとめてHMに実装され,併せて規格文書案も更新される。次の会合では改訂されたHMと規格文書案を新たな基準とし,さらなる改善技術の提案が行われる。この仕組みによって,各会合ごとに符号化方式の性能の向上と文書案の完成度の向上を実現していった。現在も,拡張規格の標準化が同様の手法で行われている。

NHKは第1回JCT-VC会合からHEVCの標準化に寄与しており,新符号化方式の提案をはじめ,イントラ予測技術,変換技術を中心に技術提案を行った。また,8Kテストシーケンスの提供を行うなど,HEVCにおける8Kのサポートの実現に貢献した。

2表 HEVCの標準化における主な出来事
2010年4月 第1回会合 27の機関から27件の符号化方式の提案
5方式を基に基準ソフトを策定
2010年7月 第2回会合 基準ソフトの性能評価グループを設立
2010年10月 第3回会合 基準ソフトHM1.0と規格化作業文書1.0を発行
2012年2月 第8回会合 Mainプロファイル/レベル案策定
委員会原案発行
2012年7月 第10回会合 国際規格案発行
2012年10月 第11回会合 Main10プロファイル/Main still pictureプロファイル策定
2013年1月 第12回会合 最終国際規格案発行

3.2 HEVC拡張規格

HEVCに関しては,2013年の第一版の標準化後も拡張規格の標準化が続いている。2014年には,プロフェッショナルユースを想定した信号フォーマットの拡張,空間・時間階層符号化に関する拡張,多視点映像に関する拡張,3D映像の符号化のための拡張が第二版として標準化された。信号フォーマットの拡張は,放送業務用の拡張とも言える拡張方式となっており,放送において重要な拡張である。前述のように,第一版で標準化したプロファイルは,画素構造を4:2:0,信号の階調を8または10bitの信号にして符号化処理を行う。これらのプロファイルは,映像制作現場で一般的に用いられる4:2:2や4:4:4,あるいは12bit以上の高階調信号を高品質に符号化することはできない。第二版ではこれらのプロフェッショナルユースの信号を高品質かつ効率的に符号化するための機能を拡張している。これらを含め,第二版では画素構造,階調,符号化制御の組み合わせによって22種類のプロファイルが規定されており,さまざまな用途に対応している。これらのプロファイルは,放送における素材伝送や映像編集などにおける利用が想定されている。

また,さらなる拡張機能として,スクリーンコンテンツと呼ばれるGUI(Graphical User Interface),ゲーム画面などのCG(Computer Graphics)類に特化した拡張が行われている。将来のワイヤレスディスプレーなどを利用シーンとして想定しており,この拡張方式は2016年2月までに第三版として標準化作業を終える予定である。

4.超高精細度テレビジョン放送における映像符号化方式

4.1 超高精細度テレビジョン放送に向けた映像符号化方式の標準化

国内では2013年に,総務省から4K/8K推進のためのロードマップが公表され,これを受けて,オールジャパンで4K/8Kを推進するために,次世代放送推進フォーラム(以下,NexTV-F)が設立された。それ以降,NexTV-Fを中心に,官民を挙げて放送方式の策定,機器の開発などが進められている。また,放送における映像符号化方式の標準化作業は,電波産業会(ARIB:Association of Radio Industries and Businesses)デジタル放送システム開発部会の映像符号化方式作業班で進められ,映像符号化方式としてHEVCを採用し,符号化および多重化の標準規格であるARIB STD-B32を策定した17)

現在のデジタルテレビ放送に採用されている各符号化方式とHEVCとの特徴的な違いを3表に示す。HEVCは,MPEG-2やAVCと同様に,映像信号をブロックに分割して,動き補償予測,直交変換,エントロピー符号化*6 を組み合わせて符号化を行うハイブリッド符号化の仕組みを踏襲している。しかし3表に示すとおり,それぞれの符号化機能は柔軟に拡張され,多種の符号化モードが選択可能となっている。これらの符号化モードの組み合わせを適切に制御することにより,従来の符号化方式と比べて,絵柄に適した符号化処理が可能であり,AVCに対しては約2倍の圧縮効率の改善が実現されている。一方で,符号化処理においては,絵柄に応じて符号化モードの最適な組み合わせを探索する必要があり,情報量の多い高解像度映像ほど,リアルタイム処理の実現が難しくなっている。

HEVCのエンコーダーとデコーダーについては,開発が比較的容易な4K放送向けの機器は既に普及価格帯で整備できることから,同方式を用いた4K放送サービスが,2014年6月より通信衛星(CS:Communications Satellite)を用いて開始されている(2015年3月より商業放送を開始)。4K/8Kの放送衛星(BS)によるサービスについては,2016年の試験放送開始を目指しており,そこで用いられるHEVCの放送用符号化方式は,2016年時点での実現可能性を考慮して,運用ガイドライン(ARIB STD-B32に付属)によっていくつかの制限事項を設けたものとなっている。次節では,4K/8K放送サービスにおける主な運用上の制限事項について解説する。

3表 各符号化方式の違い
MPEG-2 MPEG-4 AVC/H.264 MPEG-H HEVC
対応フォーマット※1(最大) 1,080/60/P(HDTV) 2,160/60/P(4K※2) 4,320/120/P(8K)
符号化ブロック 16×16 16×16 8×8~64×64
直交変換 実数DCT(8×8) 整数精度DCT(8×8,4×4) 整数精度DCT/DST,
変換スキップ※3(4×4~32×32)
画面内予測 なし 4×4,8×8で9モード※4
16×16で4モード
4×4~64×64で35モード
動き補償予測 16×16,16×8,
1/2画素精度予測
動きベクトル予測なし
4×4 ~ 16×16,
1/4画素精度予測
周辺ブロックの動き
ベクトルの中央値による予測
8×4/4×8 ~ 64×64,
1/4画素精度予測
最適な周辺ブロックの動き
ベクトルによる予測+ベクトルマージ※5
インループフィルター※6 なし デブロッキングフィルター※7 デブロッキングフィルター
画素適応オフセット※8
エントロピー符号化 2次元VLC※9 CAVLC※10またはCABAC※11 CABAC

※1 垂直方向のサンプル数/フレーム周波数/走査方式(インタレース走査(I)または順次走査(P))を表す。
※2 8Kまで拡張する予定。
※3 変換を適用しないモード。
※4 垂直・水平・斜めおよび平均値による予測。
※5 隣接するブロックの動き情報を再利用する動き補償予測。
※6 符号化における制御ループ内に組み込まれたフィルター。
※7 ブロック単位の符号化処理に起因するブロック状の符号化ひずみを低減するためのフィルター。
※8 ブロック内の画素ごとにオフセット処理を行い,高画質化を実現するフィルター技術。
※9 VLC (Variable Length Code):可変長符号化技術の一つ。事前に設計した統計モデルを基に,発生頻度の高いシンボルに短い符号を割り当てることで,符号量を少なくする技術。
※10 CAVLC (Context Adaptive Variable Length Coding):可変長符号(算術符号)の一種。入力信号に応じたシンボルの発生頻度を基に,最適な符号を割り当てることで,VLCよりも効率的な符号化を実現する技術。
※11 CABAC (Context Adaptive Binary Arithmetic Coding):可変長符号(算術符号)の一種。CAVLCと異なり2値で表されたシンボルのビットごとに発生頻度を測定し,最適な符号化を実現する技術。CAVLCよりも高性能だが処理が重い。

4.2 放送サービスと映像符号化方式

超高精細度テレビジョン放送では,4K/8Kのコンテンツに加え,これまでの多くの映像資産の再利用を考慮し,現在のデジタルテレビ放送で用いられているハイビジョンのコンテンツも放送可能となっている。放送可能な映像フォーマットと,それぞれのフォーマットに対し適用するプロファイルとレベル*7 は,4表のように定められている。

4表の映像フォーマットは,現在のデジタルテレビ放送を超える高品質のテレビジョンサービスを目指しており,すべてのフォーマットで,階調を示す画素ビット数は,従来の8bitに対し,より高品質な10bitで符号化を行うMain10プロファイルで符号化することが規定されている。ただし,ハイビジョン映像(1,080/60/Iまたは1,080/60/P)のみ,従来の放送との互換性を考慮し,Mainプロファイルでの放送が許容されている。

フレーム周波数に関しては,従来のハイビジョンの放送コンテンツが60Hzで制作されていること,4K/8Kの初期の普及価格帯のディスプレーが60Hzまでの表示能力しか持たないことが予想されるため,フレーム周波数120Hzで放送したときにも,60Hzの受信機でサービスが受けられるように,階層符号化*8 を可能としている。また,ARIB映像符号化方式作業班では,本符号化方式の映像フォーマットごとに,放送に適した品質でコンテンツを送るための所要ビットレートを主観評価実験によって推定した。4表のビットレート上限は,この実験で推定されたビットレートを基に,推奨されるビットレートとして規定されている。

4表 超高精細度テレビジョン放送の映像フォーマットとプロファイルおよびレベル
パラメーター 1,080/60/I 1,080/60/P 2,160/60/P 2,160/120/P 4,320/60/P 4,320/120/P
有効サンプル数 1,920×1,080 3,840×2,160(4K) 7,680×4,320(8K)
フレーム周波数(Hz) 29.97,30 59.94,60 59.94,60 119.88, 120 59.94,60 119.88, 120
カラリメトリ※1 Rec. ITU-R BT.709,
IEC 61966-2-4(xvYCC)
Rec. ITU-R BT.2020
色差フォーマット Y'C'BC'R 4:2:0
画素ビット数 8 bit, 10 bit 10 bit
プロファイル Main /Main10 Main10
レベル 4.1 5.1 5.2 6.1 6.2
Tier※2 Main Tier
ビットレート上限 20 Mbps 40 Mbps 50 Mbps 120 Mbps 150 Mbps
時間方向階層符号化 - - - あり - あり

※1 色の信号表現方法に関する規定。
※2 アプリケーションごとに求められるビットレートの違いを区別するための概念。MainとHighの2種が規定されており,放送ではMain Tierが用いられる。

5. 次世代符号化方式の動向

HEVCの標準化作業はほぼ終了に向かっており,MPEG,VCEGともに,次世代の映像符号化方式の可能性の検討を開始している。MPEGでは,2014年10月のストラスブール会合においてワークショップを開催し,次世代映像符号化方式に求められる標準化の時期,機能,性能などについて議論を行った。

近年の映像メディアの視聴スタイルの変化として,スマートフォンによる映像コンテンツの視聴行動に注目が集まっている。わが国では,スマートフォンによるワンセグあるいはフルセグ(通常のデジタルテレビ放送)の視聴環境が整いつつあるが,上記のワークショップで注目されたのは,一般のユーザーによる動画のアップロード/ダウンロード行動である。スマートフォンの高機能化により,誰でも気軽に高解像度の動画を撮影できるようになり,また,それを動画サーバーにアップロードして,公開できるようになった。このように端末の性能が著しく向上したことにより,動画サーバーに求められるストレージ容量が加速度的に増え続けており,映像符号化方式においても,蓄積メディアにおける符号化効率の改善が,産業上の観点から,放送に並ぶ重要なアプリケーションとなっている。このような背景の下で,現在,次世代符号化方式の目標とする標準化の時期,機能,性能について次のように検討されている。

(1)標準化の時期

通信分野では第5世代通信方式(通称5G)の標準化活動が2020年を目標に行われている。また,2020年はHEVCの標準化から約7年であり,4K/8Kも一般に普及する時期と予想され,新たな符号化方式への需要が高くなると考えられる。そこで,次世代符号化方式の標準化についても,2020年を目標とすることが検討されている。

(2)映像フォーマット

携帯機器の高解像度化が進んでいるため,低解像度フォーマットに対応することの必要性が再検討される見込みである。現時点では,ハイビジョンやUHDTV,HDR(High Dynamic Range)映像*9 の重要性が高いと考えられている。

(3)リアルタイム性

ストリーミングサービスの重要性が上がっており,それらのサービスでは処理量やリアルタイム性は重要ではない。そこで次世代符号化方式においても,リアルタイム性を重視した方式か符号化性能を重視した(リアルタイム性を重視しない)方式かを選択できることが望ましいと考えられている。

(4)符号化性能

リアルタイム性を考慮する場合はHEVCに対して30%程度の符号化効率の改善,考慮しない場合にはHEVCの倍の符号化効率の改善を目標とすることが検討されている。

6.あとがき

前章で述べたような要求性能案を基に,HMをベースとしてHEVCを拡張した方式がいくつか報告されている。それらの方式は,HEVCの標準化において符号化効率の点では有効でありながら処理量の観点から採用が見送られた技術が中心となっている。そのため,例えば,処理量はHEVCの10倍となるが,20%弱の符号化効率の改善を達成できる可能性などが報告されている。今後,さらなる要求条件の精査と,符号化効率改善の可能性の探索が行われ,次世代符号化方式の検討が進められる予定である。

2020年には東京オリンピック・パラリンピックの開催が予定され,4K/8Kの衛星放送サービスも普及期を迎えると予想される。その次には,4K/8Kの地上放送サービスへの展開も視野に入ってくると考えられ,HEVCを超える符号化方式が求められる。NHKとしても,4K/8Kの地上放送サービスの実現に向けて,更なる高効率符号化方式の実現を目指し,次世代符号化方式の研究を推進していく。