次世代映像符号化方式の標準化動向

市ヶ谷 敦郎

映像符号化技術は,映像信号の記録媒体あるいは映像伝送技術の発展とともに,その進化と高度化が図られてきた。2013年には,新映像システムである4K/8Kスーパーハイビジョンを効率的に符号化することを目的として,新たな国際映像符号化方式であるHEVC(High Efficiency Video Coding) が,国際標準化機関であるISO(International Organization for Standardization:国際標準化機構) とIEC(International Electrotechnical Commission: 国際電気標準会議)の合同技術委員会およびITU-T(International Telecommunication Union Telecommunication Standardization Sector:国際電気通信連合 電気通信標準化部門)によって標準化された。当所もこの標準化活動に携わるとともに,スーパーハイビジョン放送の実現に向けて研究開発を進めてきた。そして2018年12月には,世界初の4K/8Kスーパーハイビジョンの衛星放送サービス(新4K8K衛星放送)が開始された。今後,衛星放送に比べ伝送容量が限られる地上放送でスーパーハイビジョンを実現するためには,さらなる符号化効率の改善が必要となる。当所は,符号化効率のさらなる改善を目指した研究開発を進めるとともに,国際標準化活動に参加し,次世代映像符号化方式の標準化を推進している。本稿では,これまでの取り組みを紹介するとともに,より高性能な映像符号化方式として,国際標準化機関で標準化が開始されたVVC(Versatile Video Coding)の技術動向について解説する。

1.スーパーハイビジョン放送と映像符号化方式

当所では8Kスーパーハイビジョン(以下,8K)の放送を実現することを目的に,映像符号化方式の研究開発を行ってきた。8Kは画素数が現在のハイビジョンに比べ16倍という極めて情報量の多い映像信号であり,従来の符号化方式では8K放送を実現することは困難であった。当所ではスーパーハイビジョン映像システムの開発に合わせて,MPEG-2(ISO/IEC 13818-2|Rec. ITU-T H.262)1)あるいはAVC(Advanced Video Coding)(ISO/IEC 14496-10|Rec. ITU-T H.264)2)をベースとした符号化システムの開発を行ってきた3)4)。しかし,MPEG-2およびAVCのいずれの方式もハイビジョン映像(2K)の符号化をターゲットとしていたため,2009年から本格的に8Kを視野に入れた符号化方式の開発を開始した。

当時,国際標準化機関でも,映像のネットワーク配信サービスの普及に伴うネットワークの輻輳が問題となっており,それまでの映像符号化方式を大きく超える符号化方式の開発が検討されていた。そこで符号化の対象フォーマットとして8K(フレーム周波数120Hz)までカバーすることを当所から働きかけるなど,8Kをサポートする初の映像符号化方式の実現に向け,HEVCの標準化に参画した。

2013年には,HEVCの基本的な符号化方式の標準化が完了し,ISO/IECとITU-TのそれぞれでISO/IEC 23008-2|Rec. ITU-T H.2655)として標準化された。HEVCは,8K映像における圧縮性能がAVCの倍以上であることが確認され,2018年12月に開始された新4K8K衛星放送の実現においてカギとなる符号化方式となった。

この新4K8K衛星放送におけるHEVCの特徴は,優れた映像圧縮性能に加え,フレーム周波数の高い放送を行う際に「時間スケーラブル」と呼ばれる下位互換機能を持つことである。この時間スケーラブル機能とは,1秒当たりのフレーム数が多い高フレーム周波数の映像を符号化した際に,符号化した信号の一部のみを取り出すことで,1秒当たりのフレーム数が少ない低フレーム周波数での映像再生を可能とする機能である。8Kの最大フレーム周波数は120Hz(1秒当たり120枚の画像が表示されること)であるが,新4K8K衛星放送を含めて,現在普及している一般的な映像信号の多くでは,フレーム周波数は60Hzである。そのため,現在普及しているテレビ受信機は一般的に60Hz表示に対応しているが,120Hz表示には対応していない。時間スケーラブル機能がない場合,将来,フレーム周波数120Hzによる放送が開始されると,60Hzに対応した受信機では,120Hz放送に対応するための変換機能か,外付けの変換機がなければ映像が表示されないという問題が生じる。しかし,HEVCを採用することにより,フレーム周波数120Hzによる放送が行われた場合でも,時間スケーラブル機能によって,60Hz表示のみに対応した受信機においても問題なく映像を表示することができる。これによって,将来,放送事業者からフレーム周波数120Hzの高機能サービスが提供された場合でも,より高品質な映像を望む視聴者は120Hz表示が可能な高機能受信機を,またそうでない人は60Hz受信機を追加機器なしに選択可能となる。

このように,HEVCは4K/8Kスーパーハイビジョン放送に適した符号化方式である。新4K8K衛星放送においては,時間スケーラブル機能を用いた120Hz放送が可能な方式が採用されており6),当所では,世界初の120Hz/60Hz受信が可能なコーデックシステムを開発した7)。8Kに対応したHEVCコーデックの開発については,本特集号の報告1「8K120Hz映像符号化・復号装置の開発」を参照していただきたい。

新4K8K衛星放送の実現においては,HEVCの映像圧縮性能や時間スケーラブル機能に加え,大容量のデータを伝送する能力が必要とされた。今後,電波資源がより限定される地上放送でスーパーハイビジョンを実現するためには,なお一層の映像圧縮効率の改善が求められる。

2.次世代映像符号化方式の標準化動向

2.1 新たな符号化方式への要求条件

2013年のHEVCの標準化以降,産業界からの要請により,ゲームやGUI(Graphical User Interface)などのCG(Computer Graphics)映像信号に特化したHEVCの拡張が進められた。その過程において,映像フォーマットとしてHDR(High Dynamic Range)への拡張や,HMD(Head Mount Display)の普及に対応するための360°全天周映像への拡張が求められた。この時点でHEVCの基本方式の標準化はすでに終了していたため,これらの拡張については,映像フォーマットに応じた識別信号と補助情報による画質補償技術の標準化のみを行うこととし,これらの拡張に関連した符号化処理の検討は,次世代の映像符号化方式に残された課題となった。

また,映像メディアを取り巻く新たな技術革新として,5Gと呼ばれる第5世代移動通信システムが注目されている。5Gはスマートフォンに限らず,さまざまな機器によるネットワーク接続を想定した伝送技術であり,現在主流となっている4Gに比べ10倍とも20倍とも言われる伝送速度を実現することができる。5Gは,わが国では2020年ごろの実用化が予定され,主要なサービスの1つとして8Kを含む映像配信が想定されている。優れた伝送品質を実現可能な5Gではあるが,複数のユーザーで伝送容量を分け合って複数のコンテンツを伝送することが想定され,8Kを伝送するためには,HEVCを上回る一層の映像圧縮性能が求められている。

以上で述べたような背景から,2015年に,次世代映像符号化方式の要求条件の検討や技術的裏付けの探索などを行う共同探索チームJVET(Joint Video Exploration Team)*1 が立ち上げられ,次世代映像符号化方式の標準化に向けた事前検証が開始された。

JVETは,次世代映像符号化方式がHEVCの標準化からおよそ10年後となる2020年ごろから使用されることを想定し,その符号化方式に求められる要求条件を広く産業界から募った。その結果,従来の符号化方式に求められてきた機能に加え,以下のような要求条件が挙げられた8)

  • HDRを含む高精細映像への一層の最適化。
  • リアルタイム性が重視される放送のみならず,非リアルタイム符号化を用いるストリーミングに適した方式であること。
  • 360°全天周映像,拡張現実感(Augmented Reality:AR)技術,および仮想現実感(Virtual Reality:VR)技術で用いられる新たな映像システムを対象とすること。
  • HEVCに対して30%(CGなど特殊な用途では50%)以上,符号化効率が改善されること。

当所も,スーパーハイビジョン地上放送の実現に向けて,要求条件の策定の段階から,この次世代映像符号化方式の標準化活動に参画している。そして,HEVCのさらなる改善点の報告,および改善技術の提案を行うとともに,次世代映像符号化方式の課題となっているHDRサポート技術を検証するために,HDRの一方式であるHLG(Hybrid Log- Gamma)方式の評価映像を提供するなど,標準化を積極的に推進している。また,要求条件を満たす方式が技術的に実現可能かどうかを見極めるために実施されたCfE(Call for Evidence:技術的根拠の募集)においては,HDRに関する評価試験を担当するなど,技術的貢献も行っている。

2017年7月に行われたCfEの結果,上記の要求条件を満足する次世代映像符号化方式の実現可能性が確認された。これにより,MPEGとVCEGは次世代映像符号化方式の標準化を2018年4月から共同で開始することを決定した。標準化の開始に先立ち,2017年10月にはCall for Proposal(CfP:提案募集)が発行され,次世代映像符号化方式の技術提案募集が広く行われた。

2.2 VVC(Versatile Video Coding)の標準化プロセスおよびスケジュール

次世代映像符号化方式の標準化活動が,それまでの検証フェーズから標準化フェーズに移行したことにより,それまでのJVET(Joint Video Exploration Team)は,標準化作業を行う専門家による共同作業チームとして,新たにJVET(Joint Video Experts Team)と改称し,次世代映像符号化方式の標準化作業を開始した。標準化フェーズへの移行に伴って,次世代映像符号化方式はVVC(Versatile Video Coding)と呼ばれるようになった。

一般に,ISO/IECの傘下の組織であるMPEGの標準化においては,国際規格の発行までにいくつかの投票プロセスが設けられ,標準方式の品質を高めている。標準化が開始されると,最初に,作業グループであるMPEG(WG11)において,規格の原案となる作業文書(Working Draft:WD)の作成に着手する。複数回の会合を経て,WDが規格原案として成熟した段階で,委員会原案(Committee Draft:CD)として,分科会(SC29)の参加メンバーによる投票が行われる。承認されると,CDは国際規格原案(Draft International Standard:DIS)として登録される。次に,DISに関して,ISO/IECに参加しているすべてのメンバーによる投票(DIS投票)が行われ,承認されると最終国際規格案(Final Draft International Standard:FDIS)として登録される。さらに,FDISに関する投票(FDIS投票)で承認されると,国際規格(InternationalStandard:IS)として発行される。FDIS投票では,規格内容の修正が認められない点が,DIS投票との大きな違いである。このため,DIS投票の結果,例えば修正コメントなく承認された場合などは,FDIS投票を省略することもできる。

VVCの標準化のスケジュールでは,これらのプロセスを考慮し,5Gの普及期に標準化が完了することを目標に,2019年7月のCD発行,2020年1月のDIS発行,2020年7月のFDIS発行を目標として,標準化が進められている(1図)。

本稿の執筆時点では,作業文書(WD)の改訂が進み,標準方式の参照ソフトウェアモデル*2 であるVTM(VVC Test Model)およびWDは,第四版まで改訂が進められている。ただし1図のスケジュールは,今後変更される可能性もある。

1図 VVC の標準化スケジュール

2.3 VVCの概要

VVCの基本的な構成は,当所の提案も含め,提案募集に応じた22の提案方式を元に決定された。22のすべての提案方式を分析した結果,いずれの提案もHEVCなどの従来の符号化方式の仕組みを踏襲しており,それぞれの違いは,符号化ブロックの構造,イントラ(画面内)予測,インター(動き補償)予測,直交変換,量子化,ループフィルター,エントロピー符号化/復号に分類される要素技術の改善の度合いの違いであることが明らかになった9)10)。ほぼすべての提案方式でHEVCを大きく上回る性能が得られたことから,VVCの基本的な構成も,既存の符号化方式と同じ構成とし,構成要素技術の改善を進めることとした。本節では,それぞれの要素技術について,特徴的な技術的改善点を示す11)12)

(1)符号化ブロック

HEVCなどの従来の符号化方式では,画面を矩形に分割したブロック単位で符号化処理を行う。これにより,絵柄の局所的な特徴に適した符号化処理が可能となり,符号化効率が改善する。HEVCでは,2図(b)に示すように,この符号化ブロックを階層的な四分木分割(垂直および水平に4分割する分割)により構成し,大きさの異なる符号化ブロックの実現により,柔軟な符号化処理を実現した。VVCでは,2図(a)に示すように,四分木分割に加えて水平もしくは垂直に2分割または3分割する二分木分割および三分木分割を階層的に選択可能とした。これにより,2図(c)に示すように,より柔軟な分割形状が実現できるようになっている。また,最大のブロックサイズを128×128画素(HEVCでは64×64画素)に拡張することで,特に高解像度映像における符号化効率を向上させている。

2図 VVC における柔軟なブロック分割

(2)イントラ(画面内)予測

前項で述べたように,映像符号化においては,原画像を分割し,符号化ブロック単位で符号化処理を行う。基本的には,左上に位置する符号化ブロックから順に右下に向かって符号化処理を行い,各ブロックの符号化処理の終了時に,次のブロックの符号化処理に利用するために,そのブロックを順次復号する。これにより,現在符号化処理を行っているブロック(以下,符号化対象ブロック)の上側や左側に位置するブロックは復号済みになり,符号化処理で利用可能となる。イントラ予測は,これらの復号済みブロックの信号(参照信号と呼ぶ)を基に,符号化対象ブロックの信号を予測する処理である。これにより,原画像と予測画像の差分情報のみを符号化することで,符号化効率を上げることができる。HEVCでは信号予測手法が35種類用意され,ブロックごとに最適な1つの予測モードが選択される。

VVCでは予測手法が67種類に拡張され,より予測精度の高い信号予測を実現している。また,HEVCでは特殊な用途向けの予測手法としてのみ採用されていた「色成分間予測」が汎用用途向けに採用されている。色成分間予測は,3図に示すように,色差信号の符号化に先んじて輝度信号を符号化することにより,同じ領域の色差信号の予測に,復号済みの輝度信号を用いて線形予測を行う手法である。3図の「RecY’」は復号済み輝度信号,「PredCb」は色差信号CbのRecY’を用いた予測信号,「PredCr」は色差信号CrのRecY’を用いた予測信号を表しており,輝度信号と色差信号の相関が高い信号において効果的な予測を実現する。

3図 色成分間予測

(3)インター(動き補償)予測

動画の符号化では,時間方向に連続する映像をフレーム単位に符号化している。符号化ブロックが逐次復号されながら符号化処理が終了し,復号済みとなったフレームの信号を用いて符号化対象ブロックの予測を行う処理を「インター予測」と呼ぶ。被写体の剛体並進運動(物体が平行移動する運動)を想定する場合,時間距離*3 の近いフレームには,符号化対象ブロックを効率的に予測可能な領域が高確率で含まれており,その領域がどこであるかを示すベクトル(「動きベクトル」と呼ぶ)を符号化する。HEVCでは,近接する領域の動きは似ているという性質を応用し,複数の復号済み符号化ブロックの動きベクトルを,符号化対象ブロックの動きベクトルの予測値として用い,実際の動きベクトルと予測値との差分情報のみを符号化することにより,効率的な動きベクトル情報の伝送を実現する。

しかし,被写体が回転運動をする場合,ブロック内の局所的な動きは1本の動きベクトルで予測することが難しく,既存の符号化方式では効率的な符号化が困難なケースとして知られている。そこで,VVCでは上記の動きベクトル予測に加え,周囲のブロックの動きベクトルを用いて,符号化対象ブロック内のサブブロックと呼ばれる小領域ごとの動きベクトルを算出するモードが追加された(4図)。これにより,従来の剛体並進運動を仮定したインター予測では予測できなかった回転やズームなどの動きを高精度に予測できるようになった。

前述のように,剛体並進運動を行う物体の画像は,時間距離の近い復号済みのフレームにより効率的に予測可能であり,2枚の復号済みのフレームから符号化対象ブロックを予測する双予測においては,予測画像生成に用いる2つの復号済みの領域(以下,参照画像)間の相関が非常に高くなる。しかしながら,実際には厳密な剛体並進運動を行う現象は稀まれであり,符号化ブロックの局所領域ごとに僅かに異なる動きを行っている場合が多い。そこでVVCでは,参照画像間の相関の低い領域については周囲の画素値の勾配を基に動きベクトルの補正を行う手法が採用されており,インター予測の精度向上に寄与している。

4図 VVC における小領域の動きベクトルの算出

(4)直交変換

前述のイントラ予測,インター予測によって効率的な信号予測が行えるが,予測には誤差(残差信号)が含まれる。この残差信号の分布特性を符号化しやすいように変換するために2次元直交変換が用いられる。直交変換は,イントラ/インター予測による信号予測によって生成された予測信号と原信号の誤差を周波数変換する際に用いられ,信号を特定の直交変換係数に集中させることにより符号化効率を向上させる技術である。既存方式の多くでは1種類の直交変換が用いられていたが,HEVCでは最大2種類の直交変換が選択でき,また,直交変換を適用しないという選択肢が用意された。VVCでは,3種類の直交変換が用意され,さらに残差信号の分布特性に適した変換が選択できるようになった。これにより,符号化効率がさらに改善された。

(5)量子化

直交変換により得られた係数の情報量を削減するために,係数の量子化処理が行われる。従来の符号化方式では,2次元直交変換の係数の位置ごとに量子化の程度を切り替え可能とし,量子化処理には1種類の入出力特性を持つ量子化器が用いられていた。それに対してVVCでは,隣接する係数の値に応じて,2種類の入出力特性を持つ異なる量子化器を適応的に切り替えることができる。これにより,符号量を増やすことなく,量子化誤差の少ない適応量子化を実現している。

(6)ループフィルター

ループフィルターとは,復号された信号の主観品質の向上を目的として,符号化処理によって生じる特徴的な信号劣化を低減するフィルター処理である。フィルター処理された信号を符号化処理ループの中で再利用することからループフィルターと呼ぶ。

ブロック単位で符号化処理を行う映像符号化方式においては,ブロックごとに異なる符号化品質で符号化が行われる。この品質差が,ブロック境界において視覚的に目立ちやすくなることがある。このブロック境界に生じる品質差を低減するために,デブロッキングフィルターが用いられる。HEVCでは,周辺の符号化ブロックの予測モードの違いや量子化パラメーターの差に応じてフィルターの強度を制御し*4,主観的な品質の向上を実現している。

VVCでは,輝度信号の値の違いに応じて視覚的な劣化の見えやすさが異なることを考慮して,輝度信号の値に応じたフィルターの制御が加えられた。さらに,復号画像の小領域ごとに,エッジ特徴*5 や画素値の傾向に応じた複数の後処理フィルター*6 が用意され,画質向上に適したフィルターセットを選択可能となっている。このような後処理フィルターは,従来は最終出力画像にのみ適用されてきたが,予測効率の改善に顕著な効果を示すことから,VVCでは,符号化処理に用いるフィルター(ループフィルター)として採用された(一部の処理はHEVCでも採用)。

(7)エントロピー符号化/復号

予測モードや変換係数などの符号化情報は,コンテキスト適応算術符号化(CABAC: Context Adaptive Binary Arithmetic Coding)*7 という手法により可逆符号化*8 される。CABACによる算術符号化においては,符号化する現在の信号の値を基に,状態遷移モデル*9 に基づいて,次の信号の値の確率分布を推定する。HEVCでは1種類の簡易な状態遷移モデルにより推定しているが,VVCでは,2種類の状態遷移モデルを採用することにより,確率分布の推定精度が向上し,符号化効率が改善されている。

以上で述べた要素技術については,本稿執筆時点のWDを元に記述している。そのため,今後の標準化の動向によっては,最終的な標準方式として採用されない可能性がある。

また,符号化方式の標準化においては,学術研究と異なり,実用化を強く意識した方式開発が行われている。さらに,標準化を目指した技術提案においては,性能を追求した提案だけではなく,実装に適した技術であるかが重要な要素となっている。

2.4 符号化性能

前述のように,VVCの標準化は2020年のFDIS発行を目標として進められている。理想的には,標準化の成立と同時に製品が市場に出ることが期待されており,標準化作業の議論においても,実際のアーキテクチャーの実装上の課題について,非常に丁寧な検討が行われている。また,標準化作業におけるVVCの符号化方式の性能評価では,圧縮率による評価だけではなく,符号化処理を行うエンコーダーおよび復号処理を行うデコーダーの処理量についても評価を行っている。特に,テレビ受信機と同様に,安価かつ低消費電力で,大量生産が可能であることが求められるデコーダーに関しては,処理負荷が低いことが重要視されている。

これらの評価を行うために,JVETでは評価用のテスト映像を広く募集し,技術提案を行う際の共通の評価用映像集(Common Test Sequences:CTS)を定めている。また,符号化性能を同一の条件で評価するための基準となる符号化条件(VTMのパラメーターの基準設定)を定めた共通実験条件(Common Test Condition:CTC)が定められている。当所も, VVCを放送に用いる場合の性能向上を目的として,複数のテスト映像を提供し,共通実験条件の策定に寄与している。技術提案を行う場合は,既存技術と比較した有効性をCTSおよびCTCを用いた客観的な性能指標で示すことが求められ,実際に採用を判断する際には,必要に応じて主観画質実験を行って効果を確認することもある。

本稿執筆時点におけるVTMおよびWDは第四版まで改訂が進んでいるが,VTM-4を用いた評価において,HEVCからの符号化効率の改善率は30%以上が達成され,デコーダーの処理量の増加は70%以内に抑えられており,早期の製品の市場投入が予想されている。

2.5 今後の予定

JVETで進められている次世代映像符号化方式は,2019年7月のCD策定によって,技術的な仕様の概略が定まった。今後は,新たな技術提案よりも,実用的な視点での改善が進められ,アプリケーションに応じた符号化要素技術のセットを規定する「プロファイル」や,受信機に求める演算性能を規定する「レベル」の策定へと議論の中心が移っていく予定である。当所においても,放送用途に適した規定が定められるように,各要素技術単位の放送用映像による性能確認を行い,処理量と効果を分析するなど,標準化に引き続き貢献していく。

3.おわりに

本稿では,MPEG,VCEGの2つの国際標準化団体により共同で進められている次世代符号化方式VVCの標準化の動向(WD-4の段階における動向)について解説した。

本稿執筆時点において,符号化効率の改善はHEVCと比べて30%を超え,デコーダーの処理量の増加も2倍以内に抑えられており,実用的な符号化方式として着実に標準化が進められている。これは,JVETに参加している機関が多くの分野にわたっていることで,符号化方式のユーザー側の要求と,実際に符号化装置や受信機を開発するメーカー側の要求との間で,厳しいすり合わせが行われたことによる成果である。

当所としても,ユーザー側の参加者として,スーパーハイビジョン地上放送の実現に向け,実用的な方式となるように,引き続き標準化に貢献していく。