スーパーハイビジョンの映像パラメーターと国際標準化

西田 幸博

スーパーハイビジョン(SHV:Super Hi-Vision)の映像フォーマットは視覚と映像の心理物理的な効果に関する研究に基づいて,高臨場感・高画質を伝える2次元動画像として最適な値で設計されている。SHV放送を実現するためには国際的な技術基準が不可欠であり,映像フォーマットの国際標準化に取り組んできた。本稿では,SHVの映像パラメーターの値およびITU-R(国際電気通信連合無線通信部門)における映像フォーマットの国際標準化について解説する。

1.はじめに

当所では,ハイビジョン(Hi-Vision,以下,HDTV:High Definition Television)を超える高臨場感と新たな視聴体験を提供する究極の2次元テレビジョンとしてスーパーハイビジョン(SHV)の研究開発を進めている。SHVにふさわしい映像パラメーターの値を決定するために,視覚と映像の心理物理的な効果に関する研究を行ってきた。また,SHV放送を実用化するために,ITU-Rなどで国際標準化を積極的に進めてきた。2012年8月に,超高精細度テレビジョン(UHDTV:Ultra-High Definition Television)の番組制作および国際番組交換のための映像フォーマットを規定したRec. ITU-R BT.2020が発行された。当所が研究開発を進めてきたフルスペックSHVの映像フォーマットはこの勧告で規定されている。

本稿では,SHVの空間解像度,時間解像度,階調,色の各映像パラメーターの値とそれらの根拠およびUHDTVのスタジオ規格のRec. ITU-R BT.2020について解説する。

2. SHVの映像パラメーター

空間解像度,時間解像度,階調,色の各映像パラメーターと視覚の心理物理的な効果との関係を1表に示す。

1表 映像パラメーターと視覚の心理物理的な効果との関係
映像パラメーター 心理物理的効果
空間解像度 画素数 臨場感,実物感
時間解像度 フレーム周波数 動きぼやけ,ストロボ効果,フリッカー
階調 量子化ビット数 輝度弁別
原色 (色域) 色再現

2.1 空間解像度

SHVとHDTVを区別する心理的な要因として,臨場感(その場にいるような感じ:Sense of Being There)と実物感(実物を見ているような感じ:Sense of Realness)を検討した。実験では,臨場感と実物感が視角(画面を見込む角度)と画素密度(視角1°当たりの解像度)によってどのように変化するのかを調べた。

(1) 臨場感

一般的に,視角が広くなるほど臨場感が高くなる。視角に対する臨場感の主観評価実験の結果を1図に示す1)。実験では,撮影画角60°の4種類の映像を33°~100°の5通りの水平視角(以下,視角)で評価者に提示し,臨場感を0(全く臨場感がない)~10(非常に臨場感がある)の連続尺度で評価させた。1図(a)は1人の評価者が全ての視角の映像を評価した場合(評価者数:200名),1図(b)は1人の評価者が1つの視角だけを評価した場合(評価者数:各40名)の結果である。1図(a)は視角が広くなるに従って臨場感が高くなり,1図(b)は臨場感は視角80°~100°で飽和することを示している。撮影画角100°の映像を用いた実験においても,同様の結果が得られた。

これらの結果に基づいて,高臨場感を提供するSHVの視角の目標を100°とした。視角100°で観視する場合の視距離は0.75H*1 であり,このとき視力1.0の人が画素構造を検知できないようにするためには水平画素数を約8,000にする必要がある。HDTVとの相互運用性を考慮して,SHVの画素数を縦横共HDTVの4倍の7,680×4,320とした。

1図 視角と臨場感

(2) 実物感

空間解像度(画素密度)が高くなるに従って実物と映像が区別できなくなる。2図に,画素密度に対する実物感の主観評価実験の結果を示す2)。実験では,26cpd*2~155cpdの6種類の画素密度の映像とその被写体(実物)の任意の対を評価者に提示し,評価者はどちらが実物に近く見えるのかを評価した。なお,解像度以外の要因を除くために,両眼視差の無い状態で観視するようにした。また,画像の大きさ,輝度,色などを同じにするための信号処理を施した。画素密度が高くなるに従って実物感が高くなり,画素密度60cpd(1°当たり120画素)付近から実物感の増加が緩やかになることが分かった。

2図 空間解像度 (画素密度) と実物感

(3) SHVの空間解像度

画素数の異なる3種類の映像システム,2K(HDTV:1,920×1,080),4K(3,840×2,160),8K(SHV:7,680×4,320)における,視角と視距離に対する臨場感と実物感の関係を3図に示す。なお,画素密度をそれぞれの映像システムに対する視角と視距離に換算した。3図に示すように,臨場感は視角が広くなるほど高くなる。ただし,広い視角において画素構造を検知されないようにするために,画素数の多いシステムにする必要がある。8Kシステムでは視角100°以下(視距離0.75H以上),4Kシステムでは視角60°以下(視距離1.5H以上),2Kシステムでは視角約30°以下(視距離3H以上)であれば画素構造は検知されない。一方,実物感は,同じ視角では画素数が多いシステムほど高くなる。また,画素数が多いシステムほど,より短い視距離で高い実物感を与えることができる。3図は,8Kシステム(SHV)では,視角が約30°~100°(視距離3H~0.75H)の範囲で,2Kシステムや4Kシステムより高い臨場感と実物感を提供できることを示している。すなわち,SHVはさまざまな観視環境や画面サイズで有効に使用されることが期待される。

3図 3種類の映像システムの臨場感と実物感

2.2 時間解像度

SHVでは被写体やカメラの動きが滑らかに再現され,動きに関する不自然さや妨害のないことが望まれる。時間解像度に関係する動画像の画質劣化として,動きぼやけ,ストロボ効果,フリッカーがある。これらは,時間開口*3 やフレーム周波数に依存するだけでなく,被写体速度や観視環境の影響も受ける。

(1) 動きぼやけ

動きぼやけには,カメラの撮像素子で一定時間光を蓄積することによって生じる蓄積ぼやけと,ホールド型ディスプレーでの視覚的な時間積分効果による動きぼやけがある。光の蓄積時間(時間開口)が長くなるほど空間周波数特性が低下し,また,動き速度の増加とともに空間周波数特性が低下する。カメラとディスプレーを組み合わせた全体の空間周波数特性を改善するためには,両者の時間開口を共に小さくする必要がある。

4図に,動きぼやけが許容限となる被写体速度と時間開口の関係を示す3)。実験では,静止画を横方向にスクロールさせ,静止画の画質を基準として,動画像の画質が許容限となる被写体速度と時間開口の関係を求めた。HDTV番組での被写体速度分布4) を考慮して,被写体速度の上限が30°/sであると想定すると,時間開口を3ms(1/300s)~5ms(1/200s)以下にする必要がある。

4図 動きぼやけの許容限となる被写体速度と時間開口の関係

(2) ストロボ効果

フレーム周波数を高くすることで時間開口を短くできるが,フレーム周波数を変えることなく,カメラでのシャッターの使用*4 やディスプレーでの黒挿入*5 でも,時間開口を短くすることができる。しかし,シャッターや黒挿入によって,動きが不連続で多重像のように見えるストロボ効果と呼ばれる画質劣化が生じる可能性がある。5図に,時間開口1/240s*6 の場合のフレーム周波数に対するストロボ効果の主観評価実験の結果を示す5)5図は,ストロボ効果の許容限(評価値3.5)以上の画質を得るためには,フレーム周波数を120Hzにすれば十分であることを示している。

5図 フレーム周波数とストロボ効果による画質劣化の関係

(3) フリッカー

フリッカーも動画像の画質劣化の1つである。フリッカーの知覚は周辺視で敏感なので,大画面化によって視角が大きくなると検知されやすくなる。また,ホールド型ディスプレーのホールド時間が短くなると,フリッカーが検知されやすくなる。6図に,視角30°と100°における臨界融合周波数(CFF:Critical Fusion Frequency)*7 の実験結果を示す6)。3通りの画面輝度で,時間開口率30%で実験した。6図は,SHVでフリッカーを検知されないようにするためには,フレーム周波数を80Hz以上にする必要があることを示している。

6図 視角と臨界融合周波数 (CFF) の関係

(4) 動画質

大画面表示におけるフレーム周波数と動画質の関係を主観評価実験で求めた7)。HDTVのハイスピードカメラで撮影した映像と,240 Hzで表示可能な100型のHDTVプロジェクターを用い,60Hz,120Hz,240Hzの動画質を評価した。テスト画像は60Hz,120Hz,240Hzのフレーム周波数で撮影したサッカー,野球,テニス,ランニングといったスポーツの映像と遊園地で撮影した映像など計12種類の映像である。プロジェクターは240Hzで動作し,時間開口率100%となるように,60Hz素材では4フレームを繰り返し,120Hz素材では2フレームを繰り返し表示した。

7図に,12種類の動画像で評価した平均値(5段階品質尺度で評価した値を間隔尺度に変換した値の平均値)を示す。フレーム周波数を高くするに従って動画質が向上し,60Hzと120Hzで0.46,120Hzと240Hzで0.23の有意な差があった。また,テスト画像によって動画質の改善効果の程度は異なり,60Hzと120Hzで0.14~1.04の差があった。実験はHDTVで行ったが,高解像度のSHVでは,フレーム周波数を高くすることによる改善効果がより大きいと考えられる。

7図 フレーム周波数と動画質の関係

(5) SHVの時間解像度

(1)~(4)の結果とシステム規模などを考慮して,フルスペックSHVのフレーム周波数を120Hzとした。なお,シャッターなどを使って時間開口を更に短くすることは動画質の向上に効果的である。

2.3 階調

高い臨場感や実物感を再現するためには偽輪郭として現れる階調の不連続性,すなわち,画面上で隣り合う画素の1ビットの差が検知されないことが望ましい。家庭での高品質映像の観視条件としてふさわしいと考えられる薄明環境*8 における輝度弁別限と10ビット,11ビット,12ビット精度のべき関数の表示伝達関数の関係を8図に示す。輝度弁別限はBartenの式8) に基づいており,この式はデジタルシネマ(D-Cinema)の検討でも用いられたものである9)8図の表示伝達関数が輝度弁別限よりも下にあれば階調の不連続性は検知されない。8図は,量子化ビット数が11ビット以上であれば,0.1cd/m2~100cd/m2の輝度範囲全体で階調の不連続性が検知されないことを示している。8図の結果に基づいて,SHVでは量子化ビット数を12ビットとした。

8図 量子化ビット数と表示伝達関数の関係

2.4 表色系

現実の世界には,高彩度でHDTVの色域外の被写体が存在する。平面ディスプレーの中には,広い色域を再現できるものがあり,放送以外の分野では広い色域を扱う映像システムも使用されている。広色域化によって,実物に近い色再現が可能となり,質感の向上も期待される。そこで,SHVが対象とすべき色域と表現方法およびテレビジョン用としての要求条件を検討し,広色域表色系を設計した。

HDTVの色域の他,D-Cinemaなど主要な映像システムの色域も包含し,実在する物体色をできるだけ包含することをSHVの色域の要求条件とした。更に,テレビジョン用としてコストパフォーマンスに優れ,基準ディスプレーとシステム表色系の原色を共通にすることを考慮して,スペクトル軌跡上の単波長光源に相当する色度点がRGB三原色となる広色域表色系を設計した10)9図に,ポインターカラーと共に,SHV,HDTV,D-Cinema基準プロジェクター,Adobe RGBの三原色をCIE*9 xy色度図(CIE 1931)に示す。2表に示すように,SHVの表色系によるポインターカラーの包含率は99.9%,最明色*10 の包含率は75.8%である。

9図 ポインターカラーと各種の映像システムの三原色
2表 ポインターカラーと最明色の包含率
ポインターカラー(%) 最明色 (%)
HDTV 74.4 35.9
Adobe RGB 90.3 52.1
D-Cinema Ref. PJ 91.4 53.6
SHV 99.9 75.8

3. SHV映像フォーマットのITU-Rにおける標準化

3.1 経緯

HDTVスタジオ規格のRec. ITU-R BT.70911) は1990年に策定された。その後,1993年に研究課題ITU-R 226/11「超高解像度映像(EHRI:Extremely High-Resolution Imagery)」が作成され,HDTVの解像度を超える映像システムの研究が開始された。この研究課題に基づいて1995年にRec. ITU-R BT.1201「超高解像度映像」12) が作成され,縦横共にHDTVの空間解像度1,920×1,080の整数倍とする考え方が示された。2004年の改訂版では,この階層的な空間解像度の考え方や,HDTVと同じ三原色を用いるRec. ITU-R BT.136113) のカラリメトリー*11 が推奨された。

2002年に開始された「D-Cinema放送」の研究は,その後,HDTVを超える解像度の映像システムを含む「大画面デジタル映像(LSDI:Large Screen Digital Imagery)」の研究と位置づけられた。SDTV(Standard Definition Television)やHDTVをLSDIに応用するための勧告を策定した後,2006年に,日本提案に基づく7,680×4,320と3,840×2,160の2種類の映像フォーマットをLSDI用として勧告するRec. ITU-R BT.1769「拡張LSDIの番組制作および国際交換の映像フォーマット」14) が策定された。フレーム周波数はHDTVと同様に24Hz~60Hzを採用しており,カラリメトリーはRec. ITU-R BT.1361を参照している。このRec. ITU-R BT.1769によって,SHVの映像フォーマットが初めて国際規格として規定された。

EHRIをテレビジョン放送に応用することを目的としたUHDTVの研究は,2008年に日本が研究課題を提案したことによって開始された。既に,Rec. ITU-R BT.1201とRec. ITU-R BT.1769が勧告されていたので,映像フォーマットに関する議論は,広色域化の方法(三原色の選定)と伝送信号形式(輝度信号と色差信号の規定)に関する事項が中心であった。日本と韓国が主に主張を展開し,合意点を見いだす議論が続いた。また,2011年に日本はフレーム周波数120Hzを提案した。一方,世界では,デジタルHDTV放送がやっと普及し始めている段階であり,UHDTV(特に,7,680×4,320)の勧告化は時期尚早という意見があった。しかし,2011年9月の会合で,NHKは2台の85型LCDと22.2マルチチャンネル音響再生装置によるSHVのデモを行い,ITU-Rでの早期の標準化の必要性が認識されることになった。そして,2012年4月の会合で新勧告案が合意され,主管庁による承認手続きを経て,2012年8月にRec. ITU-R BT.202015) として発行された。超高解像度映像の研究課題の策定から20年目の偉業である。

3.2 Rec. ITU-R BT.2020のUHDTVの映像パラメーター

Rec. ITU-R BT.2020で規定されているUHDTVの映像パラメーターの値をHDTVのスタジオ規格のRec. ITU-R BT.709と比較して3表に示す。

画素数は1,920×1,080の縦横それぞれ2倍および4倍の2種類が規定されている。フレーム周波数はHDTVと同じ24Hz~60Hzの他,テレビジョン規格として初めて60Hzを超える120Hzが規定された。10図にHDTVとUHDTVの画素数とフレーム周波数を示す。表色系はスペクトル軌跡上のRGBを三原色とする広色域システムが規定され,RGBの波長はそれぞれ630nm,532nm,467nmに相当する。基準白色はHDTVと同じD65*12 である。映像信号の形式としては,RGBおよび輝度・色差信号が規定されている。輝度・色差信号については,ガンマ補正したRGBから輝度信号を生成する従来と同じ非定輝度伝送と,線形RGBから輝度信号を生成する定輝度伝送が併記されている。非線形伝達関数はHDTVと同等の特性であるが,12ビットの場合に,伝達特性の線形部と非線形部の不連続を避けるために,精度を高めた規定がなされている。輝度・色差信号の画素構造*13 として,4:4:4,4:2:2の他に,順次走査であることを考慮して4:2:0が規定されている。画素の量子化ビット数としては,階調の不連続が検知されやすい8ビットは規定されず,10ビットと12ビットが併記されている。映像信号の量子化方法や量子化レベルの割り当てはHDTVと同様である。

3表 UHDTVとHDTVの映像パラメーター
10図 HDTVとUHDTVのフレーム周波数と画素数

4. おわりに

高い臨場感や新たな映像体験をさまざまな観視環境で提供できるSHVの映像パラメーターの値を視覚と映像の心理物理的な効果の研究に基づいて決定した。SHVは,単に,HDTVを高解像化したものではなく,動きぼやけ,ストロボ効果,フリッカー,偽輪郭などの画質劣化を排除して高画質化を図ったもので,臨場感や実物感,高質感を与えることができる。

映像フォーマットはテレビジョン放送の基盤を成す技術的条件の1つである。今後,Rec. ITU-R BT.2020に準拠したSHV番組の制作が国内外でいっそう活発になり,そのための機器開発が加速することが期待される。更に,SHV放送の開始に向けて,インターフェースや圧縮符号化,多重化,伝送方式,表示装置などさまざまな要素技術の研究開発の進展が期待される。