多視点ロボットカメラシステム

池谷 健佑 三科 智之

本研究の目的は,3次元空間をダイナミックに移動する被写体や3次元空間内に広く点在する被写体の多視点映像を,パンフォローおよびズームして撮影し,「タイムスライス」と呼ばれる映像表現(撮影映像をカメラの並びの順番に切り替えることで,視点が被写体の周囲を回り込む映像表現)を実現することである。この映像表現をスポーツ中継のリプレーで利用するためには,放送現場でのシステムの事前準備が短時間で完了するとともに,準リアルタイムでタイムスライス(「bullet time」とも呼ぶ)を生成する必要がある。この目的を達成するために「多視点ロボットカメラシステム」を開発した。本システムでは,複数台のロボットカメラを,1人のカメラマンの操作によって3次元空間内の特定の被写体に向けて一斉に方向制御し,多視点映像を撮影する。そして,撮影映像を計算機に取り込み,射影変換を用いてカメラを仮想的に被写体へ再方向制御することで,カメラマンの操作ミスやロボットカメラの機械的な制御誤差により生じた方向制御エラーを補正し,タイムスライスを準リアルタイムで生成する。我々は,このタイムスライスを「ぐるっとビジョン」と呼んでいる。バレーボール,体操,バスケットボール,柔道といったスポーツシーンを対象とした撮影実験,およびフィギュアスケートの中継における番組利用を通じて,提案手法の有効性を確認した。

1.はじめに

近年,「タイムスライス」と呼ばれる映像表現がさまざまなメディアで使用されるようになった1)2)3)4)5)6)7)8)9)10)11)。タイムスライスとは,多視点カメラを同期させて被写体を撮影し,撮影映像をカメラの並びの順番に切り替えることで,被写体が静止もしくは低速で動いている状態で,視点が被写体の周囲を回り込む映像表現である。タイムスライスをスポーツ中継で使用することによって,選手の姿勢や動きをさまざまな視点から表現することができ,視聴者にスポーツの各シーンを分かりやすく伝えることができる。

本研究の目的は,これまで撮影が困難であった,3次元空間をダイナミックに移動する被写体や3次元空間内に広く点在する被写体の多視点映像を,パンフォローおよびズームして撮影し,撮影映像からタイムスライスを実現することである。タイムスライスをスポーツ中継のリプレーで利用するためには,放送現場でのシステムの事前準備が短時間で完了するとともに,準リアルタイムでタイムスライスを生成する必要がある。この目的を達成し,より汎用的かつ実用的なシステムを実現するためには,以下の要求条件を満たす必要がある。

  1. 3次元空間をダイナミックに移動する被写体に対して,多視点カメラを高い精度で方向制御することが可能であること。
  2. 生放送のスポーツ中継において,競技中のシーンのタイムスライスを,競技直後のリプレーで放送可能な処理時間で生成できること。
  3. システムの事前準備におけるカメラキャリブレーションが短時間で完了すること。

これらの目的を達成するために,多視点ロボットカメラシステムを開発した。本システムでは,複数台のロボットカメラを1人のカメラマンの操作によって3次元空間内の被写体に向けて一斉に方向制御し,多視点映像を撮影する(1図)。そして,撮影映像を計算機に取り込み,射影変換*1 を用いてカメラの視線方向を仮想的に被写体へ再方向制御することで,カメラマンの操作ミスやロボットカメラの機械的な制御誤差により生じた方向制御エラーを補正し,タイムスライスを準リアルタイムで生成する。我々は,このタイムスライスを「ぐるっとビジョン」と呼んでいる。本稿では,多視点ロボットカメラシステムとぐるっとビジョンの詳細について報告する。

1図 多視点ロボットカメラの方向制御と撮影可能領域

2.多視点ロボットカメラシステム

多視点ロボットカメラシステムは,2図に示す「機械的方向制御」と「仮想的方向制御」を組み合わせて,ぐるっとビジョンを生成する。機械的方向制御においては,ズーム制御が可能な2軸(パン,チルト)の自由度を持つ複数台のロボットカメラを,1人のカメラマンの操作によって3次元空間内の被写体に向けて一斉に方向制御し,多視点映像を撮影する(2図(a))。また,仮想的方向制御においては,撮影映像を計算機に取り込み,射影変換を用いてカメラを仮想的に被写体へ再方向制御することで,カメラマンの操作ミスやロボットカメラの機械的な制御誤差により生じた方向制御エラーを補正する(2図(b))。本章では,多視点ロボットカメラとぐるっとビジョンの制御の詳細について説明する。

2図 機械的方向制御と仮想的方向制御

2.1 多視点ロボットカメラ

(1)ロボットカメラの設置

被写体が位置する領域や移動領域を考慮して撮影領域を決定する。撮影領域を囲むように多視点ロボットカメラを円弧状もしくは直線状に並べて設置する。その際,両端のカメラの光軸が,撮影領域の中心で交差するように設置する。光軸が交差する角度は,ぐるっとビジョンにおいて視点が被写体の周囲を回り込む角度となる。

(2)カメラキャリブレーション

各ロボットカメラをCamn(1≤nN)と定義し,nはカメラ番号,Nはカメラの台数とする。すべてのロボットカメラを,撮影領域内にある適当な被写体に向けて手動で方向制御し,多視点映像を撮影する。その撮影映像に弱校正カメラキャリブレーション12)*2 を施し,Camnのカメラパラメーター(回転行列*3 R0n,並進行列*4 t0n)と,この撮影におけるエンコーダー値(パンP0n,チルトT0n)を取得する。このとき,世界座標*5 xからカメラ座標*6 xnへの変換式は(1)式で表される。

(3)ロボットカメラの(一斉)方向制御

制御の概要を2図(a)に示す。すべてのロボットカメラが,3次元空間内の点である注視点に,常に追随するように方向制御を行う。注視点は,カメラマンによるマスターカメラの操作によって,3次元空間内の任意の位置に指定することができ,注視点を被写体の位置に指定することで,被写体の多視点映像を撮影できる。

まず,Camn(1≤nN)から1台のマスターカメラCamMを選択し,それ以外をスレーブカメラとする。マスターカメラの光軸oM上には,注視点gが設定される。oMは(2)(3)(4)式より求める。

ここで,PMTMは,それぞれマスターカメラのパン,チルトのエンコーダー値を示す。また,gは(5)式より求める。

ここで,(5)式におけるDはデプス値を表す。デプスとは,マスターカメラと注視点の間の距離である(2図(a)参照)。デプスを連続的に増減することによって,注視点は光軸に沿って移動する。カメラマンは,マスターカメラのパン,チルト操作により光軸の方向を,デプス操作により光軸上の注視点の位置を変えることができる。

ここで,デプスの操作デバイスの操作量に比例してデプスを増減させた場合,3図(a)のように,注視点に追随するスレーブカメラの制御角度が,注視点がマスターカメラと近い位置にあるときは大きく変化し,遠い位置にあるときは小さく変化するため,直感的な操作が難しい。そこで,(6)式を用いてデプスを操作する。

(6)式を用いてデプスを操作するために,まず,3図(b)のように,複数台のスレーブカメラから1台を選択する。(6)式におけるBは,マスターカメラと選択したスレーブカメラの間の距離,θは,選択したスレーブカメラの方向制御の範囲であり,選択したスレーブカメラがマスターカメラの位置へ方向制御されたときの角度とマスターカメラと同じ方向へ方向制御されたときの角度との間の幅である。dはデプスの操作デバイスの操作量,dmaxはその最大値である。(6)式の制御により,デプスの操作デバイスの操作量に比例して,注視点に追随するスレーブカメラの制御角度を変えることができ,直観的な操作を行うことができる。

そして,(7)式により,すべてのスレーブカメラを注視点に向けて方向制御する。すなわち,カメラ座標系における各カメラから注視点gへのベクトルonを(7)式より求める。

各カメラを注視点へ方向制御するための制御角(パンPn,チルトTn)は(8)(9)(10)式より求める。

各カメラのパンとチルトをそれぞれPnTnだけ制御することで,カメラの方向を注視点に追随させる。

また,光学ズームを用いて注視点上の被写体をすべてのカメラで同じサイズで撮影するために,各カメラから注視点までの距離Dnに応じて,各カメラの焦点距離f0nを(11)式により制御する。

カメラマンは,注視点を被写体位置に指定して多視点映像を撮影するために,まず,マスターカメラのパン,チルトを操作して被写体を捉える。次に,デプスを操作して,注視点を光軸に沿わせて被写体位置まで移動させる。カメラマンは,マスターカメラの他に,最低1台のスレーブカメラの撮影映像を見て操作し,スレーブカメラの撮影映像における被写体の位置によって,デプスが合っているかを判断する(4図)。例えば,4図(a)のようにデプスが合っていない場合は,マスターカメラの撮影映像では被写体が画面の中心に位置しているが,スレーブカメラでは被写体が画面の中心に位置していない。一方,4図(b)のようにデプスが合っている場合は,マスターカメラとスレーブカメラの双方で被写体が画面の中心に位置しており,カメラマンはデプスが合っていると判断することができる。

3図 デプス制御
4図 デプスの決定

2.2 ぐるっとビジョン

(1)被写体の決定

まず,機械的方向制御を行って撮影した多視点映像と,撮影時の焦点距離を収録する。収録完了後,ユーザーは,収録した多視点映像からぐるっとビジョンを生成するフレームF5図参照)と被写体を決定する。多視点映像のうち任意の2台のカメラCama,Cambの映像において,その被写体の位置の画像座標(ua, va)および(ub, vb)を取得する。

5図 ぐるっとビジョンにおける映像生成

(2)カメラキャリブレーション

ぐるっとビジョンを生成するフレームFの多視点映像と収録した撮影時の焦点距離を用いて弱校正カメラキャリブレーションを行い,カメラパラメーター(回転行列R'0n,並進ベクトルt'0n,焦点距離f0n)を取得する。世界座標xから画像座標(un, vn)への変換式を(12)(13)(14)式に示す。

ここで,ωは画像距離(カメラからxまでの距離),f0nは焦点距離,(Cx, Cy)は画像中心(画像の中心の位置座標)を表す。

(3)仮想的カメラ制御

(1)で選択した被写体の位置に,注視点をg'として再指定し,射影変換を用いてカメラをg'へ仮想的に再方向制御する。 g'は(15)(16)(17)式より算出する。

ここで,SnijSnij列目の要素,M+Mの一般化逆行列*7 を表す。

カメラを仮想的に方向制御した際にカメラを地面と水平に保つために,地面との垂直軸を算出する。ロボットカメラの2軸のうち,チルト軸は地面と水平になっているため,垂直軸は任意の2台のカメラCams,Camtにおけるチルト軸の外積によって算出できる。垂直軸vを(18)(19)式より算出する。

カメラをg'へ仮想的に方向制御したときの回転行列R'nを(20)(21)(22)(23)式より算出する。

ここで,enxenyenzは,それぞれカメラのチルト軸,パン軸,ロール軸を表す。

カメラをg'へ仮想的に方向制御した際,すべてのカメラにおける被写体の大きさをマスターカメラCamMの被写体の大きさと同じにするために,(24)式より,各カメラの焦点距離fnを,カメラから注視点までの距離に応じて調整する。また(25)式より, fnから行列A'nを算出する。

ここで,kは射影変換後のズーム率である。

カメラをg'へ仮想的に方向制御するために,(26)(27)式により射影変換を行う。(un, vn)は,射影変換前の画素の画像座標,(u'n, v'n)は,射影変換後の画像座標を表す。

(4)ぐるっとビジョンの映像生成

ぐるっとビジョンにおける映像生成を5図に示す。

まずユーザーは,専用のソフトウェアを用いて,多視点映像シーケンス中の複数のフレーム(キーフレーム)Fiを選択し,各キーフレームにおいて,注視点と射影変換後のズーム率,どの視点から見るかという情報を入力する。

次に,選択されたキーフレームにおいて,弱校正カメラキャリブレーションを用いてカメラパラメーターを求め,射影変換行列Hniを生成する。さらに,キーフレームにおける被写体をどの視点から見るかという情報からカメラパスを決定し,カメラパス上のキーフレーム以外のフレームにおける射影変換行列を,キーフレームの射影変換行列を用いて補間することにより生成する。ここで補間は,キーフレームとの距離に応じて線形補間で行われる。この補間により,キーフレームの間でも滑らかに視点がつながるようにカメラを仮想的に方向制御することができる。

最後に,カメラパス上の画像に射影変換を施し,画像を切り替えることでぐるっとビジョンを生成する。

2.3 多視点ロボットカメラシステムの構成

多視点ロボットカメラシステムは,主に多視点ロボットカメラ,操作インターフェース,ぐるっとビジョン処理装置で構成されている。

多視点ロボットカメラは,小型ハイビジョンカメラを電動雲台上に設置し,ボードコンピューターを搭載した複数台のロボットカメラである(6図)。外部信号によって,パン,チルト,ズーム,フォーカス,アイリスの遠隔操作が可能である。電動雲台のパン,チルト制御モーターにはサーボモーター*8 を導入しており,高精度に方向制御を行うことができる。

操作インターフェースは,マスターカメラのパン,チルト,デプスと,すべてのカメラのズームを操作するもので,バーチャルリアリティー用の操作インターフェースを改修したものである(7図)。フォーカスデマンド(フォーカスを調整するための装置)を用いてデプスを操作し,フォーカスはデプスから自動調整される。そのため,1人のカメラマンによる従来のテレビカメラとほぼ同じ操作で多視点ロボットカメラを操作できる。

ぐるっとビジョン処理装置は,収録装置から取得した撮影映像に仮想的方向制御を施し,ぐるっとビジョンの映像を生成するワークステーションである(8図)。準リアルタイムでぐるっとビジョンの映像を生成するために,ユーザーによる操作(ぐるっとビジョンを生成する時間と被写体の決定)を素早く行うためのソフトウェアや,高速で射影変換を行うためのGPU(Graphics Processing Unit)が搭載されている。また,このソフトウェアによってぐるっとビジョンにおける視点の切り替え方向や,再生スピード,デジタルズーム率などを任意に変更可能である。

以上で述べたシステムの系統図を9図に示す。

6図 ロボットカメラ
7図 操作インターフェース
8図 ぐるっとビジョン処理装置
9図 システム系統図

3.実験

3.1 撮影実験

本システムの性能を評価するために,バレーボールにおいて3次元空間をダイナミックに移動する選手や3次元空間内に広く点在する選手を撮影し,ぐるっとビジョンの映像を生成する実験を行った。10図のように9台のロボットカメラを90°円弧上に配置して撮影を行った。カメラから被写体までの距離は約11m,カメラ間隔は2.3mとした。生成したぐるっとビジョンの映像を11図に示す。

体操,バスケットボール,柔道においても同様の実験を行い,ぐるっとビジョンの映像を生成した。それぞれの映像を12図13図14図に示す。

以上の実験の結果,バレーボールにおいては,3次元空間をダイナミックに移動する選手や,3次元空間内に広く点在する選手の多視点映像を,撮影完了から約1分で生成することができた。また,システムの事前準備におけるカメラキャリブレーションを約5分で完了できた。体操,バスケットボール,柔道においても,同様にぐるっとビジョンを生成することができた。

10図 カメラ配置( バレーボール)
11図 バレーボールのぐるっとビジョン
12図 体操のぐるっとビジョン
13図 バスケットボールのぐるっとビジョン
14図 柔道のぐるっとビジョン

3.2 番組利用

本システムを「NHK杯フィギュアスケート選手権大会」の競技のリプレーで番組利用した。15図のように観客席に9台のロボットカメラを直線状に配置して撮影を行った。カメラから被写体までの距離は約30m,カメラ間隔は約2mとした。放送されたぐるっとビジョンを16図に示す。

この実験の結果,広いリンク上をダイナミックに移動する選手のジャンプなどのぐるっとビジョンを準リアルタイムで生成し,競技直後のリプレーで放送することができた。選手のジャンプにおける蹴り出しの姿勢,空中の姿勢,着地の姿勢などをさまざまな視点から分かりやすく表現することができた。

15図 カメラの配置と会場の様子( NHK杯フィギュアスケート選手権大会)
16図 フィギュアスケートのぐるっとビジョン

4.考察

本システムが,1章で挙げた要求条件を満たすか検証した。要求条件(1)は,「滑らかに視点が切り替わるぐるっとビジョンを実現するために,3次元空間をダイナミックに移動する被写体に対しても,多視点カメラを高い精度で方向制御することが可能であること」であった。本システムは,多視点ロボットカメラの機械的方向制御および仮想的方向制御により,バレーボールやフィギュアスケートなどにおいて3次元空間をダイナミックに移動する選手に対して,多視点カメラを高い精度で方向制御することが可能である。方向制御の精度を評価するために,11図のぐるっとビジョンの映像における注視点位置の画像座標と画像中心位置の画像座標とのユークリッド距離を計測した結果,9台のカメラの平均誤差は1.4ピクセルであった。これは,ぐるっとビジョンを生成する上で問題のない方向制御精度であり,高い精度で方向制御ができていると言うことができる。

要求条件(2)は,「生放送のスポーツ中継において,競技中のシーンのぐるっとビジョンを競技直後のリプレーで放送可能な処理時間であること」であった。本システムは,ぐるっとビジョンを撮影完了から約1分で生成することができ,「NHK杯国際フィギュアスケート競技大会」の競技直後のリプレーで番組に利用することもできた。

要求条件(3)は,「システムの事前準備においてカメラキャリブレーションが短時間で完了すること」であった。本システムは,事前準備でのカメラキャリブレーションを約5分で完了することが可能であり,十分実用的である。

以上の検証により,本システムは,すべての要求条件を満たすことが分かった。

5.まとめ

多視点ロボットカメラシステムを提案し,撮影実験や番組利用を通じて,本システムが,3次元空間をダイナミックに移動する被写体や3次元空間内に広く点在する被写体の多視点映像を,パンフォローおよびズームして撮影し,撮影映像からぐるっとビジョンを実現できることを確認した。また,放送現場でのシステムの事前準備が短時間で完了し,準リアルタイムでぐるっとビジョンを生成可能なシステムであることが分かった。これらの結果から,本システムが汎用的かつ実用的なシステムであることを確認した。

謝辞 本研究を行うにあたり多大なるご指導,ご鞭撻を賜った(株)NHKアイテック 岩舘祐一氏に感謝を申し上げる。

本稿は,ITE Transactions on Media Technology and Applicationsに掲載された以下の論文を元に加筆・修正したものである。
K. Ikeya and Y. Iwadate:“Multi-Viewpoint Robotic Cameras and Their Applications,” ITE Transactions on Media Technology and Applications,Vol.4,No.4,pp. 349-362(2016)