多視点映像技術の概要

久富 健介

複数のカメラで撮影した多視点映像から,実空間の3次元モデルを生成することができる。このような3次元モデルは,仮想空間内で高い自由度で扱うことができることから,立体像制作への応用が期待されている。本稿では,多視点映像から3次元モデルを生成する手法を,多眼視とステレオ視に分類して紹介する。また,生成した3次元モデルから,光線追跡法に基づいて,インテグラル方式の立体像を生成する技術について解説する。

1.はじめに

当所では,インテグラルフォトグラフィー(IP:Integral Photography)の原理を用いた,特殊なメガネを必要としないインテグラル立体テレビの研究を進めている。インテグラル立体テレビの撮影は,多数の微小レンズが2次元に並べられたレンズアレーを通して,高解像度カメラで撮影するのが一般的である。このとき,撮影画像には,撮像素子の前に設置されたレンズアレーによって,微小レンズの数に応じた多数の小さな画像(要素画像)が撮影される。要素画像は,被写体からさまざまな方向に発する光線群を記録したものである。この要素画像が微小レンズの数だけ集まった要素画像群を高解像度の2次元ディスプレーに表示し,その表面にレンズアレーを設置すると,要素画像中のある1画素から発せられた光線は微小レンズの光学主点*1 を通る直線上の方向にのみ進む。その結果,実空間と同様の光線が再現されるため,メガネなしで立体視することができる(詳細は本特集号の解説「インテグラル方式の概要」を参照)。

しかし,この手法で遠方の被写体を撮影すると,レンズアレーの設置されている範囲の光線しか観測することができないため,表示させた際に,立体感の少ない,平面的な立体像しか再現することができない。この再生像は,実空間の光線空間を忠実に再現しているが,現行の2次元のテレビ放送におけるズームのように,3次元空間を拡大して提示するような立体像においては,十分な奥行きを再現できないという課題がある。

この課題を克服する1つの方法として,複数のカメラで撮影した多視点映像から要素画像群を生成する手法がある1)。この手法では,始めに多視点映像から被写体の3次元モデルを生成し,そのモデルとレンズアレー,ディスプレーを計算機内の仮想空間に配置し,ディスプレーの各画素に表示すべき画素値を光線追跡法によって求め,要素画像群を生成する。この場合,モデルを生成することにより,カメラ間の光線を内挿によって取得することができるため,少ないカメラ台数で広い角度をカバーすることができるという利点がある。また,仮想空間で計算を行うことにより,レンズアレーや撮像素子を自由に設定することが可能となり,現実空間では困難な大きいサイズのレンズアレーを設定することができるため,大規模な被写体や遠方の被写体に十分な立体感をつけて再生像を生成することができる。

本稿では,多視点映像から3次元モデルを生成する技術を紹介したあと,3次元モデルからインテグラル立体像を生成する技術について解説する。

2. 多視点映像からの3次元モデルの生成

多視点映像から3次元モデルを生成する手法は,全てのカメラ画像を用いて一度にモデルを生成する多眼視による手法と,2台のカメラペアから順次生成したモデルを統合するステレオ視による手法に大別することができる。

2.1 多眼視による3次元モデル生成手法

多眼視による手法の1つとして,視体積交差法が挙げられる。視体積交差法はシルエット法とも呼ばれ,各カメラ映像について,被写体のシルエットを黒,その他の領域を白で表したシルエット画像と呼ばれる2値画像を用いて3次元モデルを生成する手法である。1図に示すように,撮影領域(もしくは,被写体が存在する可能性がある領域)の3次元空間を小さな立方体(ボクセル)に区切り,ボクセルを等間隔に配置する。このとき,被写体の内側にあるボクセルは,シルエット画像に投影すると,その投影点は全てのシルエット画像において黒い領域の内側に含まれる。この原理を用いて,配置した各ボクセルを順番にシルエット画像に投影し,1枚でも投影点が黒い領域に含まれない場合には,そのボクセルを削除し,全てのシルエット画像において黒い領域に含まれる場合には残す処理を行うと黄色い領域が残る。この領域を3次元モデルとして抽出するのが視体積交差法である。被写体の凹部はシルエットに反映されないため,この手法は原理的に凹部を復元できないなど精度に課題があるが,比較的安定して3次元モデルを取得できることから,3次元モデルを生成する際の初期形状として用いることが多い。また,パラメーター調整が少なく,計算量が比較的少ないため,実用的なアプリケーションに用いられる。2図は,視体積交差法で生成した人物モデルを,デジタルエキストラとしてドラマに応用した例である。2名の役者を24台のハイビジョンカメラで撮影し,その多視点映像から視体積交差法を用いて,2図(a)のような3次元の人物モデルを生成した。このモデルを複製して配置することで数百人規模の群衆シーンを生成した2)2図(b)は1名のデジタルエキストラを複製して制作した群衆シーンのテストシーケンスで,2図(c)は実際のドラマで使われたシーンの一例である。

視体積交差法に類似した手法として,Voxel Coloring3) がある。この手法では,被写体表面にあるボクセルは,そのボクセルが見えているカメラに投影したとき,投影先の複数のカメラの画素値が同じになると仮定し,各ボクセルを,そのボクセルが見えるカメラに投影し,投影先の複数の画素値を取得する。そして,それらの画素値の分散が小さいボクセルを残し,大きいボクセルを削除することで3次元モデルを生成する。この手法では凹部の復元もできるが,ボクセルごとに独立に削除して形状復元を行うことから,表面の連続性が保たれないという課題があった。そこで,視体積交差法で求めた初期形状の表面のボクセルを内側に向けて移動し,周辺のボクセルとの連続性を保ちつつ,投影誤差(投影先の複数の画素値の差)が小さくなるような位置を探索する手法が提案されている4)3図は,この手法を用いて40台の多視点映像から,伝統舞踊の3次元アーカイブシステム用に生成した能演者の3次元モデルである9)

さらに近年では,視体積交差法で初期形状を求めたあと,表面の付近の各ボクセルを複数のカメラに投影し,投影誤差の分布を求め,最適化手法を用いて表面形状の精度を上げる試みが行われている。4図は,グラフカット5) と呼ばれる二分割最適化手法*2 を用いて生成した3次元モデルである6)3図よりも少ない24台のカメラから,表面形状が精度よく復元されている。

1図 視体積交差法
2図 デジタルエキストラ
3図 伝統舞踊のアーカイブシステム
4図 グラフカットを用いた3次元モデル生成

2.2 ステレオ視による3次元モデル生成手法

ステレオ視による3次元モデル生成手法は,多数のカメラから2台を選び,その2台のカメラ画像間の対応関係を,各画素について求め,三角測量の原理を用いて奥行きを推定する手法である。例えば,5図のように2台のカメラが平行に並んでいる場合,左画像のある画素pに対応する,右画像上の画素qが見つかると,pqの座標位置から,青枠の三角形の相似の関係を用いて,(1)式により奥行きzを求めることができる。

ただし,fBxLxRはそれぞれ,焦点距離,カメラ間の基線長,pの座標,qの座標である。これを左画像の全ての画素について求めると,画素ごとの奥行き値が2次元に並んだ距離画像を取得することができる。この距離画像は,左画像の撮影位置からの距離値が並んだものであるため,左画像の撮影位置から見えない側面や背面などの領域の3次元情報は含まれていない。そのため,この距離画像を3次元空間に展開しても,左画像の撮影位置から視点がずれると,3次元情報のない欠落領域が穴のように提示されてしまう。そのため,側面等を含む3次元モデルを生成するには,複数の距離画像を統合する必要がある。

カメラ配置についても,多眼視とステレオ視では異なる傾向がある。多眼視では,カメラ間の距離が比較的長く,全周囲もしくは比較的多くの方向から撮影することが多い。一方,ステレオ視では2台のカメラ間の距離は比較的短く,必ずしも多方向から撮影する必要はない。また,ステレオ視は,2台のカメラから奥行き推定が可能であることから,多眼視に比べて少ないカメラ台数で構成されることが多い。

3次元モデル生成手法については,この他にも3次元モデルとカメラパラメーターを同時に推定するStructure from Motion7) や,影の濃淡から面の方向を推定するStructure from Shading8) など,さまざまな手法が提案されており,撮影方法や撮影環境,使用用途によって使い分けも必要となる。

5図 ステレオ視による奥行き推定

3. インテグラル立体像の生成

2章で紹介した手法を用いて3次元モデルを生成すると,計算機上の仮想空間で,実空間よりも高い自由度で要素画像群を生成することができる。この章では,要素画像群を生成する際の,モデルやレンズアレーなどの仮想空間内の配置について紹介したあと,要素画像群の生成処理について解説する。

6図のように,仮想空間内に基準となるレンズアレーを配置するとき,被写体の3次元モデルをレンズアレー付近に配置する。要素画像群の表示面は,レンズアレーの焦点距離だけレンズアレーから離した位置に設置する。3次元モデルは,レンズアレーの奥または手前,もしくは奥と手前をまたぐように配置してもよい。

要素画像群は,ディスプレーの各画素について,光線追跡法を行うことにより生成することができる。すなわち,各画素とその画素から最近傍のレンズアレー中の微小レンズの光学主点とを結ぶ直線を考える。そして,その直線とモデルとが交差する点のうち,最も視点に近い交点の画素値を画素に付与する。この処理を全ての画素について実行すると,要素画像群を生成することができる。

7図は,能演者の3次元モデルから生成した要素画像群である。この要素画像群を高解像度ディスプレーに表示し,レンズアレー越しに観察すると,8図のように視点によって見え方が異なる立体像を再生することができる。前景の能演者と背景の松との位置関係が,視点により変わっていることが確認できる。この3次元モデルは2章の多眼視による手法で生成されているため,背景が含まれていない。背景となる能舞台は,コンピューター・グラフィックス(CG:Computer Graphics)で作成した。

立体テレビ放送を考慮すると,実空間の背景も含めて立体像を再現できることが期待される。そのためには,取り囲み撮影はカメラ自身が写りこんでしまうため望ましくなく,現行テレビ放送のカメラ配置のように,片サイドから撮影した映像から,背景も含めて3次元モデルを生成することが必要となる。その場合,視体積交差法などの全方向からの撮影映像を前提とした多眼視による手法を用いることが困難となる。本特集号の報告「多視点映像からのインテグラル立体像生成手法」は,そのような背景から検討された手法である。

6図 要素画像群の生成方法 (水平断面を表す図)
7図 要素画像群
8図 インテグラル立体像 (再撮)

4. おわりに

本稿では,多視点映像から3次元モデルを生成する手法を多眼視とステレオ視の観点から解説した。また,3次元モデルの応用の一例として,メガネなしで立体視が可能となるインテグラル方式の立体像への応用技術について解説した。これらの技術を用いて,インテグラル立体像の撮影条件が緩和され,より多様なコンテンツの撮影が可能になることを期待している。