「光線による空間像技術」,その歴史と今後への期待

藤井 俊彰 名古屋大学大学院工学研究科 教授

写真:藤井 俊彰

私が初めて本格的な3次元映像に出会ったのは,東大生産技術研究所の濱崎襄二先生の研究室の修士学生であった1990年ごろである。濱崎先生は,ブラウン管の表面にレンチキュラーシートを貼って,映像とレンズ位置とを精密に位置合わせできる機構を有した多眼立体ディスプレーの研究をされていた。フラットパネルディスプレーが利用できなかった当時,ディスプレーパラメーターの設計は難しく,各レンズの1ピッチ幅から射出される光線の軌跡を定規で引きながら,それらが交わる点の分布から3次元映像の解像度や奥行き分解能などを議論していた。このような背景もあって,後に原島博先生の研究室に移り,さまざまな3次元映像の中間記述方式について考察せよという課題を与えられたときに,この「光線」に着目するのは自然な流れであった。3次元映像は「光線」の集まりで表現でき,像を観察するということは,人間の眼がその光線群の一部をサンプリングする過程に他ならない,というアイディアである。ある基準面における光線の通過位置と方向をそれぞれ2次元のパラメーターで表すと,3次元映像は4次元空間で定義される関数で表すことができる。この4次元空間情報を「光線空間」と呼んだ。数年後の1996年にスタンフォード大学からLight Field Renderingという概念が発表され,写実的なCG(Computer Graphics)映像を生成する技術として一躍脚光を浴びた。その後,世界的にはLight Fieldという言葉を使うことが一般的となり,「ライトフィールド」というカタカナ表記もされるようになった。いずれにしても,1画素1画素の集まりで構成される「画像」の自然な拡張として,1光線1光線の集まりで「3次元映像」を表現する,という手法がこのころに確立されたのである。

ちょうどそのころ,NHK放送技術研究所からインテグラル3Dテレビが発表された。インテグラルフォトグラフィー(IP:Integral Photography)はLippmannにより1908年に提案され,立体写真技術としてはよく知られたものであったが,電子的に直接撮像・直接表示を実現するためには,撮影時と表示時で奥行きが反転してしまう問題を解決する必要があった。NHK技研では屈折率分布レンズアレーを用いることによりこれを解決し,IPの直接撮像・直接表示システムの開発に成功した。このように3次元映像情報を単一の撮像・表示面上のデータとして表す手法はインテグラル・イメージングと呼ばれるようになり,多くの国際会議でインテグラル・イメージングのセッションが開催されるなど,大変大きなインパクトを与えた。電子的なIPの実現は,観察時の視点位置を設計時に規定する従来の多眼ディスプレーから,光線により空間像を再生するディスプレーへの転換点であったように思う。実際,インテグラル3Dテレビの前に金魚すくいの「ポイ」(円形の枠に和紙を貼ったもの)を置き,そこに実像ができていると示してもらったときには感動を覚えたものだ。さらに,眼の瞳孔の中に複数の光線を入れれば眼の焦点調節への対応が可能となり,いわゆる輻輳・調節矛盾*1 が解消できるのではないか,という期待も高まった。「超多眼」の概念の誕生である。この後,レンズやミラーを適切に組み合わせ,さらには時分割等も用いて光線の方向を制御し,光線により空間像を生成する技術が発展していくことになる。通信・放送機構による「高度三次元動画像遠隔表示プロジェクト」といった国家プロジェクトも立ち上がるなど,当時の「光線による空間像技術」に関する日本の研究レベルは世界的に見ても高かったように思う。

あれから約20年が経過した現在,何が変わったのであろうか。

まずカメラについては,前述のIPの撮像部分をコンパクトにした「ライトフィールドカメラ」が製品化されて手軽に入手できるようになり,3次元映像の撮像装置を持たなかった多くの研究者が光線情報処理の研究へと参入することとなった。ライトフィールドからの物体の奥行き推定や光線補間といった研究分野が活発となり,さらに近年では,これらの処理を深層学習により行う試みが急速に増えている。さらに,光学系と後段の計算処理を統合させたコンピュテーショナル・フォトグラフィーと呼ばれる撮像手法が発展し,少ない観測値から原信号を一意に復元できる「圧縮センシング」理論を応用した符号化開口カメラの研究が登場した。視域角はまだ小さいものの,このカメラを用いると,数枚の観測画像のみから数十枚の多視点画像を再構成できることが示されている。一方,ディスプレーにおいては,4K・8K解像度のディスプレーが利用可能となり「密な」光線群の表示へと大きく近づいた。他の研究例として,積層したレイヤーによる光の減衰・変調作用により光線群を再構成する「テンソルディスプレー」が提案され,数枚のレイヤーパターンのみからライトフィールドの再構成が可能となった。これらの技術は,従来の「1光線1画素」により取得・表示するという原理を覆し,空間解像度・方向解像度のトレードオフに規定されない新たなディスプレーへの可能性を開いた。さらに,これらの最適化問題の求解で必要となる膨大な演算量の問題に対し,深層学習の利用によって演算を大幅に高速化する報告もなされている。近年では,深層学習を用いて1枚の画像のみからライトフィールドを復元する,といった研究まで登場している。

社会における情報通信技術の環境変化も見逃せない。携帯デバイス,タブレットが普及し,家庭のテレビに加えて一人一台ずつ表示デバイスを持つことが普通となった。また,5Gなどの大容量ネットワークのサービスも開始される。VR(Virtual Reality),AR(Augmented Reality),MR(Mixed Reality)への注目度も大きくなり,スポーツやエンターテインメントなどのコンテンツを生成する技術も発展してきた。このような中,再び3次元映像技術への期待が高まっており,商用製品の投入も活発化している。圧縮符号化の分野においても,国内外の標準化機関でDense Light Fieldの標準化の機運が高まってきている。

3次元映像に関してさまざまに世間を賑わせる報道等も見られる昨今であるが,今一度,原点に立ち返りたい。現実の3次元シーンは光線の集まりでできており,3次元映像技術の本質は光線の取得・処理・表示技術である。この20年の研究の蓄積を生かしつつ,この課題の解決に向けて真正面から立ち向かう研究を進めていくことが求められる。「光線による空間像技術」は古くて新しい技術であるが,いよいよ実用化に近づく環境が整ってきたのではないかと個人的には感じている。今後の研究に期待したい。