空間表現を広げる視覚のしくみ

技研公開2019 基調講演2

東北大学 電気通信研究所 所長・教授
塩入 諭 氏

写真:東北大学 電気通信研究所 所長・教授 塩入 諭 氏

テレビをはじめとした映像技術は,視覚特性に大きく依存している。例えば,色の表現が基本的に三原色で十分であるのは,人間の視覚が3つの光受容体を基礎に色を見るからであり,静止画の連続提示が動画として見られるのは,それが実際の連続的運動と同じ効果があるからである。立体映像表現においても,2つの眼の網膜に実際の3次元物体を見たときと同じ像を映すことができれば,当然,観察者は実物と見分けられなくなる。このような事実は,情報伝送・表示技術が,本質的に人間の特性を考慮したものであり,この仕組みを理解することと情報技術の進展がともにあることを意味している。つまり,将来の映像技術のさらなる発展には,人間の視覚あるいは感覚,知覚,認知のより深い理解が重要であると言える。本講演では,映像技術における人間の視覚特性の関連についてまとめるとともに,行動や身体との関わりなども含め,最近の視覚や他の感覚の認知過程の研究から,従来の枠を越えて空間表現を広げる手がかりについて考えてみたい。

1.はじめに

今日は,「空間表現を広げる視覚のしくみ」というタイトルで,お話ししたい。私は,主に人間の視覚情報処理のメカニズムについて,基礎的な研究を続けている。その視点から,映像技術と人間の視覚特性がどのような関係にあるか,ということを,皆様と一緒に考える機会としたい。

前半は,視覚特性と画像技術の関係について,色,細かさ,フレームレートなどの技術をポイントとして,「メタマー」という概念を中心にお話ししたいと思う。

後半は,「空間表現の拡張に向けて」という題で,将来,どのような技術が可能か,それに対する人間の視覚認知メカニズムはどのようなものかという視点で,我々の最近の研究成果も含めてお話ししたいと考えている。

2.視覚特性と画像技術

古代の人類の壁画で,馬や牛などの動物が描かれているが,このような画像で実物を表現できるということは大発見だったと思う。その後,絵画・写真・テレビなどが登場したが,視覚の特性と画像技術の関係を考えると,重要なことは,何かものがあってそれが映し出されて,「両者が同じものである」と思うことである。同じだと見なすことで,情報の伝達ができるということである。つまり,テレビを見て「これだ」と思うことが,画像技術による情報伝達の基礎だと言うことができる(1図)。

ということは,どのようにしたら,これとこれを同じだと見なせるようにできるか,ということが基本的な技術だと考えることができる。これは,人間の視覚特性によって決まってくるものと言える。

1図 同じと見なすことが情報伝達の基礎

2.1 メタマーという概念

それでは,同じと見なせることをどう説明するか? それを説明しやすい概念として,「メタマー」についてお話ししたいと思う。メタマーとは,もともと色に対する基本的な概念である。例えば似たような布や紙を持ってきて,これはほぼ同じ色だというものを集めることができる。このとき,見た目が同じ色のものをメタマーと呼ぶ。実際には,いろいろな場面で体験することであり,白熱電球で照射している環境では同じ色だったが,外へ出て太陽光の下で見たら全然違う色に見える,ということもある。これは,ある条件で等色が成り立っているという意味で,日本語では「条件等色」という言い方をする(2図)。

本章では,この概念が画像技術にどう影響しているのか,あるいはどう有効に働いているか,という話を少ししたいと思う。

2図 メタマーと条件等色

2.2 色についてのメタマー

3図で,縫いぐるみの注目部分の色が,実際の色と画面上の色で,大体同じになるように画面を調整した。同じ色に見えるが,分光測光器を使って,いろいろな波長成分がそれぞれの光にどのくらい含まれてるかを測ると,3図右のようになる。横軸が波長で,縦軸が光強度である。波長400 ~ 800nmの範囲で,実物の光強度分布は3図右上のように,ディスプレーの光強度分布は3図右下のようになっていて,全然違う分布なのに,同じ色に見える。これは,色が三原色で表現できるという事実を使って,赤緑青の3色を増減させて同じような色を作ることができるからである。

3図 色の表現 (人間の視覚の三色性は,色映像を簡単にしている)

人間の網膜には,色覚に関与する光受容体(錐体)が3種類ある(4図)。この3種類は, L,M,S(波長がロング,ミディアム,ショートという意味)であり,この3種類の錐体の応答が同じになれば,それが人間の色覚なので,人間には区別できない。そこで,3図の分光特性それぞれのLMSの応答を計算してみると,5図のように大体同じになる。LMSセンサーの応答が同じなので,同じ色に見える,ということが起こる。この2色を,お互いにメタマーと呼ぶ。

4図 人間の網膜の光受容体(錐体)
5図 3種類の光受容体の応答

人間の光受容体は3色なので,人間が見るいろいろな色を,基本的に3色で表現できる。他の動物では,例えばチョウチョウは光受容体が6種類,シャコの仲間では色に関するものだけで12種類あるものもいると言われている。光受容体が3色という人間の特性が,明らかに画像技術を助けている,と言うことができる。

2.3 解像度についてのメタマー

メタマーという概念を,他のところに使うこともできる。

画像は基本的に画素で出来ているので,近くで画面を見ると,画素が並んでいることが分かるが,十分細かければ,見た目は実物とそれほど変わらない。実物とは明らかに違うが,十分細かければその差は分からない,という意味で,これもメタマーになっていると言える(6図)。

6図 解像度についてのメタマー

これを前節の光受容体の話と関連づけると,以下のように考えることができる。人間の目を通すと,人間の目には視力の限界,すなわち解像限界がある。したがって,実物を見ても画像を見ても,ある種のボケが生じ,実物でも画像でもある程度ボケて,この差が分からなくなる。つまり,画像を見て,画素が見えなくなるという条件で実物と画像を見比べると,両方は同じに見えるので,解像度に関するメタマーが成立している,という言い方ができる(7図)。

7図 人間の視力の限界

このメタマーが成立する条件,すなわち標準的な観察条件というものが知られていて,画面の高さをHとすると,ハイビジョンの場合,適正な視聴距離は3Hとなる(8図)。この3Hは,視力1.0の人が,画素が見えなくなる距離である。画面から離れれば網膜に映る像は小さくなるので,視力の限界を超えた細かさにできる距離,という言い方もできる。

8図 適正な視聴距離で,テレビ画像は実物のメタマーと言える

2.4 時間方向のメタマー

動画は,基本的に静止画の集まりである。9図では,ぐるぐる回転しているものを,ノートパソコンのディスプレーに映している。静止画が1秒間に30コマ,あるいは24コマとなるようにディスプレーが設計されていると,ディスプレー上の回転と実物の回転が区別できない。これを高速に撮影して,普通に再生するスローモーションにすると,実物は連続的に回転していることが分かるが,ディスプレーではコマ送りのように静止画がとびとびになっている様子が分かる。実際はそのように違うけれども,人間の眼の特性によってどちらも同じに見えているという意味で,時間解像度に関して,両者がメタマーの関係にあるという言い方ができる。

9図 時間解像度に関するメタマー

10図は基礎的なデータであり,横軸は光の強さ,縦軸は臨界融合周波数(CFF: Critical Flicker Frequency)というものを表す。臨界融合周波数は,各光強度における,ちらつきが感じられない最低周波数である。ちらつきの周波数を上げていって,どこまでこのちらつきが分かるか,つまりちらつきの限界を測ると,光の強度によってこの限界が変わり,明るいほうが高い周波数,すなわち早いちらつきまで見える。10図から,その上限は50Hzくらいであることが分かる。このデータは,テレビのフレームレートや映画のコマ数を設計する際の基礎になっている。

10図 視覚の臨界融合周波数 (ちらつきが感じられない最低周波数)

時間解像度に関するメタマーという意味では,注意事項があり,「動きが連続的に見える」ということと,「実際の動きと同じように見える」(実際の動きとメタマーの関係にある)ということは,同じではない。これは,パラパラ漫画とテレビとの違いに相当する(11図)。

また,大きな画面で周辺視野を使って見るような場合は,より高い周波数までちらつきが見えてしまう。すなわち,中心視野で見るか,周辺視野で見るかで見え方が変わる。これは,8Kテレビでは,より高いフレームレートが必要であることを示している。

11図 パラパラ漫画とテレビとの違い

2.5 画像による3次元表現とメタマー

12図で,クマの縫いぐるみの実物と,ディスプレー上の画像があるが,画像がこのクマを表現していることはすぐに分かる。これはある意味で,メタマーだからというふうに考えることができる。色だけでなく,3次元の形状も同じだと見なしている。

12図 画像での3次元表現

そこで,2次元の画像によって,どのように3次元が表現されているのか,ということが大きな問題となる。いろいろな説明があるが,基本的には3次元を2次元に押し込めている。そして,うまく押し込められている3次元をうまく読み取っている,というのがここで起こってることなのだろうと思う。

「大きさ」というのは非常に分かりやすい話なので,そこからお話しする。近くの小さいものと,遠くの大きいものは,網膜に映った像は同じになる。ということは,同じ形だとしても,大きさについては無限の可能性があるメタマーと考えることができる。

そうすると,大きさを決めるためには距離を知らなければならない。普通は見ただけでは分からないので,ある距離を仮定して,それで大きさを決めることになる。あるいは,距離を知るために,大きさを仮定して推定するということを人間はやらざるを得ない。人間だけではなく,この状況であったら,コンピュータービジョンでも同じである。

実際,そういうことを人間がやっているのだろうというのは,よくある13図のような錯視からも分かる。13図の少年は,画面上,同じものである。しかし,画面上の場所によって,小さくも見えるし,大きくも見える。何が起こっているかというと,先ほど述べた大きさと距離の関係を推測するときに,近くにあると思えば小さくなるし,遠くにあると思えば大きくなるということである。推定を誤ると,大きさの知覚が不正確になる。画面の中では,右に行くほど遠くへ行っていると感じるため,この人は大きく見えるということである。知覚される距離によって違う大きさに見える。あるいは,実際には違う大きさのものが,距離によって,網膜には同じ大きさに映るということもある。

13図 距離と大きさの知覚は相互依存

大きさについて無限のメタマーがあり,形についても無限のメタマーがある(14図)。これは,曖昧さがあるとも,自由度があるとも捉えることができる。同じことであるが,違う捉え方ができる。自由度の話は,画像技術にとって,とても重要である。例えば,テレビの中に人が大勢映っている場合や,建物がたくさん映っている場合がある。そのとき,人間は,人が映っていれば,普通は,人がその大きさに見えるぐらいの距離から見ていると勝手に思う。同様に,建物が写っていれば,それなりの距離から見ているのだろうと思う。ということは,人間が適当に仮定してうまく見てくれている,という意味で,決められないということが,ここではプラスに働いてる,と言うことができる。

14図 無限のメタマーは解釈の「自由度」と「あいまいさ」を与える

一方,曖昧さについて,視点によって固有の3次元世界ができる例として,15図のような錯視が知られている。この2つは全く同じ写真である。しかし恐らく右の方が何か傾いて見えている。何が起こっているのか,完全に解明されているわけではないが,それぞれ3次元の世界で上に行くほど遠いということは構成されているが,それを2つ並べたときに,このスライド上の2次元の世界で,3次元がどうなっているかというのはまた別の話になっている。

15図 Leaning Tower Illusion

ここまで,視覚系のメタマーの存在が2次元画像による世界の表現を可能としている,また,メタマーの理解(自由度と曖昧さ)が画像技術の進展をもたらしている,というお話をした。

3.空間表現の拡張に向けて

ワクからはみ出すために,多様なメタマーを構成できれば,将来のメディアとして,3次元情報,多感覚情報,行動情報,身体情報など,いろいろなものが考えられる(16図)。ここで想定しているのは,我々の周りにいろいろなもの(外界周囲情報)があって,それを視覚・聴覚・触覚等で受け取り,それを元に,頭の中に1つの世界(統合空間)を構成するということである。

16図 ワクからはみ出すための空間表現の拡張

今後は,空間表現を拡張していく上で,頭の中の世界がどうなっているか,ということが重要になるだろうと考えている。ここでのキーワードは,空間表象(頭の中の世界)である。

本章では,立体視機能の話と,能動的な処理の話という2つの話をしたいと思う。

3.1 立体視機能

(1)両眼立体視の基礎

17図は,両眼立体視の基礎を示す図であり,右眼と左眼があって,白い点を視野の中心部で捉えて,黒い点がそこから奥行き方向にずれている。そのときに,網膜に映る像も少しずれて,白い点と黒い点の差,あるいはこのθl ,θrという角度の差が生じる。両眼視差H は17図の式のように表されるので,両眼視差H が分かれば,奥行きd を推定することができる。

17図 両眼立体視の基礎

右目と左目の像をそれぞれ1枚の平面で作って,それをそれぞれの目に見せる,というのが両眼立体視の基本であり,18図のステレオスコープでは,両側に右目用の像と左目用の像を置いて,真ん中にミラーを置くことで実現している。実際には平面2枚を見ていても,人間にとっては立体画像,あるいは実物を見ているのと同じになるので,これもメタマーであるということになる。

18図 ステレオスコープ

(2)両眼立体視による立体画像特有の課題

次に,両眼立体視の特性として,2次元の画像として考えた場合と異なる,いろいろな問題があるということを少し紹介したいと思う。

19図では,上の縞(細い縞)と下の縞(粗い縞)がある。どちらの縞も,真ん中の黒い小さな縦線に対して,手前に来るように作ってある。私が見ると,上の縞の方がより手前に見えている。これを動かすと,今度は下の縞の方がより手前に見える。あるいは,止まっているときは同じくらいに見えて,動かすと下がより飛び出して見えるということを確認できた方もいるかと思う。これは実験的に確かめられていて,立体視の特性として,このようなことも知っておかないと,正しい奥行きを評価・表現できない。

19図 動きの影響 (大きな縞は動くと大きな奥行き)

20図は,ルビンの壺と呼ばれる。めがねをかけないで見ると,この杯のような形が図形として見える。めがねをかけると,人の顔が浮かんで見えるように作ってある。これは,立体視により曖昧性が取り除かれるということである。この境界線が顔側の輪郭だと思うと顔に見えるし,壺側の輪郭だと思うと壺に見える。したがって,奥行きを反転させることによって,どちらが目立つか,ということを変化させることができる。

20図 ルビンの壺

(3)複数の手がかりの統合

奥行きの手がかりには,両眼立体視以外にも複数の手がかりがある。これらが協調し合ったり,矛盾していると互いに邪魔をしたりということが起こる。

ここでは,奥行き運動の話をしたいと思う。奥行き運動の手がかりには,21図に示す3つの主要な手がかりがある。このうち2つは両眼性の手がかり(両眼立体視と両眼間速度差)で,1つは単眼だけで分かる手がかり(大きさの変化)である。

21図 複数の手がかりの統合

両眼性の奥行き手がかりが2つある,ということは重要である。例えば,手前に動いてくるものを見ていると,右目の網膜像と左目の網膜像は,22図に示すように,逆の方向に動く。ということは,両眼視差とは別に,右目と左目の速度の差(両眼間速度差)が分かれば,奥行き運動が分かるはずである。

22図 奥行き運動を見るための2つの両眼手がかり

つまり,両眼視差の手がかりが無くても,速度の差があれば奥行き運動が分かるということである。これが,個人差という意味で重要であることを,23図の実験結果が示している。斜視の患者さんには立体視が苦手な方が多いが,この図の1つ1つのシンボルが,そのような1人1人の方の立体感度を表している。23図の横軸が速度差の手がかり,縦軸が視差の手がかりで,数字が大きくなると,立体視をするために奥行きを増やしているという意味である。したがって,数字が小さい方が,感度が良いということになる。赤い丸は,健常者のデータを表す。一方,斜視の患者さんのデータ(青い丸)を見ると,視差の手がかりは最大まで大きくしても立体視ができなかったが,速度差の手がかりについては健常者と同じくらいで立体視ができた人もいた。また,視差と速度差の関係が,その逆となる人もいた。視差の手がかりと速度差の手がかりの間には,ほとんど相関が無いので,2つの手がかりは別々のものだろう,ということが分かる。

23図 いずれかの手掛かりで奥行き運動が見える

一般的に,眼科のお医者さんで立体視検査を受ける場合は,止まっている絵を見て,奥行きが分かるかどうかという検査をしているが,23図の実験結果を見ると,速度差の手がかりがあれば奥行き運動が分かるという人もいるはずだということが分かる。立体が見えない人の何割かは,恐らく動きがあれば見えるという人も含まれているだろうということで,3次元映像を楽しめる可能性がある人は,普通に考えられるよりは多いだろうと思う。

ここまで,両眼立体視の問題点や可能性について述べてきたが,両眼立体視を使った3次元映像の技術を発展させるためには,人間がどのような特性を持っているかという調査がこれからも必要になると思う。

3.2 能動性と身体性

次に,能動性と身体性というお話をしたいと思う。この話は,我々が無意識に,頭の中にどのような空間を組み立てられるのか,ということを示す我々の最近の研究結果である。

視覚にはいろいろな目的があるが,その1つは,自分の周辺の環境を見て覚えることである。したがって,自分の部屋や,いつも通る道は,一生懸命覚えようとしなくても大体頭の中に入っている(24図)。テレビを見ていてリモコンを探す場合に,頭の中にテレビのリモコンの位置が入っていると,すぐにここにあるということが分かる(25図)。これは,どうやっているのだろうか。本当に無意識に,このようなことができるのだろうか。

24図 自分の部屋やいつも通る道は意識せず覚えている
25図 視覚はシーンの情報を無意識に獲得しているのではないか?

このことを,26図のような実験で調べた。被験者が6台のディスプレーの真ん中に入って,ある課題を行う。課題は,ディスプレーの中にターゲットTがどこかにあって,それを探すというものである。T以外は妨害刺激と呼ばれ,Lと表す。被験者に,「Tの足が向いている方向のボタンを押して下さい」と言っておくと,被験者はTを見つけてボタンを押す(27図)。

26図 360 度視野の視覚探索実験
27図 視覚探索実験

まず1台のディスプレーを使って,この実験を,28図に示すように,24枚の画面を1ブロックとして30ブロックまで続けた。そして,24枚の画面のうち12枚は新規配置,12枚は繰り返し配置(同じ配置の繰り返し)とした。繰り返し配置では,ターゲットTの位置と,その他のLの位置も同じで,ただ向きは変わっている。つまり,繰り返し配置12枚は,30ブロックまで実験すれば,30回ずつ見たことになる。このような実験を30ブロックまで行うと,28図右のグラフのように,探索時間がだんだん早くなる。そして,新規配置と繰り返し配置の間に差が出る。「これを見たことがありますか」と後で聞いても覚えていないにもかかわらず速くなるということで,潜在的学習,あるいは無意識の学習と呼ばれている。このように,無意識に空間配置を覚えられる,同じ配置を覚えやすくなる,という現象が知られていて,「文脈手がかり効果」と呼ばれる。

28図 視覚探索実験の手順と結果

次にこの実験を,26図のように,被験者が6台のディスプレーの真ん中に入って行った。刺激としては,6台のディスプレーのどこか1箇所にTがあるという実験になる。29図が実験結果である。ターゲットがどのディスプレー上にあったかで別々の結果になっているが,全てのディスプレーのターゲットについて文脈手がかり効果が得られている。ということは,背後も含めて,無意識に自分を取り巻く環境の配置を覚えることができる,という結果になっている。例えばサッカー選手の動きなどを見ると,そうなのかな,と思わせられることもあるので,頭の中にそのような表象を持っていることは,それほど不自然ではないだろう,と考えている。

29図 視覚探索実験の結果

同様の実験を,3次元の対象に対して,自分がその周りを動くという条件で行うと,繰り返し観察によって,3次元の配置も無意識に学習できることが分かる。これは,自分の行動あるいは能動性というものと関係した3次元の表象が必要なのだろう,ということを示している。このような表象をうまく作ることができれば,新しい3次元映像を作ることもできるだろうと思う。

4.まとめ

遠くない将来において,本講演で述べたような人間の特性を使ったディスプレーも実現されるだろうと期待している。空間表現の拡張に向けては,空間表象,すなわち頭の中にどのような世界を作っているかというところがポイントである。どのようなものを作っているのか,まだ分かっていないこともたくさんあるが,3次元の配置も学習できているだろう,自分の行動が重要になることもあるだろう,という話である。

ワクからはみ出すために空間表象を拡張したい,そのためには,いろいろな表象を使えばよいのでは,と思う。将来,そのようなものが発展して,我々もたくさんのものを楽しめるようになるといいなと思っている。