No.412008/08

連載 「映像メディアのためのメタデータ制作・活用技術」(全6回)
 多くの映像配信サービスが利用可能になり、視聴者の映像コンテンツの選択を支援するための技術がますます求められるようになってきました。そこで重要なのが、メタデータと呼ばれる映像の内容を記述する情報です。

第1回 「メタデータを作る技術、使う技術 」
人間・情報 主任研究員 柴田 正啓
なぜメタデータが必要か
 インターネット上のWebコンテンツは、メタデータのような特別なものを作る必要もなく、商用の検索エンジンで簡単に検索できるようになりました。これは、Webコンテンツが、基本的には人間の使う言葉で書かれた文章から成り、HTMLという形式のタグ(目印)がついているという構造をもっているためです。検索エンジンは、Webコンテンツを集め、このタグを参照しながら集めた文章を基本単位である単語に分解し、各単語とその単語を含むWebページの対照表(インデックス)を作ります。検索キーワードがユーザによって指定されると、検索エンジンはインデックスの見出しになっている単語とキーワードを照合することによって、適合するWebコンテンツを検索結果とします。
 では、同じ技術を映像コンテンツに適用できないでしょうか。残念ながら、映像には文章の単語に相当する基本単位はありません。動画像は静止画の連続ですので、個々の静止画が物理的な基本単位ともいえます。しかしながら、これは必ずしも単語のような意味を担う単位ではありませんし、ユーザが「こんな内容の映像を見たい」といった検索の質問を静止画として表現するのは簡単ではありません。従って、個々の静止画を使って映像コンテンツのインデックスを構成しても、Webコンテンツと同じような検索サービスを行うことはできません。そこで、必要になるのがメタデータです。
メタデータの制作と活用
 ここでいうメタデータの基本的な役割は、ユーザの検索質問と照合可能な映像コンテンツの内容についての見出しということになります。検索質問の典型はキーワードと考えられますので、これに対応するためには映像の内容を言葉で記述したメタデータが必要です。また、映像コンテンツは、それぞれが意味をもったシーンの連なりによって内容が展開していくため、内容を記述するメタデータは個々のシーンを切り分ける境界の情報も持つ必要があります。この他、言葉では表現しにくいシーン同士の類似性に基づく検索を実現するためには、シーンの映像としての特徴をうまくとらえる情報が必要になります。これらの情報を、多くの労力をかけずに効率的に作成することが、NHK技研の進めているメタデータ制作技術の研究の目的です。
 この研究では、映像コンテンツをコンピュータによって解析して、メタデータに必要な内容記述情報を取り出す技術を開発しています。映像から内容記述情報を取り出すには、パターン認識と呼ばれる高度な技術が必要です。最近、コンピュータの処理能力や記憶容量の向上によって、大量の例題データから認識の規則をコンピュータが自動で学びとる機械学習と呼ばれる技術をはじめ、様々な統計的手法が使えるようになりました。これらを駆使して、映像コンテンツを構成する映像、音声、言語を統合的に解析する技術、および、作成したメタデータを活用した検索技術や様々な映像コンテンツの提示手法を開発しています。
 次回から個別の技術をわかりやすく紹介していきます。ご期待ください。



Copyright 2008 NHK (Japan Broadcasting Corporation) All rights reserved.
許可なく転載を禁じます。

技研だより NHK放送技術研究所