メタデータ制作フレームワーク

佐野 雅規 住吉 英樹 藤井 真人 柴田 正啓 八木 伸行

所望の映像コンテンツをより速くより正確に取得したいという要望を満たすためには,映像コンテンツに検索のためのメタデータ(内容記述情報)を付与する必要がある。特に,あるシーンを見つけたい場合には,映像の時間軸に沿った意味内容を記述するメタデータが必要である。現在,このメタデータを付与する作業は人手に頼らざるを得ない状況であるが,当所では,メディア解析技術を組み合せて,このようなメタデータをできるだけ効率的に生成するための環境として,メタデータ制作フレームワーク(MPF:Metadata Production Framework)を提案している。本稿では,メタデータ制作フレームワークの概要を紹介する。

1. まえがき

昨今の技術進歩により,コンピューターによる映像データの圧縮・蓄積・再生など,映像を物理的に扱うことは比較的容易になってきている。しかし,ある特定のシーンを探すなど,映像を意味的に扱うことについては,いまだに大きな壁がある。特に,放送局など,大量の映像コンテンツを扱う組織では,映像を意味的に扱う機会が多く,技術的な解決が期待されている分野であり,映像コンテンツから内容を反映したメタデータ(内容記述情報)を抽出し,管理することが求められている。

当所では,放送局および映像コンテンツを制作・配信する事業者の立場で,番組など映像コンテンツにメタデータを効率よく付与するためのフレームワークとして,メタデータ制作フレームワーク(MPF)を提案している。このフレームワークでは,目的の映像コンテンツに複数の研究者や機関が連携してメタデータを付与することが可能であり,技術提供者も利用者も双方にメリットがある。2006年にバージョン1を当所のWebページで公開し,その後もさまざまなプロジェクトでの実験と検証を重ね,2008年にはネットワーク対応への拡張を行ったバージョン2を公開し,現在も仕様の改良を続けている。本稿では,最新のMPF仕様の骨子とリファレンスソフトウエアを用いたMPFの基本的な利用シナリオについて紹介する。また,これまでの活動や今後の展望についても述べ,MPFへの理解促進と連携への協力を促したい。

2. メタデータ制作フレームワーク(MPF)

2.1 MPFの位置づけと対象メタデータ

メタデータは「データのためのデータ」と説明されることが多く,コンテンツに関連するさまざまな情報をすべてメタデータと呼ぶこともある。メタデータは,一般的に,ある特定の用途,特定のアプリケーションで効率よく利用されるので,必要最低限の情報が独自のフォーマットで表現されており,その種類は千差万別である。

放送局においては,番組に対して,検索などさまざまな用途を目的としてメタデータを付与している。1図はMPFを設計するにあたって想定した将来のメタデータの制作フローである。メタデータの制作体系を2段階に分け,第1段階(1図の左側)では共通に利用できるメタデータの作成を,第2段階(1図の右側)ではそれらを基に特定のアプリケーションに特化したメタデータを作成する。第1段階のメタデータを素材メタデータまたはプリミティブメタデータと呼び,第2段階のメタデータをアプリケーションメタデータと呼ぶ。多種多様なアプリケーションメタデータを制作する場合に,それぞれのメタデータを制作するために個別のシステムを開発するのでは膨大なコストがかかる。逆に,1つのシステムとして実現するとシステムが過度に複雑になる。そこで,共通の素材メタデータを作る第1段階と,これを基にアプリケーションメタデータを制作する第2段階に分けて,全体的なコストの削減を図っている。このような制作体系を効率よく稼働させるためには,第1段階の素材メタデータをいかにコストをかけずに精度よく生成するかということが鍵となる。本稿で紹介するMPFは,この素材メタデータを精度よく自動的に生成するための環境を提供することを目的としている。

一般的に,番組に関連するメタデータはその記述する対象範囲の大小によって2種類に分けることができる。1つは番組全体にかかわるタイトルや制作者など書誌情報*1 に当たるもので,これをプロダクションメタデータと呼ぶ。通常,人手によって付与される。放送局においては番組管理のために付与されており,データベース(DB)も整っている。他の1つは番組のある時間区間に対して付与されたメタデータである。セグメントメタデータと呼ばれ,その基本構成要素は,ここからここまでという時間区間の境界情報と,その区間の内容や使用にかかわる情報である。セグメントメタデータで付与される情報にはさまざまな種類があり,付与する手法も異なっている。例えば,ある区間映像に対する再使用上の制約や著作権などの情報はこの1つであり,人手によって入力される。また,映像の構図や色合いなどの低次の特徴は映像解析によってある程度自動で抽出することができる。映像中のイベントやシーンの意味などの高次の特徴は検索などをするユーザーに最も有用なメタデータであるが,自動抽出は難しく,ほとんど付与できていないのが現状である。MPFで扱うメタデータは低次から高次の特徴まであり,さまざまなメディア処理を組み合せることで効率よく生成することを目的としている。

1図 メタデータの制作フロー

2.2 システムモデル

2図はMPFにおけるメタデータ制作システムのモデルである。モジュール群とそれらを制御するためのコントローラーの2種類で構成されるシンプルなモデルである。モジュールは2種類あり,1つは蓄積モジュールと呼ばれている。生成したメタデータを蓄積・管理するDBを持つモジュールで,コントローラーまたは他のモジュールからの要求に応じて,メタデータDBを検索または更新する。他の1つは処理モジュールと呼ばれ,MPFにおいて最も重要なメタデータ制作にかかわる各種処理機能を提供する。各種処理機能には,メタデータの生成・加工・利用・削除など,メタデータのライフサイクルに絡んだすべての操作が含まれている。コントローラーはユーザーとシステムの仲介を行い,目的のメタデータを生成するために必要なモジュール群を制御する。処理モジュールとのやり取りのほかに,生成したメタデータを保管・活用するために,蓄積モジュールとのやり取りを制御する。

MPFではメタデータ制作にかかわるさまざまな処理を統一されたインターフェース(IF)を持つモジュールとして実装しており,それらを組み合わせることで,目的のメタデータを制作するという考え方に基づいている。メタデータの制作を連携して行うための方法として,作成したメタデータだけを交換するのではなく,個々の処理モジュール自体も交換することが可能である。このようなシステムモデルを支障なく機能させるためには,メタデータの表現(メタデータモデル)と,モジュールやコントローラーの間でのデータのやり取り(インターフェース)を規定する必要がある。

2図 MPFのシステムモデル

3. MPF仕様の規定項目

3.1 メタデータモデル

MPFのメタデータモデルには,メタデータの国際標準であるMPEG-72) のサブセットを採用した。MPFのメタデータをXML(Extensible Markup Language)形式*2 で表現し,その構造などをXMLスキーマ*3 によって定義した。ただし,一部のスキーマで表現できない制約は文章で規定した。MPEG-7からのサブセットの選択方法については,当初は番組を記述するための最小限のものにとどめ,実証実験を進めていく過程で,必要になれば順次拡張するという方針で進めた。そのためMPFバージョン1では,映像や音の低次の特徴は対象外とし,基本的にテキストで記述されたメタデータだけを対象とした。MPFバージョン2では,映像や音の低次の特徴も含め,MPEG-7で規定されていないメタデータについても外部ファイルに保存し,そこへのポインターを保持するという形で拡張した。

3図はMPFのメタデータモデルとシステムモデルの核である処理モジュールの動作を示したものである。MPFでは,単一の映像コンテンツ(番組)を対象としており,図の中央がメタデータの構造である。先に述べたプロダクションメタデータは基本情報の中にある。メタデータの作成方法ごとにセグメントブロックを作り,その中にその方法で作成したセグメントメタデータをセグメントユニットとして入れる。1つの番組メタデータの中に,セグメントブロックは幾つでも生成することができ,セグメントブロックの中には必要なだけセグメントユニットを生成することができる。作成単位としてはショット区間*4 や発話区間などがある。

ここで,処理モジュールを用いたセグメントメタデータの生成についてニュース番組を例にして説明する。3図の処理モジュールAは番組の映像を解析して1つ1つのニュース項目を検出し,それをセグメントブロックAにまとめて格納する。同様に,処理モジュールBはアナウンサーの発話を認識し,1文1文をセグメントユニットとしてセグメントブロックBに格納する。処理モジュールCは,これら2つのモジュールの結果を用い,各ニュース項目の中に含まれるアナウンサーの発話内容を言語解析し,抽出した主題などのサマリーを内容情報として付与する。この例では,3つの処理モジュールを組み合せた一連の処理で,各ニュース項目に関するメタデータを生成する。このようにセグメントブロックを単位としてモジュールにより提供される処理を組み合せ,また,他のモジュールの結果を再利用して目的のメタデータを生成する。

3図 MPFのメタデータモデルと処理モジュールの動作の関係

3.2 インターフェース

MPFでは,生成したメタデータを送受するためのメタデータ操作インターフェースと,モジュールを制御するためのモジュール制御インターフェースの2種類を規定している。どちらもWebServices*5 による実装を基本としているが,モジュール制御インターフェースについては,処理モジュールを容易に開発するためにWindows DLL*6 による実装も可能としている。以下,2種類のインターフェースの概要を説明する。

3.2.1 メタデータ操作インターフェース

蓄積モジュールに蓄えられるメタデータを操作するためのインターフェースである。システムへの実装を容易にするために,高レベルと低レベルの2種類のインターフェースを定義しており,すべての蓄積モジュールは高レベルインターフェースの実装を必須としている。高レベルインターフェースはメタデータモデルの中の5つの構造要素(番組全体,セグメントブロック,セグメントユニット,番組全体の基本情報,番組全体とセグメントブロックのヘッダー情報)を操作単位としている。ネットワークを介した複数のプロセスによって1つのメタデータを更新できるようにするために,書き込み操作権限によるメタデータ操作を用意している。具体的には,更新対象とするメタデータにロックをかけ,他からの更新を禁止した状態にし,更新が終了した後でロックを解除する。これにより複数プロセスの衝突によるデータの破損を防ぐことができる。低レベルインターフェースとしては,XMLで記述されるデータのどの部分にでもピンポイントで自由にアクセス可能なクエリー規格であるW3C(World Wide Web Consortium)*7 のXQuery*8 を採用している3)。また,XML要素の更新などについては,現在,W3Cにおいて勧告案であるXQuery Update Facility*9 の採用を予定している。

3.2.2 モジュール制御インターフェース

モジュール制御インターフェースは処理モジュールには必ず実装されており,MPFでは4種類の関数群(モジュールの初期化,モジュールのプロパティーと処理に必要なパラメーターの取得,処理に必要なパラメーターの設定,モジュールの動作制御(開始・停止))を規定するシンプルな構成とした。コントローラーは,これらのインターフェースを介して必要なモジュールを動作させて目的のメタデータを生成する。

4. リファレンスソフトウエア

MPFのWebページ1) ではMPFの仕様書のほかにリファレンスソフトウエアとそのマニュアルを公開している。MPFの基本動作を確認するために無償で配布しており,商用でなければ自由に利用することができる。提供しているソフトウエアは3種類で,コントローラーの機能を持つメタデータエディターと,蓄積モジュールを構築するためのラッパー*10 と,サンプルとしての各種処理モジュールである。4図はこれらのリファレンスソフトウエアによる実験環境を示している。ソフトウエアは必要なものだけを組み合せて使用することができ,その組み合せによってテストできるMPFの機能が異なる。なお,MPFの仕様書を含め,これらのソフトウエアとそのドキュメントはすべて日本語版と英語版を用意している。

以下,個々のソフトウエアについて簡単に説明する。

4図 リファレンスソフトウエアによる実験環境

4.1 メタデータエディター

MPFシステムモデルにおけるコントローラーの役割を果たし,MPFの基本的な機能を検証することができる。エディター上では,開発したさまざまな処理モジュールを組み合せて動作させることができる。また,人手によるメタデータの修正も可能である。最終的なメタデータは外部ファイルとして保存することもできるし,蓄積モジュールを構築してそこに保存することもできる。5図はエディターの操作画面を示している。画面は大きく分けて3部構成となっている。左上が選択されたセグメントユニットの情報表示部,右上が映像コンテンツ表示部,下半分がセグメントブロックとそれに含まれるセグメントユニットの表示部である。処理モジュールはセグメントブロック(トラック)に対して1つ割り当てることが可能で,処理を開始すると抽出されたセグメントユニット(セグメントメタデータに相当)の出力が描画される。トラック上にあるセグメントユニットをクリックするとその内容がエディター画面左上に表示される。選択されたセグメントユニットの内容はMPEG-7に準拠したXMLの木構造で表現されており,直接,編集が可能である。また,エディター上では複数のトラックに同じ処理モジュールを割り当て,それぞれを違ったパラメーターで動作させることも可能であり,パラメーターの違いによる処理結果の違いを視覚的に容易に把握することができる。そのほか,モジュールをカスケード接続する(他のモジュールの出力結果を入力とする)ことも可能であり,正解データをトラックに作成しておけば,それと処理モジュールの結果とを比較して,精度などを数値化して外部ファイルに出力するような評価処理モジュールを開発することもできる。更に,グラフを表示する特別なトラックも実装しており,決められたフォーマットの時刻情報付き数値列を選択した色や形式で描画することもできる。この機能により,メディア解析処理に関連する時系列データを視覚的にわかりやすく確認することができる。

5図 メタデータエディターの操作画面

4.2 蓄積モジュールのためのラッパー

MPFシステムモデルにおける蓄積モジュールを構築するためのプログラムである。データベースそのものには,フリーのネーティブXMLデータベース*11 であるeXist*12 を利用した4)。ラッパーはeXistのデータベースを扱うメタデータ操作インターフェースを実装しており,WindowsのIIS(Internet Information Server)*13 上に構築するWebServicesとなっている。従って,WindowsのOSにeXist,IIS,ラッパーをインストールすることで,ネットワークを介してどこからでも利用可能な蓄積モジュールが構築できる。

4.3 処理モジュール

MPFの処理モジュールとして,画像,音,その他の処理を行うサンプルプログラムをソースコード付きで5種類提供している。これらにはDLL実装とWebServices実装の両方のソースコードが付いている。更に,モジュール開発者のために,プログラムの骨格だけを持つスケルトンモジュールもソース付きで用意されている。スケルトンモジュールのソースにはプログラムを作成するための指示が付いており,それに沿って自身の研究開発した内容解析処理を埋め込めば,MPF仕様の処理モジュールができ,メタデータエディターからそれを実行してテストすることができる。

5. これまでの活動と今後の予定

MPFは2006年5月に公開した後,国内外のプロジェクトに参加・展示をして,その有用性をアピールしてきた。例えば,2007年度からの情報大航海プロジェクト5) では,MPFを映像の意味理解のための共通基盤として提案し,多くのメディア処理をモジュール化した。また,自動コンテンツ解析技術(音声認識,顔画像認識,テキスト解析等)に基づくメタデータ付与技術の評価を目的としたEBU(European Broadcasting Union)のP/SCAIE6) プロジェクトでは,評価のための共通のメタデータフォーマットの基本仕様の1つとして検討されている。今後,これらの活動を続けるとともに,より現実的なシステムとなるように仕様の再検討を行っている。

予定している仕様の拡張は以下のとおりである。

5.1 内容記述対象の空間的分割への拡張

現在の内容記述の対象領域は,映像や音声を時間的に分割したある時間区間であり,映像を構成する画像(フレーム)では全体領域を記述対象としている。最近,映像や画像の空間的な一部分を特定し,そこへメタデータを付与することは多く,MPF仕様の空間的な分割への拡張要望がある。MPEG-7には,この機能が含まれており,それを含む仕様に変更することで,空間的な分割に対応できるようにする予定である。

5.2 リンクメタデータ付与への拡張

リンクメタデータとはコンテンツのある部分と別のある部分との間の関係を記述するメタデータである。単一のコンテンツ内だけではなく,複数のコンテンツ間に付与する場合もある。最近の情報抽出の研究分野では,大量のコンテンツを対象として,このようなさまざまな関係を抽出するということが盛んに行われている。この分野においてもMPFを利用したいという要望があり,仕様の拡張を検討している。現バージョンのMPFは単一のコンテンツだけを対象としており,これを複数対象となるように拡張し,リンクメタデータを効率よく扱うことができるように仕様の変更を検討している。

5.3 リファレンスソフトウエアの改修

5.1節および5.2節で述べたような機能を拡張するためのソフトウエアの改修のほかに,以下の2点の改修を検討している。1つはメタデータエディター上でセグメントメタデータを編集する際のGUI(Graphical User Interface)の改修である。現在のメタデータエディターでは,画面に木構造で表現されたMPEG-7準拠のXMLデータを直接操作することはできるが,そのためにはMPEG-7の知識が必要である。そこで,ユーザーがMPEG-7の知識が無くても利用できるように,この部分のGUIをカスタマイズ可能なプラグインモジュール方式として設計し直すことを考えている。他の1つは現在のメタデータエディターで人手によって行っている一連のモジュールの実行処理をバッチ処理*14 で行えるようにすることである。

6. むすび

映像コンテンツを対象にして,内容を記述するメタデータを効率よく付与するための枠組みMPF(メタデータ制作フレームワーク)について,その仕様を紹介した。MPFの利点は,放送局や映像コンテンツ提供事業者にとっては,新規技術をモジュールとして組み込むことによって,常に最新のメタデータ制作環境が活用できるようになることである。処理技術を提供する事業者においては,個別に大きなシステムを構築する必要がなく,ある処理に特化した独自技術をモジュールとして供給することができ,効率のよい環境であると考えている。また,学術的には,個々の研究成果がモジュールになり,研究室などでの技術の蓄積・継承・利用が容易になるほか,研究の効率を更にあげることができると考えている。

MPFはメタデータ制作という目的を通して,さまざまなメディア解析技術,情報処理技術を発展させることに貢献するものであり,今後,更に実践的な目標を定めて,賛同していただける研究機関と連携して研究開発を進めていく予定である。