ホーム 研究内容 ニュース 刊行物 アクセス

研究内容紹介

4.1 コンテンツ要素抽出技術の研究

映像検索技術

 映像アーカイブスや各放送局に蓄えられた映像素材は、番組制作者にとって貴重な資料である。その利活用の促進を目的として、映像検索技術の研究を進めている。
 映像の各フレーム画像において「顔がどこにあるか」を見つける顔検出技術の精度向上を図った。学習データの増強およびカスケード型の決定木を用いた識別器の改良により、約90%という高い検出精度を得た(1)。また、本技術と「顔が誰であるか」を識別する顔認識技術を用いて、テレビ番組の出演人物をリアルタイムで識別するシステムを開発し、技研公開2017にて展示した(図4-1)。
 映像中に写りこんだ文字列(情景文字列)を検出する技術については、物体認識技術により推定した「看板」「道路標識」「名札」などの「文字列属性」を利用して、精度を改善する手法の検討を進めた。
 入力画像と同一の被写体が映る画像を探す「詳細類似画像検索」の研究に取り組んだ。被写体の外観の対称性に着目した新しい特徴ベクトルおよび類似度計算手法の導入により、特定ジャンル(建造物など)を対象とした類似画像検索での精度向上を実現した(2)
 映像検索技術の実用化に向けた取り組みも、多角的に進めた。CG合成や映像効果などを取り扱う番組制作現場と連携して、物体認識技術で自動付与したタグによる検索や類似画像検索技術を組み込んだ素材管理システムをイントラネット上に構築し、現場での試用を開始した。また、放送現場より提案されたアーカイブス映像へのメタデータ自動付与システムの実用化に向けて、顔認識技術および情景文字列認識の実装を進めた。さらに、スマプロラボ(4.3節参照)の取り組みとして、ニュースの制作現場を支援するために開発中のソーシャルメディア分析システムにおいて、火災や消防車などが映る画像を自動検出し、事故や災害に関するツイッターの抽出精度を向上させる仕組みの構築に着手した。
 将来の柔軟で拡張性の高いメディア制作環境を構築するためのサービスインターフェースを規定する、AMWA-EBUの「FIMS(Framework for Interoperable Media Services)」の標準化活動において、映像のショット単位への分割や物体認識、文字列検出技術などをFIMS準拠のサービスとして実装したデモシステムを構築し、欧州国際放送機器展IBC 2017に出展した。



図4-1 リアルタイム顔認識技術

映像要約技術

 番組の予告映像やダイジェスト映像の制作を支援するために、番組映像を自動で要約する技術の研究を進めている。
 2016年度に開発した映像要約手法について、適用対象となる番組数を拡充するとともに、イントラネット上にデモシステムを構築した(3)。このシステムでは、番組制作者が自動要約の手がかりとなる、ツイッター解析による視聴者の反響、画像解析に基づいた登場人物、テロップおよびカメラワークなどのさまざまな情報の重み配分を自由に設定し、さまざまなパターンの要約映像を自動生成することが可能である。
 この技術を応用して、大量の投稿動画から要約映像を自動で生成するシステムを開発し、2017年10月放送の番組「東京ミラクルシティ みんなで撮った1000日前」で活用された。スマートフォンで撮影された約1400本の投稿動画の中から、顔の検出技術、建物や人ごみを認識する技術などにより映像を自動で選択し、それらをバランスよく並べて要約映像を生成するシステムとした。システムが自動生成した要約映像は、番組において「AI(Artificial Intelligence:人工知能)が編集した映像」として紹介された。
 映像区間の重要性評価に関する研究として、センサーから取得した顔変形データの解析によりわずかな表情の変化を検出する手法の改良を進めた。表情の変化と相関の強い目や口元などの特徴点データのみを解析対象とすることにより、検出精度の向上を図った。この研究の一部は早稲田大学と共同で実施した。


モノクロ映像の自動カラー化技術

 放送局に保管されているモノクロ映像は、さまざまな番組で利用される貴重な映像素材である。番組制作現場のニーズに応え、4K解像度相当のモノクロフィルム映像をカラー映像に自動変換する技術の研究に着手した。
 アーカイブス映像などから収集した大量の番組映像を教師データとしてディープニューラルネットワーク(DNN)を学習し、モノクロフィルム映像をカラー映像に自動変換する手法を開発した(4)。この手法は、色の推定用、色の修正用、および色情報の隣接フレームへの色伝搬用といった3種類のDNNで構成されている。さらに色補正のため、番組制作者が簡易な手段で色を指定することで、その色が反映されたカラー映像を生成することが可能である。


 

〔参考文献〕
(1) 河合,望月,佐野:“テレビ番組を対象とした顔検出と顔認識,” 信学技報,IE2017-83(2017)
(2) 藤森,望月,佐野:“物体の対称性に着目した詳細類似画像検索,” 情報科学技術フォーラム,H-041(2017)
(3) 松井,望月,河合,遠藤:“マルチモーダルなコンテンツ解析に基づいた放送映像の自動要約,” 信学技報,PRMU2017-26(2017)
(4) 遠藤,河合,望月:“画像変換のためのマルチスケール残差ネットワークの検討,” 映情学技報,ME(2017)