写真:小早川 健

ビッグデータ利活用技術(第2回/全4回)

Twitter解析技術

ヒューマンインターフェース研究部 小早川 健

この連載では、情報通信技術(ICT)分野で注目が集まっているビッグデータについて、放送サービスでの利用に向けたデータ分析技術や処理システムについて紹介します。

放送番組が視聴者の皆様にどのように受け止められているのか、作り手として気になるところです。

番組に対する感想や意見を解析する技術は評判分析と呼ばれ、好評・不評のどちらであるのか、意見の対象となっている部分は具体的に何かなど、自動的に判別することが私たちの研究の目標です。この研究分野には10年以上の歴史がありますが、ビッグデータ時代と呼ばれる近年になって、ますます注目を集めています。特に放送に関する評判分析では、放送が多くの方々に向けた媒体であり、意見の話題が多岐にわたります。評判分析研究が多数の学習事例を必要とすることから、放送と評判分析研究は親和性が高いと考えられます。

今回は、放送局に対するTwitterでの「つぶやき」が、どの番組に対する意見なのかを自動判定する技術(図)を紹介します。この技術は、放送番組の紹介文とつぶやきとの類似度を計算することによって、番組に関する意見なのかどうか、そして、番組に関する意見ならばどの番組についてのものかを判定します。

数多くの番組に対する意見を分析することは容易ではありません。番組に対する意見が放送開始前や終了後につぶやかれることは珍しくなく、つぶやきの本文中に番組の正式名称が明記されていないものや、話題を明示するハッシュタグという文字列が用いられていないつぶやきも多くあるからです。このようなつぶやきから番組に対する意見を判定するには、番組内容に特徴的な検索語を選定する必要が生じます。開発したTwitter解析システムでは、この選定を自動化することによって、NHKの番組についての意見を体系的・網羅的に分析できるようになりました。

Twitterに代表されるビッグデータには、さまざまな情報が潜んでいる可能性があります。現在は、短期的なデータの分析に留まっていますが、長期にわたるデータの傾向を分析する技術の発展も求められています。引き続き、視聴者の皆様の意向をくみ取り、番組で活用できるよう研究を進めていきます。

図:Twitter解析システムによる分析