3.1 自然言語処理技術

テキストビッグデータ活用技術

放送局内外の大量のテキストデータ(テキストビッグデータ)から、番組制作に役立つ情報を取得する研究を進めている。これまで、ソーシャルメディアや番組アーカイブスから有用な情報を取得・提示する番組制作支援システムを開発してきた。

2020年度は、Twitterから新型コロナウイルスに関連する有用な情報を特定する技術を開発した。単語間の係り受け構造に基づくグラフ深層学習と、誤差関数に単語ごとの判別誤差に基づくCTC(Connectionist Temporal Classification)lossを利用し、精度向上を図った。開発した手法の有効性を検証するため、国際ワークショップW-NUT2020が主催する競争型タスクに参加し、上位グループと同程度の成績を獲得した(1)

ソーシャルメディアを利用したトレンド分析やフェイクニュース判定のための基礎技術として、対話における話者間の関係性に着目した感情判定に関する研究を進めた(2)。さらに、対話の時系列情報を考慮した新たなグラフニューラルネットワークによる高性能な感情判定手法を開発し、代表的な4つのベンチマークデータを用いた評価実験の結果、世界最高性能(2020年11月時点)を確認した(3)

ニュース記事などのテキストに記述される内容を特定し、その内容に適切な複数のラベルを付与する手法を提案した(4)。付与するラベル間の関係性を考慮し、類似したラベル間で相互に学習効果を高めるように学習することで、ラベル付与の性能向上を図った。テキスト分類技術の応用として、放送現場と協力してニュース記事に100種類以上のカテゴリラベルを自動付与するニュース分析システムを開発した。

番組制作者のデータ分析業務を支援するための情報分析技術に関する研究を進めた。実際の番組制作の過程で取得したアンケートのデータに基づき、アンケート結果から主要な特徴を抽出するための統計手法を提案した(5)

日本野球機構が提供するリアルタイム試合データと過去の原稿に基づくテンプレートを利用した戦評制作支援システムを開発した。報道局スポーツニュース部と連携し、プロ野球の戦評制作業務で2020年の開幕戦からシーズン終了まで試用した。

評判分析の研究

NHKの放送番組に関連したTwitterの投稿を収集する技術として、 動的クエリ拡張をする方法と深層学習による方法を試作した。動的クエリ拡張をする方法では、投稿に含まれる単語ごとに「番組らしさ」を算出する際に、その「番組らしさ」を時系列に沿って動的に変化させることで、10%程度のTweet取得数の増加を確認した。また、一般的な深層学習の枠組みを用いたTweet分類器を作成し、広範な日本語テキストで事前学習したモデルに対して、番組関連ツイートで追加学習したモデルで、10〜20%弱程度のTweet取得数の増加を確認した。

図3-1 テキストビッグデータからの有用情報の抽出例