No.147 2014年9月発行

聴覚障害者向け放送の バリアフリー技術 特集号

※PDFで公開しています。

巻頭言

  • 聴覚障害者向け放送のバリアフリー技術特集号に寄せて
    長嶋祐二
    工学院大学情報学部情報デザイン学科教授
    PDF

解説

  • CGキャラクターを用いた手話表現技術の研究動向
    比留間伸行/東真希子
    PDF ↓概要

    概要
    手話は音声言語とは別の言語であるという理解が広まり,手話による各種の情報サービスの充実に向けた研究の機運が各所で高まっている。本稿では,音声言語のテキスト表記のデータを入力とし,それに相当する手話のアニメーションをコンピューターグラフィクス(CG:Computer Graphics)により自動生成するシステムの実現を目指した研究の動向を紹介する。特に,放送・通信への応用も視野に,多国間のプロジェクトを含めて継続的に取り組んできたヨーロッパでの活動を概観し,当所の手話CG研究の特徴と位置づけを紹介する。
  • 情報保障に用いられる音声認識技術の最新動向
    佐藤庄衛
    PDF ↓概要

    概要
    「人にやさしい放送」の実現のために当所が進めている音声認識の研究開発の概要を紹介するとともに,障害者のための情報保障技術と,同情報保障に用いられている音声認識技術の動向について解説する。また,放送番組への字幕付与の現状を紹介し,課題について述べる。

報告

  • 気象情報を対象とした手話CG生成技術の概要
    比留間伸行/清水俊宏/梅田修一/加藤直人/宮﨑太郎/井上誠喜/金子浩之
    PDF ↓概要

    概要
    当所では,耳が不自由で手話を主に使用している方に情報をお伝えするために,気象情報の日本語原稿を入力とし,それに相当する手話のアニメーションをコンピューターグラフィクス(CG:Computer Graphics)により自動生成するシステムを開発している。本稿では,その全体的な構成を説明する。本システムは,NHK手話ニュースの映像の手話単語への書き起こしと日本語のアナウンス原稿とのペアを記録したデータベースに基づく用例翻訳により,入力された日本語原稿を手話の単語列に変換する。この単語列に従って,モーションキャプチャーにより制作した手話単語のCGを接続することにより,手話文のアニメーションを制作している。
  • 手話アニメーションの合成・編集
    井上誠喜/加藤直人/宮﨑太郎/梅田修一/東真希子/清水俊宏/比留間伸行
    PDF ↓概要

    概要
    当所では,手話放送番組の拡充を目指し,番組制作記述言語(TVML:TV program Making Language)を使った手話アニメーションの研究を進めている。本稿では,手話用CGキャラクターおよび手話モーションデータ,TVMLスクリプトと例文モーションの編集による簡便で高品質な手話アニメーション生成手法について報告する。また,開発中の手話アニメーションエディターについても紹介する。
  • 対談音声認識のための話者ダイアライゼーション
    奥貴裕/佐藤庄衛/小林彰夫/本間真一/今井亨
    PDF ↓概要

    概要
    話者ダイアライゼーションとは,音声から「いつ,誰が発話したのか」を推定する技術である。話者を推定することができれば,話者適応化技術により音声認識率の改善が期待できる。本稿では,対談番組のような連続した音声に複数の話者が含まれる状況において,話者交代点を検出しつつ低遅延で話者を判定する手法を提案する。提案手法では,音素情報に基づいて音声区間を分類したマルチ音素クラスのベイズ情報量基準を用いることで,話者ダイアライゼーションの精度の向上を図った。報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行った結果,遅れ時間2秒で話者判定するタスクにおいて,話者ダイアライゼーション誤りを従来手法に比べて20.0%削減することができた。この提案手法による話者判定結果を利用した音声認識の話者適応実験では,話者交代点前後の発話に関して7.8%の単語誤り削減率を得た。
  • 誤り傾向を利用した言語モデルによる音声認識
    小林彰夫/奥貴裕/今井亨
    PDF ↓概要

    概要
    音声認識の誤りの傾向を利用して性能改善を図る新しい認識手法を開発した。本手法では,音声認識の統計的音響・言語モデルで計算される確率(認識される単語のもっともらしさ)に,単語の誤り傾向に応じた言語的なペナルティーを加算することで認識性能を改善する。言語的ペナルティーを統計的に推定したモデルを識別的言語モデルと呼ぶ。本手法の特徴は,正解文の与えられたデータ(音声認識した結果)のみから識別的言語モデルを学習するのではなく,正解文の付与されていないデータの認識結果を併用する学習方法(半教師あり学習)により,頑健な音声認識を可能にしたことである。本稿では,2種類の異なるデータから,識別的言語モデルの半教師あり学習をするために,多目的最適化と呼ばれる最適化手法を導入した。実験により,従来のトライグラム(単語3つ組)言語モデルに比べ,単語誤りを6.3%削減し,有効性を確認した。

研究所の動き

  • 複数のプロジェクターを用いたインテグラル立体映像表示 PDF

発明と考案

  • 2014年5月~2014年6月 PDF

論文紹介

  • 論文紹介 PDF

  • 研究会・年次大会等発表一覧 PDF