No.131 2012年1月発行

音声処理 特集号

※PDFで公開しています。

巻頭言

  • 音声処理特集号に寄せて
    小林 哲則 早稲田大学理工学術院情報理工学科教授
    PDF ↓概要

    概要
     人間の耳と口を作る。簡単に言えば,これが音声処理の研究と言ってよい。筆者が音声研究を始めたのは,1980年代初頭である。当時は実時間で話し言葉を認識する装置などは夢の話であった。筑波万博に展示したロボット用に十数個のプロセッサーを並列に動作させ,たどたどしい会話システムをやっとの思いで実現したことが懐かしく思い起こされる。米国DARPA(Defense Advanced Research Projects Agency:米国防総省高等研究計画局)がWallStreet Journalの読み上げを対象として音声認識技術のコンテストを始めたのは1990年代の初めであった。今日の統計的手法に基づく音声認識技術の基礎を成したと考えられるこのプロジェクトも,開始当時は40%程度の音声認識率であった。デモを見ながら,ずいぶんと遠大な計画を立てるものだ,と感心とも驚きともつかない感想を持ったことを覚えている。

解説

  • リアルタイム字幕放送のための音声認識
    今井 亨
    PDF ↓概要

    概要
    テレビ番組の音声を文字で伝える字幕放送は聴覚障害者や高齢者への有用な情報提供手段となっており,生放送番組へのリアルタイム字幕付与も音声認識技術や高速入力用キーボードの利用によって年々拡充が図られている。本稿では,字幕放送の現状と音声認識技術の概要について述べるとともに,音声認識を利用したリアルタイム字幕制作システムを紹介する。また,認識性能と運用性を向上させるための当所の最近の音声認識の研究について述べ,今後の技術的課題を考察する。
  • 番組制作に利用される音声合成技術とその研究動向
    清山 信正
    PDF ↓概要

    概要
    音声合成は人手をかけずに効率的に音声で情報を伝えられる利便性の高さから,これまでにさまざまな分野で応用されてきた。しかし,番組制作で利用されてきた方式のほとんどは限定されたタスクで,録音した音声を組み合わせて再生する録音編集方式であった。一方,任意の文章を合成できるテキスト合成方式は,特別な演出効果を意図して微妙に非人間的な不自然な声で出演者と掛け合いをしたり,ロボット的な音声を意図的に使用したりする場合に限定して利用されてきた。本稿では,番組制作に利用される音声合成技術として,録音編集方式,コーパスベースのテキスト合成方式を中心に概説するとともに,その研究動向および実際の利用例を紹介する。

報告

  • 字幕制作のためのオンライン発話検出と男女並列音声認識
    今井亨/佐藤庄衛/本間真一/尾上和穂/小林彰夫
    PDF ↓概要

    概要
    音声認識を利用したリアルタイム字幕制作の性能を高めるために,背景雑音や男女の話者が混在したニュース番組を対象として,新しい発話区間検出手法と男女並列音声認識手法を開発した。 開発した発話区間検出手法では,音素(母音および子音)認識を行って得られる音声と非音声の ゆうどもっと累積対数尤度(周波数成分の尤もらしさで,音声または非音声らしさの度合い)を比較することで,背景雑音のある音声に対しても,発話区間の始端および終端を入力音声から高精度に検出することができる(発話区間の誤棄却率を従来の4.6%から0.53%に削減)。
  • 単語誤り最小化に基づく識別的リスコアリングによる音声認識
    小林彰夫/奥貴裕/本間真一/佐藤庄衛/今井亨/都木徹
    PDF ↓概要

    概要
    音声認識の性能を向上させるために,認識誤りの傾向を反映した識別的リスコアリング(音声認 識の正解単語候補の再得点付け)手法を開発した。開発した手法では,音声認識におけるラティ ス(正解単語候補をつなぎ合わせたグラフ表現)をリスコアリングする際に,正解単語候補の認 識誤りの傾向に対応して,統計的音響モデルと統計的言語モデルで計算されるスコアにペナル そせいティーを与える。このペナルティーは言語的な文脈に基づく素性関数とその重みで規定される。
  • 株式市況音声合成システムの開発
    世木寛之/清山信正/田高礼子/都木徹/大出訓史/今井篤/西脇正通
    PDF ↓概要

    概要
    NHKのラジオ第2放送で放送している「株式市況」は,東証一部に上場されている銘柄の終値 と前日比を伝えている。この番組を担当するアナウンサーには,数値を間違えずに読むことと決 められた時間内に読み上げることが要求され,正確に数値を読みながら時間配分を調整しなけれ ばならない非常に難度の高い業務であった。本稿では,数値音声合成と話速変換技術を用いて開 発した株式市況音声合成システムについて述べる。まず,終値と前日比を合成するために必要な 音声データを収録するための読み上げ文の抽出法について述べ,次に,この読み上げ文に基づい て構築した音声データベースを用いて数値音声を合成する方法を説明する。更に,作成した合成 音声の自然性について評価した結果と開発した株式市況音声合成システムについて述べる。

研究所の動き

  • 有機EL素子の高効率化技術 PDF ↓概要

    概要
    自発光型素子である有機EL素子には高速応答・高コントラストという特徴があり,薄くて軽くフレキシブルな次世代のテレビディスプレイを実現する素子として期待されている。当所では,家庭で高精細なスーパーハイビジョンを大画面で楽しむためのディスプレイとして,有機ELを用いたフレキシブルディスプレイの研究を進めている。
  • 磁性細線を用いた超高速記録デバイス PDF ↓概要

    概要
    当所で研究開発を進めているスーパーハイビジョン(SHV)の映像信号のデータレートは最大で144Gbps(144×109ビット/秒)である。一方,現在の記録デバイスのデータレートはハードディスクで約1Gbps/台,SSDで約3Gbps/台であり,SHVの映像を記録するためには数十台~数百台の記録デバイスを並列に動作させる必要がある。そこで,小型のSHV用の記録装置の実現を目指して,超高速で動作する新しい記録デバイスの開発に取り組んでいる。

発明と考案

  • 2011年 9月~10月 PDF

論文紹介

  • 論文紹介 PDF

  • 研究会・年次大会等発表一覧 PDF