手話における言語資源の研究動向

加藤 直人

言語資源とはコーパス,辞書,シソーラスなどの電子化された言語データをいう。中でもコーパスは言語処理の研究においてその重要性が増してきている。手話も言語の1つであり,手話言語の研究にコーパスは不可欠である。手話言語のコーパスは音声言語のコーパスと比較して構築が進んでいないが,近年,その研究が活発化している。本稿では,手話コーパスの研究動向と,現在,当所で進めている手話ニュースコーパスの構築について概説する。

1.はじめに

言語資源とはコーパス*1,辞書,シソーラス*2 などの電子化された言語データをいう*3。本稿では,その中の手話言語で構築が活発化しているコーパスに焦点を当てる。コーパスという言葉はあまりなじみがないかもしれないが,NHKの語学番組で使われていたことがある。10年ほど前の番組「100語でスタート!英会話」に出演していたキャラクター「コーパスくん」である。コーパスくんは日常よく使われる1億語のデータを記憶しており,どんな英語がどんなときによく使われるかを知っている。例えば,コーパスくんによると,動詞haveに続く名詞はlook,time,placeの順に多いそうである。日常よく使う単語を優先して勉強することで,学習効率が向上すると期待できる。現在,NHK番組コレクション1) で「100語でスタート!英会話」を見ることができる。

コーパスは現在の言語処理の研究においてその重要性を増している。言語処理では,機械学習でコーパスから言語知識を自動獲得し,それを利用して応用システムを開発するという流れが主流となっている。例えば,自動翻訳の研究では,かつての規則翻訳*4 から,対訳コーパス*5 に基づく翻訳手法である統計翻訳(統計的機械翻訳)*6 や用例翻訳(用例ベース翻訳)*7 へと大転換が起きている2)。自動翻訳では訳語の候補が複数ある場合が多く,文脈によって訳語を適切に選択しなければならない。規則翻訳では訳語を選択するための翻訳知識を人手で作成していたので,翻訳知識を増やすためには多大な労力が必要であった。一方,統計翻訳や用例翻訳では,対訳コーパスから機械学習で自動的に翻訳知識を得ることができるので,対訳コーパスを増やすことでより多くの翻訳知識が得られる。また,対訳コーパスの言語対を中国語や韓国語に変えることで多言語の翻訳システムを開発することができるという利点もある。コーパスは自動翻訳の研究を一変させた。

手話も言語の1つであり,そのコーパスは手話の研究に不可欠である。しかし,音声言語と比較して,手話ではコーパスの構築が進んでいない。最大の原因は手話に表記法が確立されていないことである。音声言語の表記法として,例えば,日本語には漢字やカナが,英語にはアルファベットがある。一方,手話にはいくつか表記法が提案されてはいるが,普及するまでには至っていない。手話コーパスの構築が進んでいない第2の原因はデータ収集が難しいことである。パソコンやインターネットが普及して世の中には文字情報があふれており,その文字情報を収集することで音声言語のコーパスを容易に構築することができる。一方,手話の話者人口は少なく,手話の映像情報も少ないのでデータ収集が難しく,手話コーパスの構築が困難となっている。

バリアフリーに対する意識の高まりとともに手話研究の重要性が認識され,近年,手話コーパスの研究が活発になっている。本稿では,最近の手話コーパスの研究動向と当所が進めている手話ニュースコーパスの構築について紹介する。

2. 手話におけるコーパス

2.1 音声表記

コーパスを構築するためには,言語を表記する必要がある。音声言語を表記するとは音声を文字化することであり,その表記を音声表記という。例えば,「しゅわ」という音声を聞いて「しゅわ」または「手話」と文字化することが表記である。ここで重要なことは,表記が音声と密接に関連しているということである。日本語では文字をそのまま読めば音声となり,文字と発音が必ずしも一致しない英語でもアルファベットの並びから音声を類推することができる。

手話においても,表記は動作と密接に関連していることが望ましい。そのような立場に立って考案された表記法がSuttonのSignWriting3)4) やハンブルグ大学のHamNoSys5)6)である。詳細は割愛するが,例えて言うと「絵文字」である。絵文字はメールなどで,文字では表現しにくい感情を表現するときによく使われている。例えば,絵文字「\(^o^)/」は両手を広げて喜んでいる様子を表している。絵文字は既存のフォントを使って表現しているが,SignWritingやHamNoSysではそれぞれ独自のフォントを開発して手話の手指や顔表情を表現している。そのフォントを見ればすぐに元の手話動作を想像することができるので表記としては望ましいが,独自のフォントを使用しているので入力方法を新しく覚えなければならず,普及していないようである。そもそも情報量の多い映像を単純な文字に置き換えるということは非常に難しい問題である。音声言語の文字化でもイントネーション情報等が欠落した近似にすぎないが,手話での情報の欠落は音声言語の比ではない。

2.2 gloss表記

手話では動作に関連している表記が難しいので,動作にとらわれない表記を用いることが多い。多くは手話の意味(gloss)に基づいた表記法であり,本稿では,それをgloss表記と呼ぶことにする。

gloss表記と音声表記の違いを見るために,例えば,音声表記である英文1(a)をgloss表記することを考える。

英文1(a)
【音声表記】“I go to school”(「私は学校へ行く」)

ここでは,英単語の日本語訳が単語対応2(対訳辞書)で与えられていると仮定する。

単語対応2
「I ⇔ 私」
「go ⇔ 行く」
「to ⇔ へ」
「school ⇔ 学校」

単語対応2を用いて英文1(a)を日本語訳でgloss表記した結果が英文1(b)である。

英文1(b)
【gloss表記】“{私}{行く}{へ}{学校}”(「私は学校へ行く」)

英文1(b)ではgloss表記と日本語を区別するために訳語を括弧{ }でくくった。日本語の訳語を使ってgloss表記したものは日本語ラベルと呼ばれている。英文をgloss表記したように,手話動作と日本語の対訳辞書を使って手話をgloss表記することができる。ただし,手話の日本語ラベルには手話語彙と意味の近い日本語語彙を使うが,その意味の範囲は必ずしも一致していない。

英文1(b)は日本語訳で書かれているので,その意味を想像することは容易である。しかし,英文1(b)を見ただけでは,英文とは思えず違和感を覚えるかもしれない。また,その音声を類推することもできない。これはgloss表記では音声という音声言語が持つ本来の情報を捨てているからである。ただし,単語対応2があれば,英文1(b)から音声を類推することができる。すなわち,gloss表記を使用する場合には,音声の情報を持つ単語対応2を併記することで音声表記の情報を失わないようにすることができる。

手話においてもgloss表記し,手話動作を対訳辞書として登録しておく方法が考えられる。対訳辞書が必要ではあるが,情報量の多い手話動作を表記する必要がないという利点がある。実際,手話コーパスではgloss表記を使用している場合が多い。後述するように,当所のコーパスにおいてもgloss表記である日本語ラベルを使っている。gloss表記は手話の自動翻訳の研究においても便利である。例えば,手話のgloss表記“{私}{学校}{行く}”と日本語「私は学校へ行く」を比較することで,手話と日本語の語順の違いを容易に知ることができる。

これまでに説明したgloss表記は非常に単純な例であるが,記述力を更に向上させる研究も行われている。例えば,神田らは手話で同時に行う動作を1次元的に表現できるsIGNDEXを提案している7)。また,松本らは単語間の文法関係を表現できる表記法を提案している8)

2.3 手話コーパス

手話コーパスの構築がここ数年活発化してきている。その最新動向を知るためには,言語資源に関する国際会議LREC (International Conference on Language Resources and Evaluation)9) が参考になる。LRECは隔年で開催される国際会議で,2008年まではマルチメディアセッションの一部にすぎなかった手話の研究発表が2010年からは独立したセッションになっている。また,LRECにはワークショップが併設されており,手話に関するワークショップが2004年から続いている。

現在,手話コーパスは多くの研究機関がそれぞれ手探りで構築しているという段階であり,そのサイズも音声言語のコーパスよりもはるかに小さい。また,音声言語のコーパスと同様に,手話コーパスにおいてもデータを単に収集するだけでは意味がない。コーパスの価値を高めるためには種々のアノテーション*8 をそれに付与する必要がある。しかし,手話コーパスは情報量の多い映像のデータベースなので,アノテーションを付与するためには人手による膨大な作業が必要である。そこで,その作業を効率化するためのマルチメディアツールが開発されている。最もよく利用されているのはマックスプランク心理言語学研究所が開発したELAN(EUDICO*9 Linguistic Annotator)10) である。ELANは言語を研究するために開発されたツールで,形態素や構文など言語特有の情報が扱いやすくなっている11)。BSL(British Sign Language)コーパス12) はELANで構築されている代表的な手話コーパスである。BSLコーパスでは,都市ごと,年代ごろうしゃとに分類した約250人の聾者同士の対話や質疑応答などの手話映像に英訳やgloss表記がアノテーションされている13)。手話コーパスには,BSLコーパスのように聾者同士の対話を扱っているものが多いが,タスクを限定した手話コーパスも構築されている。例えば,天気予報14)15) や飛行機予約16) などのコーパスである。

多くの研究機関はある程度の手話映像を収集しており,最近はアノテーションに注力しているようである。アノテーションは専ら人手で行われることが多い。例えば,BSLコーパスでは,gloss表記とその映像との対応付けを人手で行っている。しかし,人手によるアノテーションには多大な労力が必要であり,その自動化が望まれている。最近では,画像認識技術を使って,アノテーションを自動化する研究が行われている。例えば,文や単語の区切りを自動検出する手法17)18)19) や,文法的に意味のある表情の画像認識手法20)21) などの研究が行われている。アノテーションの完全自動化が理想であるが,現在の画像認識技術はまだそのレベルに達してなく,実際には人手で修正しているようである。

3. 手話ニュースコーパス

3.1 構築の目的

当所ではニュースを対象とした手話ニュースコーパス*10 の構築を進めている。手話ニュースコーパスは日本語テキストから手話CGへ自動翻訳するために必要なものである。手話は先天的あるいは幼少時に失聴した聾者にとっては母語であり,日本語より理解しやすい。字幕放送など日本語による情報提供は増えているが,手話による情報提供はまだ少ないのが現状である。これは,日本語から手話への変換作業が必要だからである。日本語と手話は異なる言語であり,日本語から英語への翻訳のように,日本語から手話への翻訳が必要である。しかし,手話へ翻訳できる手話通訳者は英語の通訳者よりはるかに少ない*11。そこで,日本語から手話CGへ自動で翻訳するための研究を行っている。当面の目標は天気予報や気象災害などの気象情報を手話CGに自動翻訳することである。気象災害が深夜や早朝に起きた場合には,手話通訳者を確保することは困難であり,自動翻訳が有効であると考えている。

自動翻訳の手法は1章で述べたように規則翻訳,統計翻訳,用例翻訳に大別される。規則翻訳では対象とする言語の文法知識が必要であるが,手話の文法の解明はまだ十分ではない。従って,手話の自動翻訳システムを早期に開発するためには統計翻訳や用例翻訳が有効であると考えられる。しかし,統計翻訳や用例翻訳では翻訳知識を自動学習するための大規模な対訳コーパスが必要である。そこで,当所では大規模な手話ニュースコーパスを構築している。

3.2 手話ニュース

当所の手話ニュースコーパスはEテレで放送している「手話ニュース」,「手話ニュース 845」,「週間手話ニュース」の3つの番組を対象とした*12。これらの番組にはアナウンサーの音声とルビ付きの字幕が付いている。また,手話ニュースには総勢十数人ほどの手話キャスターがおり,1つの番組に1人~2人の手話キャスターが出演している。手話キャスターは聾者,CODA(Children of Deaf Adults)*13,手話通訳士のいずれかであり,聾者が最も多い。

手話ニュースは毎日放送されているので,映像データの収集は容易である。また,ニュースを対象としているので,会話とは異なり構文構造がしっかりしていると考えられる。更に,放送するまでに複数人のチェックが入るので,そこで使われる言語表現の普遍性は高いと考えられる。

コーパスの対象とした手話ニュースの情報を1表に示す。1表のニュース項目数と手話文数は2009年4月の手話ニュースの平均値である。なお,コーパスの対象とした手話ニュースでは,VTRの取材映像が流れているときには手話が付かずに音声と字幕だけになるので,他の手話番組と比較して手話文数が少ない。

1表 コーパスの対象とした手話ニュース
番組名 放送時間 ニュース項目数 (平均) 手話文数 (平均)
手話ニュース 月曜~金曜13:00~13:05 (5分)
土曜・日曜19:55~20:00 (5分)
3.6 16.7
手話ニュース845 月曜~金曜20:45~21:00 (15分) 9.3 35.6
週間手話ニュース 土曜11:40~12:00 (20分) 10.7 49.0

3.3 コーパスの構築

手話コーパスは手話書き起こし,日本語書き起こし,手話映像で構成されている。以下,それぞれの構築方法を説明する。

(1) 手話書き起こし

手話書き起こしは,キャスターの手話映像を見て日本語ラベルを人手で付けるという作業である。日本語ラベルは,全日本聾唖連盟が発行している「日本語-手話辞典」22)の定義を使った。

手話には音声言語にはない独特の言語的な特徴があり,手話書き起こしの際に問題となる。手話の言語的な特徴の代表的な例をいくつか挙げる。

  1. 手話の文末を特定することが難しい
    日本語の音声言語では文末を表す助動詞があるので比較的文末を特定しやすいが,手話には助動詞のような表現がほとんどないので文末を特定することが難しい。
  2. 手話では手指動作と非手指動作を使って言語表現を行う
    手指動作とは手や指の動きである。一方,非手指動作とはそれ以外の身体の動うなずきである。代表的な非手指動作に頷き,顔の表情,口型がある。非手指動作には言語の意味や文法的な役割を担っているものがある23)。例えば,日本語の「厳しい冬」は,手話では手指動作で「冬」を表現し,同時に,厳しい顔の表情(非手指動作)をして「厳しい冬」を表現する。このように,顔の表情が言語的な役割を果たす場合もあるが,音声言語のプロソディー*14 の役割を果たす場合もある。ある顔の表現が言語的な役割を持っているのか,単なるプロソディーなのかを区別することは容易ではない。
  3. 左手と右手で別々の語彙を表すことがある
    例えば,日本語の「5人」を手話では左手で「5」,右手で「人」の手指動作をして表現する。
  4. 手話には固定語彙(Frozen Lexicon)*15 の他に,その変形がある23)
    例えば,手話で日本語の「座る」は固定語彙であり右手(利き手)1つで表すが,左手でも同じ手型を同時にするという変形を行うことで「2人で並んで座る」という意味になる。更に,CL(Classifier)*16 やロールシフト*17 など手話独特の表現もあり24),単なる語彙の羅列ではない。

このような特徴は手話を書き起こす際に問題となる。これらの問題を全て解決してから手話を書き起こすことは困難なので,現在は第1次近似として手話書き起こしを以下のようにしている。

  1. 手話ニュースでは手話を行わないときには両手を前に重ねて置く
    この位置をホームポジションと呼ぶ。手話の1文はホームポジションからホームポジションまでの動作と定義した。なお,手話の1文は必ずしも日本語の1文には対応しない。
  2. 手話の書き起こしは手指動作を基本とし,非手指動作の書き起こしは頷きに限定する
    頷きは比較的容易に特定できる非手指動作であり,言語的にも句や文の境界として重要である。また,非手指動作は手指動作と同時にするので,一般的には2次元的に記述しなければならないが,頷きに限定することで音声言語と同様に1次元で記述することが可能となる。
  3. 左手と右手で別々の語彙を表すときは1つの語彙として記述する
    例えば,手話キャスターが左手で「5」,右手で「人」の手指動作をした場合には,“L:{5}R:{人}”と記述した。ここで,Lは左手の手指動作を,Rは右手の手指動作を表す。
  4. 固定語彙で記述できない手話はその動作を日本語で説明し,[ ]を付ける
    例えば,手話キャスターが語彙を羅列しないで「ミサイルが飛来する」という手指動作をしたときには,“[ミサイルが飛来する様子]”と記述した。また,固定語彙においても説明が必要な場合,例えば,前後の単語とスムーズにつながるように手話キャスターが“{みんな}”という手指動作を変形させた場合には,“{みんな}[変形]”のように記述した。

(2) 日本語書き起こし

日本語書き起こしはアナウンサーが話す音声を文字にするという作業である。日本語書き起こしでは当所で開発したニュース音声の自動認識システム25)を使い,その認識誤りを人手で修正した。

(3) 手話映像

手話映像は手話キャスターが手話をしている映像である。手話映像を手話の1文単位に対応付けた。手話の1文の開始と終了はアナウンサーが読む1文の開始と終了に一致することが多いので,音声の自動認識システムで発話開始時刻と発話終了時刻を求め,時刻を人手で修正して対応する手話映像を切り出した。

3.4 手話ニュースコーパスの表示システム

手話ニュースコーパスの管理・検索を行う表示システムを開発した(1図)。表示システムの画面は検索キーワード入力部,ニュース情報出力部,映像出力部,対訳出力部から成る。

検索キーワード入力部で検索したい単語(キーワード)を入力する。1図の例では「インフルエンザ」と入力している。

ニュース情報出力部ではキーワードが含まれている文のニュース情報を出力する。ニュース情報には,その番組が放送された日時,番組名,その文の開始時刻と手話キャスターの名前が表示される。このような情報を提示することで,手話キャスターの違いによって手話がどのように異なるかなどを分析することが可能となる。

映像出力部ではキーワードを含む手話映像を1文単位で出力する。1文単位の出力なので映像の中からキーワードに対応する映像を探す必要があるが,映像を探しやすくするために映像をスローやコマ送りで再生できるようにしている。また,顔の表情や指の動きなど細かい部分を拡大して見ることもできる。

対訳出力部ではアナウンサーが話している日本語とその手話の書き起こしを対訳の形で出力する。ただし,手話書き起こしでは表示の煩わしさを避けるために,{ }を省略している。出力された対訳を参照することで,手話書き起こしを見るだけで,どのような手話単語が使われているのかを調べることができる。

2009年4月~2011年8月までの2年4か月分の手話ニュースを用いて手話ニュースコーパスを構築し,2013年1月末現在,約4万7千文の対訳データを持っている。従来の手話コーパスでは数千文程度であったので,手話ニュースコーパスはその規模が1桁大きい。また,2011年9月~2012年12月までの1年3か月分の手話ニュース(約2万3千文)については,手話書き起こしがまだ完了していないが,文単位の日本語書き起こしと手話映像の対応付けは済んでいる。

開発した表示システムは自動翻訳の研究用としてだけでなく実用的な利用も考えられる。例えば,過去のニュースで用いられた手話を検索できる翻訳メモリー(Translation Memory)としての利用である。ニュースでは固有名詞や専門用語がよく出てくるが,これらの手話翻訳を決めるのには多大な労力が必要である。開発したシステムで過去の対訳用例を検索し活用することで,翻訳作業の効率化が期待できる。実際,英日翻訳をはじめ昨今の翻訳作業では翻訳メモリーの有効性が指摘されている。また,ニュースの手話翻訳の学習にも利用できると考えている。一般に,ニュースの翻訳には他の翻訳とは異なる能力が要求され,ニュースの手話翻訳に特化した学習が必要である。翻訳例を活用することでこの学習効果が上がると期待される。

1図 手話ニュースコーパスの管理・検索を行う表示システム

4. おわりに

手話における言語資源の研究動向として,最近の手話コーパスの構築について概説した。また,当所で進めている手話ニュースコーパスの構築方法と,手話ニュースコーパスの表示システムを紹介した。

今後,手話ニュースコーパスの拡張と詳細化を進めていく予定である。現在,人手をかけて手話ニュースコーパスを拡張しており,開発中の日本語・手話CG翻訳システム26)27) の精度を上げるために利用する予定である。また,頷き以外の非手指動作の口型や眉の上下など特定しやすいものから順次追加して詳細化し,手話CGにおける顔表情28) の改善を行う予定である。