やさしい日本語ニュースの公開実験
田中 英輝
美野 秀弥
越智 慎司*
柴田 元也*
* NHK報道局
国内に居住する外国人へニュースを分かりやすく伝えるために,ニュースをやさしい日本語で提供する研究を進めている。2012年4月からは,研究成果を基に,やさしい日本語のニュースを提供する公開実験サイト「NEWS WEB EASY」を開始し,Webサービスの効果と問題点の検証を進めている。本稿では,ニュースのためのやさしい日本語の設計方針と詳細,公開実験サイトのWebサービスの特徴,ニュースを複数の作業者で安定してやさしく書き換えるための支援システムについて述べる。また,公開実験でこれまで提供したニュースを分析し,想定したやさしい日本語が作業者に依存せず安定して作成できていたことを述べる。
1.はじめに
法務省の統計によれば,日本在住の外国人の数(外国人登録者数)は第2次世界大戦後,おおむね増え続けており,2011年末には207万8,480人,全人口の1.63%に達している1)。全人口の比率は欧米諸国と比較して必ずしも高いとは言えないが,東京都新宿区では外国人の人口*1 が10%を超えるなど,日本でも地域によって欧米諸国並の集中が発生している。
日本国内の外国人で,日本人と同等に日本語が使える外国人は少数であり,彼らへ情報を適切に提供しなければならないという大きな課題が生じている。彼らの多くが言葉の壁に阻まれ必要な情報に到達できず,日常の不便や不利益を感じている2)。また,東日本大震災後の調査によると,言葉が十分に分からず,大きな混乱・困窮に陥ったことが報告されている3)。新宿区のように外国人が多く集住する地域で大きな災害が起これば,外国人の困窮は地域全体の不安定さにもつながることが危惧される。外国人へ情報を適切に提供するということは,彼ら自身の生活の保障にとどまらず,日本人も含めた地域の安全・安心にもつながる課題である。
外国人へはそれぞれの母語で情報を提供するのが理想的である。実際,母語を使ったサービスは既に多言語放送など一部で実現されている。自治体の中には日本語の他に数か国語でホームページを記述・提供している所もある。例えば,神奈川県のホームページでは生活情報や災害情報を多言語とやさしい日本語で提供している4)。NHKでは国内放送で英語,中国語,韓国語,スペイン語,ポルトガル語の放送を行っている。しかし,国内の外国人の出身国数は190にも及び,5か国語だけでは多数の外国人が取り残されてしまうという問題が生じている。一方,外国人の全員をカバーするためには,膨大な数の翻訳が必要であり,コストや労力の大きさから実現は難しい。
そこで,最近,母語ではなく,外国人に分かりやすいやさしい日本語で情報を伝えようという考え方が提唱されている。その背景には,やさしい日本語を理解できる外国人が多いと思われること,外国人の中からも母語の他にやさしい日本語での情報提供を望む声が上がっていることなどがある。実際,外国人のための言語といえば英語を指すことがこれまでは多かったが,最近の調査では,英語より日本語が分かる外国人の方が多いことが明らかになっている5)。また,東日本大震災後の調査では,外国人の中からやさしい日本語での情報提供を望む声が上がっている3)。
やさしい日本語を使って情報を伝える研究や実践の代表的な例として,阪神淡路大震災の後に提案された災害情報を対象としたやさしい日本語6) や,自治体の発行する公文書を対象にしたやさしい日本語の研究7) がある。特に,災害情報のやさしい日本語は東日本大震災のときにも使われ,その後も自治体が勉強会を開くなど,普及への動きが顕著である。
このような背景の中,当所では,一般のニュースをやさしい日本語で提供することができれば,外国人への有用な情報提供になると考えて研究を進めてきた。まず,ニュースのためのやさしい日本語への書き換え基準を提案し,やさしい日本語のニュースを提供する場合にはインターネットで文字を使ってサービスをすることが適していることを報告した8)。次に,提案した基準に沿ってやさしく書き直したニュースの読解実験を外国人の留学生を対象として実施した。その結果,中級準備程度あるいはそれより下の日本語能力を持つ学生に特に効果的だったことが確認された9)。また,実際にサービスを行うことを想定して,NHKの記者と日本語教師のペアでニュースをやさしく書き換える方式を提案し,その作業を効率的に行うための支援システムを開発した10)。更に,研究成果を基に2012年4月にインターネットで公開実験サイト「NEWS WEB EASY」11)を立ち上げ,やさしい日本語のニュースの提供を始めた*2。
本稿では,ニュースのためのやさしい日本語の設計方針と詳細,公開実験サイトのWebサービスの特徴,ニュースを複数の作業者で安定してやさしく書き換えるための2つの支援システム「書き換え支援エディター」と「用例提示システム」について報告する。また,公開実験でこれまで提供したニュースを分析し,想定したやさしい日本語が作業者に依存せず安定して作成できていたことを報告する。
2. ニュースのやさしい日本語
2.1 やさしい日本語の書き換え方針
言葉をやさしくするということは多くの言語で提案されている。日本語では,先に述べたように,災害時のやさしい日本語や公文書を対象としたやさしい日本語がある。英語ではOgdenのBasic English12) をはじめとして,アメリカの文化や内外のニュースを英語学習者に伝えるために作られたVOA(Voice of America)のSpecial English,企業の情報開示の文書を書くためのPlain Englishなどさまざまなやさしい英語が提案されている。
やさしい日本語や,やさしい英語を書くためのこれらの基準を見ると,一つ一つの文を短くする,簡単な単語を使う,受動態の代わりに能動態を使う,二重否定を使わないといった規則が共通に使われている。すなわち,これらの基準は言語やジャンルによらない一般的な規則と考えることができる。そこで,日本語のニュースの書き換えにもこれらの基準を採用することにした。また,日本語を学ぶ外国人に配慮するために,日本語能力試験の出題基準13) を採用した。日本語能力試験は外国人が日本語を勉強する際に受験するもので,最上級の1級から入門の4級まで分かれている*3。また,出題基準には,各級で出題される単語や文法事項が規定されている。3級と4級が初級レベルなので,ニュースのやさしい日本語では3級までの語彙と文法事項に原則として従うことにした。更に,ニュースにしか現れない慣用的な表現をなるべく通常の表現に変えることにした。
このように,一般的な規則と日本語能力試験の出題基準の採用,慣用表現の通常表現への書き換えという原則に従ってやさしい日本語のニュースを作成することにした。しかし,実際にニュースを書き換えてみると,この原則が厳しすぎることがあったので,検討の結果,一部を拡張した。以下,語彙,文法,引用,文脈に関わる書き換えの原則と例外などから成る書き換えの方針を説明する。
2.2 語彙
日本語能力試験の出題基準の3級と4級には合わせて約1,600語の単語が記載されている。基本的にはこの範囲でニュースを書き換えることを原則とした。1,600語の多くは日常生活で使う単語であり,事件,事故,政治,経済,科学,スポーツ,気象などの分野が中心となるニュースに出てくる単語はかなり不足している。例えば,「接待,公共事業,補正予算案,お内裏様」という単語は1,600語には入っていない。対応するやさしい単語があれば置き換えられるが,必ずしもそうはできない。
例えば,「接待」は「ごちそうする」ことであるが,ニュースでは「(不法な)見返りを期待してごちそうすること」という特殊な意味で使われることが多い。このため,単に「ごちそうする」と書き換えたのでは意味が伝わらない。また,「公共事業」はさまざまな工事や施策を総合した広い概念を表す単語であるが,それに相当するやさしい単語は見当たらない。同様なことは「補正予算案」,「お内裏様」にも当てはまる。「補正予算」は政治に現れる専門用語,「お内裏様」は文化に関わる特別な用語で,相当するやさしい単語は見当たらない。以上のように,特殊な意味や広い意味を表す単語,ある分野や文化に強く関わる単語をやさしい単語で置き換えるのは難しいことが多い。
そこで,公開実験サイトのWebサービスでは,やさしい日本語を使った解説を付け加えることにした。解説には辞書を使う,あるいは,説明や例を連体修飾の形で埋め込むなどの方法を採用した。3章でこれらの詳細を述べる。
2.3 文法
ここでは文法に関わる文長(文の長さ),受動態,慣用表現の書き換えの原則と注意点を述べる。
(1) 文長 (文の長さ)
ニュースは短時間に多くの情報を伝えようとするので1文が長くなる傾向がある。文が長くなると係り受けが複雑になることが多い。そこで,やさしい日本語にするためには文を短くするのが効果的である。ニュースのやさしい日本語では原則として1文を50文字以下にした。ただし,文を単純に短くすると意味が変わることがあるので注意を要する。例えば,
「AはBを誘拐し,監禁し,けがを負わせた疑いで逮捕されました」
という文を次のように分割したとする。
「AはBを誘拐しました。また,監禁しました。そして,けがを負わせた疑いで逮捕されました」
原文ではAは実際にBを誘拐して監禁したのではなく,その疑いがあるというのに対して,分割した例ではこれらが事実となっている。「誘拐し」と「監禁し」が「疑い」に係っていることを見落とすとこのような分割になってしまう。このように文を短くするときには係り受けに注意して,原文の意味が変わらないようにする必要がある。
(2) 受動態
受動態では意味が間接的になるので,多くの文章作成の参考書では能動態を使って直接的に書くことを勧めている。特に,日本語の場合には受動態の「れる・られる」が可能,自発,尊敬の意味でも使われるので,外国人が混乱する恐れがある。
このことから,ニュースのやさしい日本語では受動態をできるだけ能動態に書き換えることにした。ただし,受動態のままにする場合もある。事件などの被害者を主語にする場合には「お金を盗まれる,頭を殴られる」のように受動態でなければ表現できない。また,原文の中に主語に相当する人が書かれていない場合も能動態に書き変えることができない。例えば,
「およそ120件の応募の中から選ばれた日本の建築家グループの設計」
という文では,誰が建築家グループを選んだのか原文にないので,能動態にすることができない。
(3) 慣用表現
ニュースには「~としています,~と見られています」や「この事件は~したものです」14)などの独特の慣用表現が多く出てくる。これらは伝聞や推量を客観的に表すことを目的としており,ニュースのために作り出された表現である。日常会話にはほとんど出てこないので,これらをできるだけ普通の表現に書き換えることを原則とした。例えば,
「警察では~としています」
などのように,誰が動作をしたのか書いてあれば
「警察は~と言っています」
というように書き換える。
2.4 引用
ニュースにはカギ括弧に囲まれた引用(発言)が多数現れる。引用は表現そのものが重要かどうかによって書き換えを判断する。特に,表現が重要となるのは失言,感動,スローガン,方言,ジョークなどであり,これらは難しい日本語であっても書き換えず説明などを付け加えた。例えば,
「フランス語で乾杯を意味する『サンテ』と言いながら~」
という文では,「サンテ」という表現はそのままとし,「サンテ」の前の解説を生かして
「フランス語で乾杯という意味の『サンテ』と言いながら~」
とする。
一方,表現ではなく内容が重要な引用の場合には,普通の基準に従ってやさしい日本語に書き換える。ほとんどの場合は内容が重要であり書き換えることが可能である。
次に,引用と「です・ます」調の関係について述べる。放送ニュースは新聞と違って地の文*4は「です・ます」調を使う。外国人が最初に学ぶ日本語も「です・ます」調であり,やさしい日本語に有利である。しかし,引用の場合には元の発言のまま「だ・である」調になっていることがある。やさしい日本語では原則としてこれらを「です・ます」に書き換える。ただし,犯罪者や容疑者の発言などで,引用の持つ印象が変わる場合には「だ・である」をそのまま使う。例えば,
「イラク戦争に関与したイギリスに対する復しゅうだ」
というテロリストの発言を
「イラク戦争に関与したイギリスに対する復しゅうです」
としたのではテロリストの印象が変わるので,書き換えをしない。
2.5 文脈
多くのニュースは情報の羅列ではなく,それらを組み合わせて1つの核心的な情報あるいは事実を伝えている。これらをはっきりさせるためには,文と文の関係を明らかにして論理の流れをはっきりさせることが重要である。やさしい日本語においても文脈を整理して論理の流れを明確にする。
やさしい日本語にするために,長文を分割したり受動態を能動態へ変更したりしたときに文と文の関係が不明確になることがある。そのため,以下のような処理を行う。
(1)長文の分割
長文には複数の情報が修飾句の形で埋め込まれている。これらを単純に区切って文にすると,さまざまな主語や主題を持つ文が対等に現れる。その結果,何が大事なのか分かりにくくなることがある。大事なことを明確にするために,文の順序を変更する,周辺的な内容の文は削除する,文間の関係を示す接続詞を補うといった処理を行う。
(2)態の変更
受動態を能動態に変更すると主語が変わるので,前後の文の主語と合わなくなり,文と文の関係がはっきりしなくなることがある。このようなときには,前後の文の主語を変更する,文を削除するといった処理を行う。
2.6 削除
ニュースをやさしくすると,表現の説明が付くので,元のニュースより長くなる。しかし,読む量が増えるということは読者の負担につながるので,次のような文を削除して,基本的に元のニュースより短くする。
(1) 重複の削除
ニュースの各項目は,通常,リードと本文で構成される。リードとはニュースの冒頭の文で,ニュースの要点が書かれている。要点は本文の一部を抜粋して作るので本文と表現が重複することが多い。やさしい日本語ではこの重複した情報を削除する。場合によってはリードそのものを削除する。
(2) 周辺的な情報の削除
文脈(2.5節)で述べたように,ニュースには多くの情報が1文に詰め込まれている。従って,長い1文を全て短い文で表現するとそれらの関係が分かりにくくなる。このような場合には周辺的な情報を削除する。場合によっては記事全体から見て周辺的な文全体や段落を削除することもある。
2.7 やさしい日本語の例
やさしい日本語のニュースは日本語能力試験の3級までの範囲に完全には収まっておらず,2級レベルの事項も入っている。恐らく,2級に向けた勉強をしている外国人や中級準備レベルの外国人であればほぼ理解可能だと考えている*5。
一例として,書き換え方針に従って書き換えたやさしい日本語のニュースを示す。
[NHKのホームページに掲載された元のニュース]
3日は,人気キャクラターのドラえもんの誕生日からちょうど100年前にあたり,原作者の藤子・F・不二雄さんが晩年を過ごした神奈川県川崎市はドラえもんに特別に住民票を交付して祝いました。
平成8年に亡くなった藤子・F・不二雄さんの人気漫画「ドラえもん」は2112年9月3日に誕生したとされ,3日はちょうど100年前にあたります。
藤子さんが晩年を過ごした川崎市からドラえもんに特別住民票が交付されることになり,川崎市多摩区にある記念のミュージアムで,阿部孝夫市長からミュージアムの伊藤善章館長に,縦70センチ余り,横50センチ余りのドラえもんの絵柄が入った特別な住民票が手渡されました。
[やさしい日本語のニュース]
有名な漫画のキャクラター,ドラえもんは,2112年9月3日に生まれたことになっているため,ことしの9月3日は100年前の誕生日になります。ドラえもんを描いたのは,平成8年(1996年)に亡くなった藤子・F・不二雄さんです。
藤子さんは晩年,神奈川県川崎市に住んでいて,川崎市には藤子さんの絵などを集めた記念館もあります。このため,川崎市はドラえもんの100年前の誕生日を祝うことにしました。
川崎市の市長が記念館の館長に,縦約70cm,横約50cmのドラえもんの絵が描いてある特別な住民票(=住民の名前や生まれた日などを記録する書類)を渡しました。
3. Webサービスの特徴
ニュースをやさしい日本語にするためには,2章で述べたような日本語の書き換えが中心となる。しかし,表現の変更だけではあまりやさしくならない部分がある。そのような部分でもWebを使って分かりやすくできることがある。そこで,NEWS WEB EASYで行っているWebでの工夫を以下に述べる。1図にNEWS WEB EASYの画面の例を示す。
3.1 ふりがな
外国人にとって漢字を読むことは難しい。そこで,全ての漢字にふりがな(ルビ)を付ける。
3.2 辞書
できるだけやさしい単語を使っているが,語彙の節(2.2節)で述べたように難しい単語が残ることがある。そこで,Web画面では難しい単語に辞書の説明を表示できるようにした。現在は,原則として2級以上の難しい単語にカーソルを合わせると小学生用辞書15) の説明が現れる。
3.3 解説
辞書に入っている単語には限りがある。特に,ニュースには新しい単語が頻繁に現れる。そこで,このようなときには,本文中に説明を付け加えるようにした。具体的には「住民票(=住民の名前や生まれた日などを記録する書類)」のように括弧を付けて説明するか,連体修飾で説明を付ける。また,独立した文で説明を付け加えることもある。なお,連体修飾を使いすぎると文が長くなって分かりにくくなる場合があるので,その他の方法を併用するようにした。
3.4 単語の色分け
ニュースには地名,会社名,人名が頻繁に出てくる。これらは辞書にほとんど入っていない。また,数が多いので説明を付ける作業が大変である。そこで,あらかじめ決めた色,例えば,地名を紫,人名をピンク,組織名(会社名)を空色で表示することにしている。これにより,漢字文字列の意味が具体的には分からなくても,色を見ることで地名か,人名か,組織名(会社名)かの判断ができるようになる。
3.5 合成音声
読むのが苦手でも聞くのは得意な外国人のために,合成音声で原稿を読み上げる機能を付加している。読み上げスピードは普通よりやや遅めに設定している。
3.6 元のニュースへのリンク
やさしい日本語のニュースには,元のニュースへのリンクを付けている。元のニュースの多くには映像と音声が付いていて,特に,映像が理解の助けになることが多い。「きりたんぽ」をやさしく説明するのは簡単ではないが,実際に「きりたんぽ」をいろり端で食べている映像があれば,食べ物であること,火にあぶることなどが分かる。
4. 日々の運用と書き換え支援システム
やさしい日本語のニュースをWebで提供する公開実験を2012年4月に開始した。土・日と祝日を除いて月曜から金曜まで毎日,普通のニュースをやさしい日本語に書き換えて提供している。当初は1日に1本~2本のニュースであったが,作業手順の見直しなどを行って,8月からは1日当たり3本のニュースを提供している。以下,日々の運用状況を説明する。
4.1 運用体制と手順
やさしい日本語のニュースの書き換えには,やさしい日本語がどのようなものかを理解していること,記事の内容の判断ができることが必要である。公開実験を開始した時点ではこの両方を併せ持った人はほとんどいなかったので,やさしい日本語を学んだベテラン日本語教師と記者(経験者)が共同で作業をすることにした。主に,日本語教師が表現をやさしくし,記者が内容に関わる書き換えや削除,確認などを行う。現在,毎日1組の作業チームが書き換えを行っている。この他,提供するニュースの選択や最終的な確認を行うデスク(記者)とWebページを作成する技術スタッフなどが運用に参加している。
書き換え作業は以下の流れで進む。
- 記事の選定
- 日本語教師と記者(経験者)による書き換え
- デスクによる確認
- ふりがな,辞書,色分けデータの作成
- 音声合成データの作成
- 最終的なページの作成
である。
やさしい日本語のニュースは外国人を想定して設計しているが,書き換え方針(2.1節)で述べたように一般的な規則にも従っているので,外国人だけでなく,日本人にとってもやさしく分かりやすい可能性がある。特に,子どもにやさしいことが期待される。このような期待から,子どもも対象に入れてNEWS WEB EASYのサービスを始めた。そのため,記事の選択は,前日の大きな話題を1本と,外国人や子どもが共通して興味を持ちそうな話題を2本とした。
毎朝,ニュースを選択し,まず,やさしい日本語への書き換えを行う。デスクの確認を取った後に,ふりがな,辞書,色分け,合成音などの付属データを作成して最終的にWebページに掲載する。
作業には多くのコンピューター支援システムを使っている。以下,この中で最も時間のかかかる書き換え作業の支援システムを説明する10)。
4.2 書き換え支援システム
当初,日本語への書き換えに2つの課題があった。1つは,やさしい日本語の均質性である。書き換えを行う2名のチーム(複数)は毎日交代する。どのチームが書き換えを行っても同じレベルのやさしい日本語にする必要がある。しかし,当初は作業に慣れていなかったので,やさしい日本語にばらつきが出やすかった。他の1つは「書き戻し」である。日本語教師は主にニュースの表現をやさしくする。日本語教師がニュースらしい表現を普通の表現にすると,記者がそれをニュースらしい元の表現に戻すことがあった。更に,日本語教師が元に戻った表現を再びやさしい表現に戻すこともあった。2人の間で「書き戻し」が頻繁に起こり作業が進まなくなることがあった。
この2つの問題を解決するために,書き換え支援エディターと用例提示システムを開発した。
(1) 書き換え支援エディター
書き換えは「原文→日本語教師→記者→日本語教師→記者→」のように日本語教師と記者が交互に行い,最後は記者の確認で終わる。この2人の書き換え作業を支援するために書き換え支援エディターを開発した。
エディターの画面には,原文と直前の書き換えが文ごとに表示され,作業者はこれを見ながら書き換える。画面に表示されている文中の語に難しさに応じた色が付けられている。色は日本語能力試験の級に対応していて,1級を暗い赤,2級を黄,級外(日本語能力試験の出題基準に収録されていない語)を明るい赤,3級を緑,4級を青とした。作業者は1級(暗い赤),2級(黄),級外(明るい赤)の難しい単語に注目して書き換える。また,エディターの別な画面では各文の長さ(文字数)が色別に表示されていて,文字数が80を超える場合には赤で表示されるなど,長文に注意が向くようになっている。
このようにシステムが書き換え方針に従って,作業者に難しい単語や文を色と数字で示すので,どの作業チームも同じ部分に注目することになる。その結果,やさしい日本語のばらつきを減らす効果が生まれた。また,自分の書き換えによって単語の級が難しくなるあるいは文が長くなることも色と数字で分かるので,やさしい日本語を元に戻す「書き戻し」が減った。
書き換え支援エディターでは,記事全体の難易度を示した。難易度は難語率(記事中の1級,2級,級外の語の合計の割合),(平均)文長,記事長の3つを掛けた値である。各値は小さいほどやさしいことを意味するので,難易度の値が小さいほど記事全体がやさしいことを意味することになる。
作業者は,個々の文や単語をやさしくするとともに,記事全体の難易度が小さくなるように作業する。2図に書き換え支援エディターで元のニュース,日本語教師書き換え,記者校閲を比較した画面を示す。元のニュースと比較して,日本語教師の書き換えには説明が付くので記事が長くなっているが,記者校閲の結果,記事が短くなっていることが分かる。また,単語の色に注目すると原文にある赤や黄色の難しい単語が日本語教師書き換えでは減り,緑や青のやさしい単語が増えていることが分かる。更に,記事全体の難易度が5,521から最終的に1,773に減っていることも分かる。
(2) 用例検索システム
日々,作成されるやさしい日本語のニュースと元のニュースを自動的に蓄積する用例検索システムを開発した。用例検索システムを使うことでいろいろな表現,例えば,「~としています」という表現の書き換え例を瞬時に検索することができる。書き換え例を参照することで書き換えのスピードを上げることだけでなく,作業チームによるばらつきを小さくすることもできる。
用例検索システムはNHKの国際放送で必要な17言語への翻訳作業を支援するために開発していたもので,翻訳現場で日々活用されていた16)。やさしい日本語への書き換えは一種の翻訳作業なので,同じシステムが有効であろうと考えて使うことにした。実際,最近ではデータベース内の記事が増えて,いろいろな表現が見つかるようになり,頻繁に使われるようになっている。
5. やさしい日本語ニュースの分析
公開実験で提供したニュースを分析した。分析に使ったニュースは2012年4月2日から2013年1月21日までに公開した元のニュースとやさしい日本語のニュース各512本である。分析結果に基づいて,やさしい日本語のニュースの特徴と支援システムの効果について述べる。
5.1 やさしい日本語のニュースの特徴
1表に元のニュースとやさしい日本語のニュースを比較して示す。表中の値は512本の記事の平均値である。すなわち,記事長はニュースの長さ(文字数)の平均値で,文長は記事ごとの文の長さ(文字数)の平均値である。また,比率はやさしい日本語のニュースの値を元のニュースの値で割ったものである。
記事長の比率から,やさしい日本語のニュースは元のニュースの長さの73%になっていることが分かる。これは重複した情報や周辺的な情報を削除した効果である。また,文長は64%に減少しており,文長を目標であった50文字以下にすることもできていた。文長が短くなったことから構文的に複雑な文が減ったことが推察される。
既に述べたように,難語率は記事の全単語に対する1級,2級および級外の単語の割合である。元のニュースでは26.6%が難語であったが,やさしい日本語のニュースでは13.2%に半減している。また,13.2%の難語の一部には辞書の説明が付けられている。これらのことから元のニュースと比較して理解できない単語がかなり減っていると考えられる。
記事長,文長,難語率を掛け合わせた記事の難易度は23%に減少した。以上のことから,公開しているやさしい日本語のニュースは当初想定していたやさしさをほぼ達成していると考えられる。
記事長※ | 文数 | 文長※ | 難語率 | 記事の難易度 | |
---|---|---|---|---|---|
元のニュース | 565.5 | 8.9 | 66.2 | 26.6 | 10,093.4 |
やさしい日本語のニュース | 414.6 | 10.1 | 42.1 | 13.2 | 2,318.8 |
比率 | 0.73 | 1.13 | 0.64 | 0.50 | 0.23 |
※ 記事長と文長の単位は文字数
5.2 作業者による違い
書き換え作業は2名の日本語教師と3名の記者の組み合わせの6通りで行っている。そこで,1表の内容を作業者の組み合わせごとに分類した結果を2表に示す。2表の値も平均値であるが,作業者の組み合わせによって担当したニュースの内容や数に違いがある。
2表のやさしい日本語の記事長と文数は,作業者の組み合わせによって少しばらついている。作業者の組み合わせあるいはニュースの内容によってばらついたことが考えられるが,ニュースの長さについての基準を設けた方がよいかどうかは今後の課題である。
一方,文長と難語率は作業者の組み合わせによらずほぼ一定の値を示している。支援システムで文長と難語率を確認しながら作業しているので,その効果が現れていると考えられる。
作業者 | 記事長※ | 文数 | 文長※ | 難語率 | 記事の難易度 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
日本語 教師 |
記者 | 元の ニュース |
やさしい 日本語の ニュース |
元の ニュース |
やさしい 日本語の ニュース |
元の ニュース |
やさしい 日本語の ニュース |
元の ニュース |
やさしい 日本語の ニュース |
元の ニュース |
やさしい 日本語の ニュース |
A | 1 | 575 | 400 | 8.9 | 9.7 | 67.1 | 42.6 | 27.0 | 13.7 | 10,545 | 2,361 |
2 | 565 | 429 | 8.9 | 10.4 | 66.6 | 42.7 | 26.5 | 12.1 | 10,216 | 2,248 | |
3 | 576 | 442 | 9.1 | 10.9 | 65.7 | 41.6 | 26.9 | 13.3 | 10,211 | 2,445 | |
B | 1 | 547 | 373 | 8.6 | 8.9 | 67.2 | 42.8 | 25.8 | 13.3 | 9,547 | 2,129 |
2 | 544 | 386 | 8.5 | 9.4 | 67.0 | 42.4 | 27.6 | 14.3 | 9,983 | 2,333 | |
3 | 572 | 433 | 9.2 | 10.9 | 64.7 | 40.5 | 26.7 | 13.4 | 10,138 | 2,360 |
※ 記事長と文長の単位は文字数
6.おわりに
2012年の4月に公開実験を始めて以後,国内だけでなく外国在住の方からも好意的な意見を多数いただいている。この中で,特に,日本語の学習教材として高い期待のあることが分かった。このような期待に応えるためにも,本格的なサービスに向けた研究・開発を続けていきたいと考えている。
今後の課題は大きく分けて2つある。1つはやさしい日本語の更なる改良である。現在のやさしい日本語のニュースは,事前の評価実験9) などから,中級準備レベルの日本語能力を持つ外国人には効果的だと考えている。外国人と小中学生を対象とした理解度テストを既に1回行っており,中級準備レベルの外国人と小学生に高い効果があることなどを確認している17)。今後,現在のNEWS WEB EASYで提供しているニュースを使った評価実験を定期的に行うなど,更に詳細な評価実験を行い,やさしい日本語を改良していく予定である。
他の1つは書き換えの効率化である。本格的なサービスを行うためには多くの記事を書き換える必要がある。ただし,労力やコストを大幅に増やすことはできないので,書き換え支援システムに自動処理技術を導入していくことが必須となる。内容をほとんど変えずに表現をやさしくする日本語教師の作業に自動処理技術を導入する検討を既に始めており,現在,文の分割と部分的な書き換えを使った手法を検討している18)。今後,更に,言語間の自動翻訳技術の適用を検討する予定である。