文章の意味と個性

相澤 彰子 国立情報学研究所教授

写真:相澤 彰子 国立情報学研究所教授

人が生み出す文章は実に多様だ。何らかの意味を持つという共通の性質を持つ一方で,その言い回しの端々に書き手の個性が埋め込まれている。

文章に使われる書き言葉の特徴の1つは「再現性」である。言葉という記号によって符号化された意味は,損なわれることなく時間や距離を超えて読み手のもとに届けられ,復号化された後に知識として再利用される。コンピューターが登場すると程なく,文章による符号化を介さない知識の共通基盤の構築が試みられるようになった。この場合の知識とは,計算可能なモデルに裏付けされた構造化されたデータである。例えば「2020年のオリンピックは東京で開催される」と聞くと,開催地は日本であると瞬時に分かる,そのような推論も計算の一種である。この際に必要となる「東京は日本の都市」などの知識を共通化したものが,Cyc*1 やDBPedia*2 などの巨大な知識ベースであり,現在では計算機可読な資源としてさまざまな言語アプリケーションで利用されている。

しかしながら,コンピューターで扱いやすい構造化された知識と,人が読み書きする文章とのマッピングは容易ではない。文章から知識を自動的に獲得することは,言語の解析においていまだ挑戦的なテーマであり,例えば新聞の文章から国名と都市の対応表を作成するといったタスクでさえ,実際にはかなり難しい。それでも,人手で編集した知識グラフと文章の対応付けは,近年のホットトピックとして,オントロジー*3 と自然言語処理の融合領域を創り出しつつあり,時間とともに少しずつ展望が開けていると言える。

近年になり,書き言葉に「即時性」という新たな特徴が加わった。すなわち,それまでは音声でしか可能でなかったインタラクティブな情報のやり取りが,文字を使ってできるようになった。文字による即時的なコミュニケーションがもたらした変化として,文章のマルチメディア化を挙げることができる。音声ファイルや映像ファイルの添付という意味ではない。従来,対面のコミュニケーションで音声や映像によって伝えていた情報を遠隔の相手に届けるために,ハイフンを入れて口調を伝えたり(「やったーーっ」),表情を示すアイコンを追加したり(^_^)といったコミュニケーションスタイルが確立したのである。これによって,書き手のその場の感情といった文脈情報が記号化された形で埋め込まれるようになった。

今日,不特定多数の感情や意見が発信されるSNS(Social Networking Service)は,社会的なセンサーの役割を果たすものとして広く認識されている。特定の事物に対する人々の感情や評価を数値化して分析することはマーケティングの基本であるし,サービスのパーソナライゼーションにも役立つ。社会情勢を俯瞰する上でも有益なツールとなる。ここで,SNS上の多くの文章は,伝統的な整った書き言葉とは異質のものである。したがって,SNSの文章の解析では,崩れた文章で用いられるさまざまな表現のバリエーションを捉えて,共通の意味にマッピングする技術が重要な役割を果たしている。

さて,文章から知識を獲得したり文章を社会の俯瞰に用いたりするためには,そもそも前提として,文章の意味が書き手に依存しない汎用的なものでなければならない。この目的のもとでは,文章の個性は邪魔である。さらに言えば,日本語と英語といった言語の違いも単なるバリアに過ぎない。実際に,言語横断的な処理への拡張は,言語処理や情報検索に関わる各種タスクの定番となっている。

それでは言語処理には個性は不要なのであろうか?

個性に関わる自然言語処理の研究として,古くはコンピューターによる著者の同定がある。文学作品の作者を当てるタスクでは,かなりの精度で正解できることが知られている。この場合の手がかりは,文末表現,文章の長さ,語彙数など,いわゆる「意味」とは関係がないものまでを含む。これは,指紋や署名と同じように,文章が書き手固有の特徴を持っていることを示している。さらに,文章が特定の場所や属性の情報を含む場合には,個人の特定はさらに容易で,文章からの知識抽出において匿名化は欠かすことができない処理となっている。では,個性とはむしろ隠すべきものなのであろうか?

我々は,正しい文章を書く訓練は受けているが,個性的な文章を書く訓練は受けていない。それにもかかわらず,これほどまでに表現が多様化するのは,誰一人として同じでないからであろう。ただし,アイデンティティーとしての個性は,単に他の人と違うことではない。他の人と対比したときに観察されるその人の特徴である。これは,アイデンティティーが共通の意味基盤の上に成り立つことを意味する。例えば,コンピューターに「暖かい」と「冷たい」のような対義語を区別させることは,「暖かい」と「遠い」を区別するより難しい。この場合は,対義語どうしが互いによく似ていることが対比を可能にしている。アイデンティティーの分かりやすい例としてよく参照されるのは言語である。アイデンティティーとしての母語がいかに支配的であるかは,英語の文章から書き手の母語を当てるタスクの正解率が高いことからもうかがえる。ハイフネーションの有無やスペルミスのパターンなど,些細な文体の違いが母語を推定する強力な手がかりになる。

深層学習の登場によって,データ収集とデータ処理を一体化してデザインする動きが加速している。言語処理の分野で言えば,単に集めた文章を解析するのではなく,解析の目的に沿って文章の収集方法を工夫することで,人工知能の問題に突破口を見いだそうという挑戦である。今後はスマートスピーカーと音声会話システムなどがその先導的な例となるだろう。このような枠組みの中で,効率的に言語処理システムを構築することは,処理のコンポーネントを共通化させることであると同時に,言語自体を共通化させることにもつながる。このことは,業務システムの導入にあたって,組織の伝統的な業務スタイルを見直して,共通のワークフローに合わせることと同様である。共通化と多様性のトレードオフは情報システムの本質とも言える。

アイデンティティーを維持するにはコストがかかる。翻訳技術は,例えば日本語というアイデンティティーに対する投資である。多数が同時に視聴する放送メディアもアイデンティティーと関わりが深い。一方で,SNS上でのアイデンティティーをどのように扱うべきかは,今まさに社会が直面している問題である。本特集号をそのような観点から読み進めてみるのも興味深い。

アイデンティティーは,人間とインタラクションする言語システムには必須の概念であるが,言語処理の観点から見ても,まだまだ未知の部分が多い。存在とは何かを問うのもまた言語処理の役割である。