ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ
              _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
             _/_/ メールマガジン 『語ろうか、手話について』   _/_/
            _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
No. 83                                              2002年 7月10日発行
ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ

  皆さん、こんにちは。今年も、もう後半戦。夏休みも近づいてきましたが、
いかがお過ごしでしょうか。

  長かった「自然言語処理学から見た手話」シリーズも、いよいよ最後です。
必ずしも、この分野の研究をすべて解説したわけではありませんけど、なんと
なく概要がわかって、この分野に興味を持っていただけたら幸いです。

----------------------------------------------------------------------

  前回は「グリーンピース」「手」「米」という名詞を例に挙げて、言葉には
複数の「意味」があることを示してきました。人間は、このようなことも気が
つかないうちに解決してしまいますが、計算機にはかなり手強い問題となりま
す。

  何が問題なのでしょうか?
  少し未来の話を仮定して、人型お手伝いロボットを作ったとしましょう。そ
れで、ロボットにこんなことを頼みます。「ちょっとグリーンピースを買って
きてくれない?」そのロボットは何の疑いもなくグリーンピース・ジャパンの
事務局に行ってしまうかもしれません。また、全国米穀協会に雇われたロボッ
トに「今度のイベント用に米を10トン用意してくれ」と頼んだら、安いからと
いう理由でカリフォルニア米を買い込んでしまうかもしれません。日本の米の
消費拡大を目指している団体なんですから、アメリカの米を買ったら怒られて
しまうでしょう。
  我ながら、あんまりにも突飛な例なので、皆さんにご理解してもらえたかど
うか不安ですが、とにかく意味が把握できないと、誤解が起きるということで
す。それを解決する手段が必要です。

  少し話がそれますが、手話の場合で考えると、私たちは自然とこの問題を解
決していることに気がつかされます。例えば「泳ぐ」という手話を考えて下さ
い。皆さんは、クロールの真似をするか、2本の指をパタパタさせる手話を思
い浮かべると思います。次に「魚が泳ぐ」という手話を考えてみて下さい。た
ぶん、手のひらを縦にしてヒラヒラする手話を思い浮かべると思います。次に
「目が泳ぐ」という手話を考えてみて下さい。たぶん、とまどった表情をする
のではないでしょうか。「泳ぐ」と「魚が泳ぐ」は「水の中を進む」という意
味では同じですが、主語によって意味が変わる例です。それに対して、「目が
泳ぐ」は主語も動作も全然違います。このように、人間の場合は、単語には複
数の意味があって、それを場合によって適切に把握し、使い分けていることが
わかります。

  この話を整理すると、解決すべき問題は2つあります。1つは、単語に意味が
いくつあるのかということ。2つ目は、いかにして単語の意味を決定するかと
いうことです。

----------------------------------------------------------------------

  さて、この問題を自然言語処理学では、どのように解決しているのか?
  かなり拍子抜けすると思いますが、自然言語処理学ではかなりあっさり解決
しています。まず「単語に意味がいくつあるのか」という問題をどう解決して
いるのかというと、自然言語処理学では、意味とは「辞書の内容」です。辞書
に定義されたもの、それが意味です。つまり、辞書にすべての意味を列挙して
あります。列挙していないものは「知ったこっちゃない」という立場です。そ
して2つ目の問題の「いかにして単語の意味を決定するのか」というと、これ
は、まだ研究中です! ここまで引っ張っておいてなんですが、まだ決定打がな
いんです。

----------------------------------------------------------------------

  ということで、1つ目の単語の意味の数だけ解説します。
  自然言語では、辞書で単語の意味を定義します。自然言語処理は計算機の使
用を前提にしていますから、辞書も計算機で使えるように電子化されたもので
専門的には「電子可読辞書」と呼んでいます。もっとも、辞書というよりは、
シソーラスに近いものです。シソーラスと言えばRoget's Thesaurusが有名で
すが、構造はかなり似ています。他にも、自然言語処理業界ではCYCや分類語
彙表など、なかなかユニークな物があるのですが、ここでは、実用度や完成度
から見てよく使われている次の2つの辞書を紹介します。

  WordNet
      http://www.cogsci.princeton.edu/~wn/
      1985年から、プリンストン大学認知科学学部A. Miller博士が中心に
      なって作成された辞書。現在は、EuroWordNetなど多国語化が進められ
      ている。
      名詞5万語、動詞21000語、形容詞19000語を収録。

  EDR
      http://www.iijnet.or.jp/edr/J_index.html
      日本の官民が出資して設立した日本電子化辞書研究所が作成した辞書。
      単語辞書として26万語、概念辞書として6000の概念識別子を収録。

  元々はWordNetが英語、EDRが日本語の辞書なんですが、どちらも意味を扱っ
ているので、言語に依存しないような役割も持っています。そこで、意味の面
から、この辞書を見ていくことで、自然言語処理学での言葉の意味というもの
を解説します。

  まず、WordNetから説明します。WordNetでは意味を単語間の関係として記述
します。つまり、単語そのものの意味は曖昧であり、他の単語との関係によっ
て、その単語自身の意味が明らかになると言う考え方で構築されています。
  例えば、springは、flowerやwarmという単語と結びつくと「春」という意味
で、machineやindustryに結びつくと「ばね」、hot springと言えば「温泉」
という意味になります。WordNetは、このような関係を記述することで、単語
の意味を明らかにしようという辞書です。

  WordNetの見出し語は、単語そのもので、単語間をつなぐことで辞書を構成
しています。そして名詞、動詞、形容詞の3つの辞書から構成されています。
それぞれの辞書の構造は異なっていて、それは品詞毎の特性によるものです。

  名詞の辞書は、上下構造から構成されています。dogの上関係にある単語は
animalで、下関係にあるのはpoodleやbulldogです。つまり、上の方に行くと
抽象的になり、下に行くと具体的になります。この構造のメリットは、上の部
分で与えられた特性が下の単語に受け継がれることです。例えば「dogは4本足
である」と定義すれば、poodleもbulldogも4本足であると推論できます。
  形容詞の辞書は対立関係から構成されています。fastとslowというように。
そして、それぞれの対立関係にある単語と類義語を結びつけています。fastに
はrapid、quick、sppedyといった単語と類義語として結びついています。色の
ように分類が難しい単語もありますが、とにかく、こうやって作っています。
  動詞は類義語の集合です。似たような単語を集めることで、意味を示そうと
するようです。あと、大分類があったような気がしますが忘れました。すみま
せん。
  そして、ある単語には名詞、形容詞、動詞のそれぞれの意味がある場合があ
るので、この3つの辞書は実はお互いに絡み合っていることになります。その
つながりをたぐることで、単語そのものの意味が浮き上がってきます。

  例として、springを引いてみます。
  springには、名詞では6つの意味があるそうですが、前述した3つの意味につ
いて上下関係は次のように表示されました。

     <----- 上        下 ------>
  season(季節)  ---> spring ----> (なし)

  geology(地質) ---> spring -+--> fountain (噴水)
                             +--> outflow (流出物)
                             +--> outpouring (流出)

  device(機器)  ---> spring -+--> bedspring (ベッドのばね)
                             +--> coil spring (コイル)

  動詞にもいくつか意味があるそうですが、2つ意味の類義語を示します。こ
れらから、springの意味がわかってくるというわけです。
  意味1: jump(跳ねる), leap(跳ぶ), bound(弾む)
  意味2: grow(育つ), develop(開発する), produce(生成する), get(得る)

  形容詞は1つしか意味がないそうで、類義語はspringtime、反対語は
  autumnal, wintry, vernalだそうです。

----------------------------------------------------------------------

  もう一つのEDRは、WordNetとは、ある意味、反対の立場を取ります。意味と
というものは、単語のあるなしに関わらず、絶対的なものが存在して、それに
単語がラベルとして付けられるとしています。この絶対的なものを「概念識別
子」と呼んでいます。
  EDR電子化辞書仕様説明書から、概念識別子の説明を引用します。

  ------------------------------------------------------------------
  次の4つの文を考えてみよう。

      1. 象が目の前に現れた。
      2. この象、2頭でいくらですか?
      3. 象は賢い動物です。
      4. 象は絶滅の危機に瀕している。

  この4つの文において、「象」という語が共通に使われている。この「象」
  という語は、それぞれの文によって異なる種類の実体を指し示すために用
  いられている。

      1. 象が目の前に現れた。            (象の個体)
      2. この象、2頭でいくらですか?      (特定の象の集合)
      3. 象は賢い動物です。              (象一般)
      4. 象は絶滅の危機に瀕している。    (象という種)

  また、「あの象とこの象は親子だろう」という文の「象」という語の指示
  するものは明らかに別の個体となる。しかし、これらのいずれの場合にも
  記号「象」に対してある共通の「なにか」が対応しており、その「なにか」
  に対応して、上記のような色々な個体や実体が対応するのであると感じら
  れる。この「なにか」が語「象」の意味内容である。また、上記の文に対
  応する英語文における「elephant」という語は、「象」と同じ意味内容を
  持つと考えられる。
  上のような単語の意味内容は、概念辞書ではある一つの基本要素により表
  現される。単語に対応する概念(以下、単語の概念と略記する)は、概念識
  別子を持つ「塊」により表現される。例えば、「象」の概念は塊<3bf246>
  でありelephantの概念も同じ塊<3bf246>である。<3bf246>中の3bf246は、
  概念識別子である。
  ------------------------------------------------------------------

  この説明は、グリーンピースや米の例を少し延長したものですが、ご理解頂
けたでしょうか。EDRでは、概念を何の根拠もない文字列で表現します。引用
した説明の<3bf246>がそれです。これは計算機内で特定できればなんでもいい
んです。要は、それは意味を示すもやもやとした何かであって、単語はそこに
結びついていて、初めて具体的なものとして人間は認知するということが基本
思想としてあるわけです。EDRでは、このような意味をすべて羅列して、そこ
に単語を結びつけていきます。

  EDRの辞書はWordNetとは異なり、1つの木構造で構成されています。これは
概念識別子の木構造で、上下関係が基準です。そして、概念識別子に単語が結
びつけられています。ですから、副次的な効果として、同義語は同じ概念識別
子に結びついているので、ある単語と同じ意味を持つ単語を検索するのはとて
も楽です。

  ただ、実態はというと、1番上にobjectという概念があって、その下はすぐ
に生物、静物、時間、抽象概念など8つぐらいの木に分かれてしまい、その下
は、あまりお互いが絡み合ってはいません。概念を基準にしているのに、結局
名詞と動詞は別の木になって構成されています。また、言語に依存しないよう
に概念による木を作ったので、appleからという概念識別子を経由して
リンゴにたどり着くはずなのですが、ほとんどの単語はそういうつながりがで
きていない状態です。名詞はだいぶいけているのですが、動詞や形容詞はダメ
ですね。結局、言語依存しているように見えます。言語相対仮説を思い起こさ
ずにはいられません。

  EDRは非公開、使用するには有料なので、今、私の手元にもないので、細か
い紹介ができません。なんといっても、フルセットだと700万円する辞書です
から、残念ながら個人では購入不可能でしょう。でも、大学などのアカデミッ
ク価格は1/10なので、興味のある学生の方は、先生に相談して買ってみてくだ
さい。

----------------------------------------------------------------------

  意味を定義する辞書を2つ見てきましたが、その作り方の姿勢はかなり異な
ります。WordNetは単語そのものをラベルとし、意味は単語間の集合として示
そうとしました。一方、EDRは単語に依存しない意味が存在すると仮定して、
そこに単語をつけていきました。しかし、結果として、EDRは単語、つまり言
語に依存するような辞書になってしまい、品詞の縛りからも逃れることはでき
ませんでした。一方、WordNetは当初完全に英語という言語に依存した辞書で
したが、EuroWordNetなどの拡張で、次第に言語に依存しない辞書へと変化し
てきています。但し、EuroWordNetは、かなり批判を浴びているようで、まだ
まともなバージョンは公開されていないようです。そこには言語非依存の意味
の扱いの難しさを感じさせます。そして、WordNetは意味の解釈を利用者に任
せてしまったので、計算機には使いにくいと言う弱点もあります。その点では
EDRの方が記号列で意味を定義してしまったので、処理は楽です。

  さて、手話もこのように意味を定義した辞書が作れるのではないか、と考え
るのは自然言語処理としては自然な流れです。特にEDRは言語非依存なのです
からできるはずです。その結果は....残念ながら、まだ研究されていません。
いや、この言い方は正確ではありません。研究されたけど、公開されていない
というのが正解です。というのも、私が博士論文として書いていたのが、この
部分だからです。でも、色々あって、博士課程を退学してしまい、結果をまと
めることは、3年前に止まったままです。時間とEDRがあれば、できないことは
ないのですが、いかんせん、EDRが高いですから。計算は十分個人のパソコン
で十分なんですけどね。でも、どこぞの論文に出すのと違って、メルマガなら
途中までの話でも公開できそうですから、そのうち出すかもしれません。なん
といっても、一挙に、日本語並みの数万語の単語辞書を自動で作ってしまう話
ですから、それなりに面白いとは思うのですけど。でも、あんまり期待しない
ように言っておきますと、3年前の段階では、1000語の辞書を作るのでも、70%
ぐらいしかうまくいかなかったですね。

----------------------------------------------------------------------

  あと、sIGNDEXについて、言及しておきます。sIGNDEXは、実はEDRと考え方
が似ています。というのは、日本語をラベルとして使い、手話の意味とは独立
させ、そのラベルに手話単語を結びつけているからです。ですから、私の博士
課程の時の研究も、sIGNDEXとEDRの親和性は重要な鍵でした。だから、意味と
いうものが単語とは別にて存在するという考え方はとても魅力的だし、計算機
での扱いが楽なのは確かです。しかし、人間が意味を解釈する方法としては、
ちょっと、どうかな、と疑問符が付きます。もっとも、これはsIGNDEXが悪い
わけではありませんが。

----------------------------------------------------------------------

長いことやってきた「自然言語処理学から見た手話」ですが、ようやく、これ
で終わりです。どうもお疲れさまでした。まだ、解説していない部分はありま
すけど、それはまだ研究途中とか、まだ定説がないとか、私自身がよく理解し
ていないという状態なので、あとは興味のある人は文献をいくつかあげておき
ますので、読んでみて下さい。

  自然言語処理 基礎と応用  [田中穂積/監修]
      電子情報通信学会編、5400円+税
      http://shopping.yahoo.co.jp/shop?d=jb&id=30535454
    解析の基本的なアルゴリズムを丁寧に説明している。私が、解析で頭がこ
    んがらがった時に一番参照するのが、この本。

  言語と計算 4 確率的言語モデル [辻井潤一/編, 北研二/著]
      東京大学出版会、3800円+税
      http://shopping.yahoo.co.jp/shop?d=jb&id=30622171
    最新の研究成果を含みつつ、1990年代に急速に発展した確率的なモデルを
    解説した本。前回の「語ろうか」のネタ本。
    少し前は岩波書店から出ていた言語の科学シリーズが良かったのですが、
    この言語と計算シリーズは、その改訂版という感じです。


  さて、最後の締めくくりとして、いくつか私の思うことを書いておきます。

  自然言語処理の話は、慣れていない人、予備知識のない人にはチンプンカン
プンでわかけのわからないことが多かったと思います。そして、役に立つ学問
だと言う割には、結局、あまり役に立たないことばかり述べてきたような気も
します。個人的には、自然言語処理での意味のとらえ方や資料は、手話のテキ
スト作りには役立っています。例えば、No.74,75で紹介した感情表現の練習は
WordNetの形容詞辞書が元ネタです。また、No.64でちらっと構想だけ紹介した
例文は、EDRで定義された意味が元ネタです。わざわざ、このような辞書を使
わなくても、普通の英和や和英、国語辞書でもいいのですけど、電子化されて
いると、ちょっとプログラムを書くだけで、どんどん例文を作れるのでとても
楽チンではあります。もっとも、大学院まで行って学んだことが、この程度に
しか役に立っていないと言うのも複雑な気分ですが。

  そんな微々たる応用とは別に、自然言語処理で手話を研究する最後の目的は
自動通訳記を作ることにあります。この予備的な研究は、いくつか新聞やテレ
ビでも紹介されていますが、どれも実用には、まだまだといったもので、無用
に期待をあおるようなものであったと言わざるを得ません。現実には、実践で
使えるような手話日本語機械通訳システムはありませんし、あと10年ぐらいは
出てこないでしょう。少なくとも、今回のような意味の問題を解消しない限り
作られた通訳システムは、かなり不満足なものであると思います。
  ただ、研究自体は続けないと、進歩もありません。「手話は心が大切だ」と
いうことで、この手の自動通訳機械の話は、とても拒否反応があったりして、
現に私も、この話で好印象を持たれたことはないです。それに、手話が研究予
算を獲得する口実に使われているのも事実で、そのあたりはしっかり監視して
いかなければならないと思います。結構あるんですよ。通産省や文部科学省の
研究予算なんかを見ていると、障害者のための云々というシステムの開発にか
なりなお金が投資されていたりします。その結果、しょぼいCGで手話を表示す
るシステムができただけとかね。そういう研究にこそ、拒否反応を示して欲し
いものです。

  とにかく、まだ手話日本語機械通訳システムは、実用的ではありません。も
し、そういうものが新聞やテレビに登場したら、それはマスコミが変に誇張し
て取り上げたものと思った方がいいです。たいていは、窓口業務の通訳だけと
か、かなりの制約があるはずです。でも、本当に通訳システムが必要なのはど
うしようもなく話が通じなくなった時であって、簡単な通訳は人間でも、それ
こそメモのやりとりで済んでしまうんですよね。

  ただ、私は英語が苦手なんですが、最近、翻訳ソフトを使ってみまして、か
なりこれは使えるなぁ、と思いました。試しに、この「語ろうか」の原稿を入
力してみると、8割ぐらいは変換するんです。残りの2割は日本語のままだった
りしますし、変換したのも明らかに間違った英語だったりします。でも、私の
ように英語が苦手な人間が最初から文を書くよりは、かなり手助けになるよう
な状態でした。
  手話日本語通訳ソフトというものができた時、それは確かに中途半端かもし
れないけど、もし、3年後ぐらいに登場したら最初から拒否せずに、ちょっと
使ってみてください。たぶん、完全ではないだろうし、皆さんの期待するほど
のものではないかもしれませんが、たぶん、手話を話すための手助けぐらいに
はなるのではないかと思います。

----------------------------------------------------------------------

  さぁ、これで自然言語処理の話はおしまいです。最後まで読んでくださって
どうもありがとうございました。来週は、かなり皆さんの興味のある話をやり
ます。

  それでは、また来週。

----------------------------------------------------------------------
このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して
発行しています。http://www.mag2.com/ (マガジンID: 0000038270)
----------------------------------------------------------------------
■登録/解除の方法
  メールマガジン「語ろうか、手話について」は、以下のURLよりいつでも
  登録/解除可能です。
    http://www.mag2.com/m/0000038270.htm
    http://www.rr.iij4u.or.jp/~tokudama/kataro/
■バックナンバーの参照
    http://www.rr.iij4u.or.jp/~tokudama/kataro/
    http://backno.mag2.com/reader/Back?id=0000038270
■掲示板
    http://www64.tcup.com/6411/tokudama.html
    補助的な情報を掲載しています。編集者への連絡はMailをお使い下さい。
■苦情、文句、提案、意見など
    Subjectに[kataro]を入れて、以下のアドレスまでMailをお送り下さい。
    個別には返事ができないかもしれませんので、ご了承下さい。
      tokudama@rr.iij4u.or.jp
======================================================================
○メールマガジン「語ろうか、手話について」(週1回以上 発行)

発行: 手話サークル活性化推進対策資料室
編集: 徳田昌晃
協力: 五里、おじゃまる子、くぅ(ヘッダ作成)
発行システム: インターネットの本屋さん『まぐまぐ』http://www.mag2.com/
マガジンID: 0000038270

■意見、文句、提案、投稿は、居住都道府県名と氏名(匿名可)を添えて
  tokudama@rr.iij4u.or.jpまで送って下さい。
■メールマガジン「語ろうか、手話について」は、著作権は徳田昌晃に所属し
  ますが、基本的には転載・複写自由です。有効にご活用下さい。
======================================================================