ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ _/_/ メールマガジン 『語ろうか、手話について』 _/_/ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ No. 107 2005年 7月20日発行 ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ こんにちは、風邪をひいたっぽい、徳田です。これを書いているのは七夕直 後。たぶん、皆さんが読んでいる頃には直っているとは思いますが、なんでこ んな時期に風邪なんかひくかなぁ。職場で左の方から順番に伝染していってい るので、私の番、と言うことのようですが... あー、鼻水が止まらない。 ---------------------------------------------------------------------- 前回は、言葉を計算機で処理する、つまり翻訳したりするためには、色々な 問題がありますが、「意味」を使えば解決できそうだ、という話をしました。 しかし、意味というのは、実に不思議なものです。皆さんがそれぞれ思い浮 かぶ意味というのは、それぞれ違うのに、なぜかある程度共通しています。 その不思議さを「食べる」という日本語の単語を例に考えてみます。 以下の文章を読んでください。それぞれの文は、「食べる」という単語の意 味を考えると、正しいでしょうか、間違っているでしょうか? 1.「ご飯を食べる」 -> OKです。 2.「昼食を食べる」 -> これもOKです。 3.「橋を食べる」 -> ダメです。なぜなら、橋は食べられないからで す。 4.「学校で食べる」 -> OKです。学校は食べ物ではありませんが、ここ では「学校」は場所を示しているからです。 5.「北海道を食べる」 -> 一見、ダメですが、雑誌で、北海道の美味しい 物を特集記事のタイトルと考えれば、OKです。 つまり、状況によりけりです。 6.「食べる人」 -> OKです。 7.「食べるジュータン」-> ジュータンは食べられないでしょう。たぶん。 だからダメ。 8.「食べるダイエット」-> ダイエットは食べないもの、という先入観があ ると違和感があるのでダメですが、その違和感 を逆手にとって注目を集めるという雑誌の記事 のタイトルなら、全然問題なくOKです。 9.「食べるスポーツ」 -> 微妙にダメっぽいのですが、最近は大食い選手 権なんてものもあるので、個人的にはOKです。 10.「食べる水泳」 -> さすがにわけがわかりません。ダメでしょう。 これらの例を見てわかるとおり、「意味」を考慮することで、文が正しいか どうかが判定できます。これは文を処理する手がかりになりそうです。 しかし、これらの意味は、それぞれ基準も、定義もあるわけでなく、皆さん の直感、感覚に依存するものです。ですから、個人差がありそうなものですが なぜか、一定のところで共通認識が生まれています。 ---------------------------------------------------------------------- さて、意味を扱うのは、自然言語学の専売特許ではありません。言語学に、 国語学、心理学、哲学は当然として、医学、社会科学、法学、芸術関係はもち ろん老若男女を問わず、ありとあらゆる人が一家言お持ちかと思います。 で、ここでは私の大好きな自然言語処理学で、意味を扱います。この自然言 語処理学の良いところは、「計算機でいかに処理するか」という点で集約する ことができるので、かなりの部分で、人の感覚や直感と言った曖昧な要因を排 除できることにあります。言語学や哲学だと、意味論だけで、延々と色々な議 論が続きますが、自然言語処理学だと、入力に対して、どんな出力が出てくる かで、理論に対する優劣がきっちり出てきてしまう点が、とてもわかりやすい のです。 ---------------------------------------------------------------------- では、自然言語処理学で扱う「意味」とは何か? その基本思想は、国語辞典に載っている「語義」です。例えば、国語辞典で 「足(あし)」を引いてみましょう。一般的な辞書なら、出版社によって多少違 いはあっても、だいたい以下のような意味が出ています。 1. 体の一部。動物の下の方にあるもの。 2. 台を支える部分。 3. 歩く動作。 4. 外出すること。 5. 旅費 この5つのものを、「足」に対する「語義」と呼びます。つまり「足には語義 が5つあります」というわけです。 通常は、この国語辞典の語義ぐらいで処理ができますが、ちょっとだけ問題 が起きる場合があります。それは、語義の種類はこれで十分なのか? というこ とです。 「足」の意味なんて、もう他には思いつかない、という人もいるかもしれま せんが、ちょっと細かく見ていきましょう。次の例文を見てください。 a. 鶏の足は2本である。 b. スキーに行って、足を折っちゃった。 この2つの例文に出てくる「足」。これは同じ物でしょうか? 語義は確かに両 方とも1の「動物の下の方にあるもの」ですが、鶏の足と人間の足は違うもの だろう、という考え方もあります。見た目も違うし、形も違うし、細胞的な構 造もなんか違います。 違うという人はさらにこだわります。例えば、次の例文を見てください。 c. ロボットをつくると、人間の足はなんて高機能なんだろうと痛感します d. 彼女はモデルのように足が長くて羨ましい。 同じ人間の足について述べていますが、cは、誰かの足ではなく、抽象化した 「人間の足」という一般的な概念を表しています。一方、dは、「彼女の足」 という特定の人間のこの世に2本しか存在しない足を表しています。この2つの 「足」は意味を考えると、違う足だ、と考えることもできます。 もちろん、区別した方がいいかどうかは、場合によりけりです。でも、区別 しておくと、いざというとき、footとlegで訳し分けられたりするなど、便利 なこともあります。 おそらく、この語義の十分さを言語学や哲学、心理学で扱うと、かなり長い 議論になり、結論も出るかどうかわかりません。 自然言語処理学では、辞書の作り方で決めてしまいます。2つの手法が考え られていて、ひとつは相対的、もう一つは絶対的に表す方法です。 ---------------------------------------------------------------------- 意味が絶対的に表す方法は、計算機での処理が楽で、理解も楽だと思います が、よくよく考えると、少し違和感がある理屈です。 まず意味が絶対的にあるとします。これに適当なラベルを付けます。例えば 「a00fsb020001」とします。「a00fsb020001」は、このままでは何のことか全 然わかりませんが、ある意味、つまり語義を示しているというわけです。 それで、どうやって我々が理解できる意味と結びつけるかというと、このラ ベルに対して国語辞書のようなものを作ります。 「a00fsb020001」 -> 人間の足 「a00fsb020002」 -> 鶏の足 ..... 「a00fsb020023」 -> 象の足 ..... 「a00ff0100001」 -> 旅費 という具合です。辞書のようにとにかく片っ端から羅列していくわけです。一 般的に辞書の収録語数は数十万語ですから、それぞれの単語の語義を羅列して いくので、数百万の量の羅列を作るわけです。 でも、最近の計算機は何百年分の新聞が記憶でき、処理も速いので、機械と してはまったく問題ありません。あとは人間がコツコツ作るだけです。こだわ る人はたくさんのラベルを作るだろうし、そんなにはいらないよ、という人 は、国語辞書程度に「足」については5つのラベルを作るわけです。 この方法の利点は、語義とラベルが1対1で対応しているので、「単語にラベ ルを付けた」ら、「単語の意味が決まった」と言えることです。文を解析し て、その単語のそれぞれに「ラベル」をつけることができたら、「文の意味が 解析できた」と言えます。 これは正解が容易に判定できると言うことでもあります。この点では、計算 機で処理する自然言語処理学にとても合理的とも言えますし、客観的な判定が できるという学術上の利点があります。 短所は、人により「えー、そんなラベル必要ないよ」とか、「お前のラベル は荒すぎる」といった論争が起きること。 そもそも、絶対的に語義があるという考え方にちょっと無理があります。 「a00fsb020001」というのは、単なるラベルで、それ自体は抽象化したもので す。これが何を意味するかは、辞書で説明しているわけですが、そもそも 「a00fsb020001」って必要なんでしょうか? 必要かもしれません。必要でない かもしれません。それに、それが「人間の足」を示しているとして、それが佐 藤さん、小林さん、宮下さんが、それぞれ思い浮かぶ「人間の足」で、共通し たものだと、誰が保証できるのでしょうか? そこで自然言語処理業界では「EDR」という辞書をかなりの人が関わって作 りました。そして、「みなさん、これでOKとしましょう」ということにしてい ます。もっとも、EDRは他にも色々なテクニックが盛り込まれているので、そ の部分で、みんなを納得させているということもありますが、ここではあまり 深くは突っ込みません。 EDRについては「語ろうか」のNo.83で解説したので、興味のある方は、そち らをご覧ください。 ---------------------------------------------------------------------- もう一つの相対的に表す方法とは、単語のつながりで意味が浮きでてくると いう考え方です。 これはNo.83で紹介したWordNetの説明から始める方がわかりやすいでしょ う。EDRのように、相対的で表す方法を具体化したものがWordNetという辞書で す。 WordNetでは意味を単語間の関係として記述します。つまり、単語そのもの の意味は曖昧であり、他の単語との関係によって、その単語自身の意味が明ら かになると言う考え方で構築されています。 例えば、springは、flowerやwarmという単語と結びつくと「春」という意味 で、machineやindustryに結びつくと「ばね」、hot springと言えば「温泉」 という意味になります。WordNetは、このような関係を記述することで、単語 の意味を明らかにしようという辞書です。 語義そのものを何かの記号で表すということはやっていません。 WordNetの見出し語は、単語そのもので、単語間をつなぐことで辞書を構成 しています。そして名詞、動詞、形容詞の3つの辞書から構成されています。 それぞれの辞書の構造は異なっていて、それは品詞毎の特性によるものです。 名詞の辞書は、上下構造から構成されています。dogの上関係にある単語は animalで、下関係にあるのはpoodleやbulldogです。つまり、上の方に行くと 抽象的になり、下に行くと具体的になります。この構造のメリットは、上の部 分で与えられた特性が下の単語に受け継がれることです。例えば「dogは4本足 である」と定義すれば、poodleもbulldogも4本足であると推論できます。 形容詞の辞書は対立関係から構成されています。fastとslowというように。 そして、それぞれの対立関係にある単語と類義語を結びつけています。fastに はrapid、quick、sppedyといった単語と類義語として結びついています。色の ように分類が難しい単語もありますが、とにかく、こうやって作っています。 動詞は類義語の集合です。似たような単語を集めることで、意味を示そうと しています。そして、それぞれをおおざっぱに関係を示しながらつないでいま す。 そして、ある単語には名詞、形容詞、動詞のそれぞれの意味がある場合があ るので、この3つの辞書は実はお互いに絡み合っていることになります。その つながりをたぐることで、単語そのものの意味が浮き上がってきます。 例として、springを引いてみます。 springには、名詞では6つの意味があるそうですが、前述した3つの意味につ いて上下関係は次のように表示されました。 <----- 上 下 ------> season(季節) ---> spring ----> (なし) geology(地質) ---> spring -+--> fountain (噴水) +--> outflow (流出物) +--> outpouring (流出) device(機器) ---> spring -+--> bedspring (ベッドのばね) +--> coil spring (コイル) 動詞にもいくつか意味があるそうですが、2つ意味の類義語を示します。こ れらから、springの意味がわかってくるというわけです。 意味1: jump(跳ねる), leap(跳ぶ), bound(弾む) 意味2: grow(育つ), develop(開発する), produce(生成する), get(得る) 形容詞は1つしか意味がないそうで、類義語はspringtime、反対語は autumnal, wintry, vernalとなっています。 こういうのを見ていくと、springの意味がわかってくるでしょ、ほらほら、と 言うわけです。 長所は、絶対表記でのラベルのようなわけのわからないものを使わなくて済 むということです。単語は間違いなく、この世に存在し、そして実際に使われ ているものです。その点で、間違いなく、この方法は合理的に存在意義があり ます。 短所は、扱いにくいことです。なぜなら、意味が浮き出て、感覚的にわかる 必要がありますから。ですから、自然言語処理で扱う時には、結局、この浮き 出た段階をラベルとして、処理してしまうことになります。何だ、結局プログ ラムにしてみたらEDRと同じじゃん、というわけです。 ---------------------------------------------------------------------- と、以上、自然言語処理学での意味の表現方法を2種類、ご紹介しました。 これを使ってプログラムを作り、翻訳したり、変換したりすることになりま す。今のところ、どちらの方法でも、それなりの成果が出ているので、この 2つの手法はかなり考え方が違いますが、単なる流派の違いということで、業 界内では、どちらも正解なんです。ただ、場合により得意不得意があるという だけの話です。 ちなみに、今回の原稿を書くに当たってインターネットでWordNetとEDRを調 べていたら、なんと「語ろうか」のNo.83の原稿がトップに出てくるんですよ ね... 様々な大学や研究者がいるにもかかわらず、手話について書いたメルマ ガの方が先に出てくるなんて、なんか複雑な心境です。 今回の話が理解できたら、大学の講義2回分ぐらい、得したことになります よ。 ---------------------------------------------------------------------- 結局、全然、手話の話が出てきませんでしたが...次回こそは手話の話を... では、次回の語ろうかをお楽しみに。 ---------------------------------------------------------------------- このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して 発行しています。http://www.mag2.com/ (マガジンID: 0000038270) ---------------------------------------------------------------------- ■登録/解除の方法 メールマガジン「語ろうか、手話について」は、以下のURLよりいつでも 登録/解除可能です。 http://www.mag2.com/m/0000038270.htm http://www.rr.iij4u.or.jp/~tokudama/kataro/ ■バックナンバーの参照 http://www.rr.iij4u.or.jp/~tokudama/kataro/ http://backno.mag2.com/reader/Back?id=0000038270 ■掲示板 http://www64.tcup.com/6411/tokudama.html 補助的な情報を掲載しています。編集者への連絡はMailをお使い下さい。 ■苦情、文句、提案、意見など Subjectに[kataro]を入れて、以下のアドレスまでMailをお送り下さい。 個別には返事ができないかもしれませんので、ご了承下さい。 tokudama@rr.iij4u.or.jp ====================================================================== ○メールマガジン「語ろうか、手話について」(月1回以上 発行) 発行: 手話サークル活性化推進対策資料室 編集: 徳田昌晃 協力: 五里、おじゃまる子、くぅ(ヘッダ作成) 発行システム: インターネットの本屋さん『まぐまぐ』http://www.mag2.com/ マガジンID: 0000038270 ■意見、文句、提案、投稿は、居住都道府県名と氏名(匿名可)を添えて tokudama@rr.iij4u.or.jpまで送って下さい。 ■メールマガジン「語ろうか、手話について」は、著作権は徳田昌晃に所属し ますが、基本的には転載・複写自由です。有効にご活用下さい。 ======================================================================