ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ _/_/ メールマガジン 『語ろうか、手話について』 _/_/ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ No. 58 2001年 9月12日発行 ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ 皆さん、こんにちは。 そろそろ気温からして、夏も終わりを実感するようになってきました。台風 も近づいてきているようなのでご注意下さい。 ---------------------------------------------------------------------- 先週に続けて、かなり小難しい自然言語処理の話です。興味のない人にはか なりどうでもいい内容だと思いますが、工学の、しかも計算機科学という新し い学問でも、基盤がかなり厚いことを実感していただけているのではないかと 思います。別の言い方をすれば、何も手話を研究するのは言語学の専売特許で はなく、工学だって、これだけ膨大なバックグラウンドを持って、研究できる ことを知って欲しいです。手話の研究というと、「言語学」という潮流があり ますが、工学でも研究できます、しかも、面白いよー、ということを伝えたい が為に書いています。興味と時間とお金のある人は、是非、大学に入って研究 されることをお勧めします。ここで語る内容では修士論文にはなりませんけど (すでに行われてしまった研究だから)、もし、興味があれば、このちょっと先 のネタぐらいは提供できますから、今、学部の人、高校生以下の人、大学院に 戻ろうとしている人で、手話をテーマにしようとしている人は、是非、言語学 だけではなくて、工学での研究もご検討下さい。 ---------------------------------------------------------------------- 前回はじっくりと形態素解析と構文解析を見てきました。まずは、これらの 技術を手話に当てはめるとどうなるか、を見ていきます。 チャート法は、形態素・構文解析としては、かなり単純なアルゴリズムです が、その単純なアルゴリズムと文法で、日本語が処理できる様子がわかっても らえたのではないでしょうか。先週の例は日本語でしたが、英語でも同様に解 析が出来ます。つまり、アルゴリズムは言語に依存しません。もし、英語を処 理したければ、辞書と文法を交換すればいいわけです。同じ日本語でも、もっ と良い文法や辞書にすれば、高品質な処理ができるということにもなります。 実際は、この先に変換や出力があってようやく何かの製品なり、システムにな るのですが、あのあたりはまず脇においときます。 それと、前回の例は非常にうまくいく例だけを見ました。実際は、曖昧性と いって様々な選択肢が発生します。例えば、辞書の単語に、名詞と動詞など複 数の品詞が付いていることがあります。他にも文法で、動詞句からいくつかの 複数の展開ができる場合があります。そのようなものを曖昧性といって、どの 順番で処理するか、どれが正解なのか、効率よく処理するにはどうしたらよい かと問題を複雑にします。それが計算機の性能を越えないように頑張る研究が 行われています。それが、あらかじめ文法の構造を展開してしまい、処理時間 を短縮するLR法などがあるのですが、今回は省略します。 では、手話を解析するにはどうすればいいか? とにかく、文字列になってい なければ、手も足も出せないので、手話が「私/今日/本/買う」のように文字に なっていることは仮定しますね。 その上で、何が必要でしょうか? 前回述べたとおり、形態素解析には、3つの道具が必要です。文法、辞書、 アルゴリズムです。アルゴリズムは先程述べたとおり、一般にそれほど言語に 依存しません。英語でも日本語でも同じアルゴリズムが使えるのですから、手 話もたぶん同じアルゴリズムで処理できるでしょう。ただ、すでにチャート法 のようなアルゴリズムでは「袋小路文」のように処理できない文があることは わかっています。「袋小路文」というのは、 ひまわりが太陽の光を受けすくすくと育っている畑がある。 のように、文の途中(これだと「畑」の直前)でも文として完結していますが、 そこで解釈してしまうと、文の意味が全然違ってしまうものです。上の文の主 語は「ひまわり」ではなく「畑」です。このような文をいかなる場合でも処理 するには無限のメモリが必要ということがわかっていて、しかも、このような 文は言語に依存せず登場することがわかっています。また、ドイツ語には、修 飾語が文の初めと最後に現れて、全く無関係な文が埋め込まれるような表現が あるそうです。 そのような特殊な例外は処理できないとしても、ほとんどの場合はチャート 法で十分処理できます。手話はちょっと変わった言語かもしれませんが、今の ところとてつもなく突飛な体系ではないことはわかっています。それこそSVO といった従来の表記で表現できないような言語なら問題でしょうけど、今のと ころ、名詞や動詞という従来の言語学の手法で解説されているので、アルゴリ ズムの変更はそれほど必要ないと思います。もし、文が処理できないとなれば 辞書や文法の不備であることが多いので、アルゴリズムの欠陥はそれほど気に ならないでしょう。 ---------------------------------------------------------------------- となると、問題は文法と辞書です。自然言語処理の枠組みで、手話が処理で きるかというと、まだそこまで進んでいません。その原因は文法と辞書にあり ます。どちらも存在しないことが問題です。 文法というと、SVOとか、SOVというような品詞の語順を思い出すと思います が、自然言語処理で扱う文法は、その延長である文脈自由文法(CFG)で記述し ます。これは先週解説した「名詞句 -> 名詞 : 助詞」という規則です。これ は左側のパーツが、右のパーツに分解できることを示しています。 問題は、この文法を網羅的に作らなければならないことです。特定の部分だ けを書いても役に立ちません。入力となる文は多種多様であり、事実上、無限 の組み合わせがあります。それに対応するためには、主語と述語と目的語程度 つまりSOVぐらいがわかったぐらいでは全然足りないのです。 新聞に載っているような綺麗な、そして形がかなり決まっている日本語を処 理するためにはCFGで100〜300個ぐらいの規則が必要です。 日本語の場合も、形態素・構文解析をするために誰かがCFGでコツコツ規則 を作ったのです。といっても、実は私も昔のことはよく知らないのですが、以 前紹介した益岡・田窪先生による「基礎日本語文法」の文法を元にして、京都 大学の研究チームが作り上げたそうです。(今、京都大学学長の長尾先生の研 究室だと思います。たぶん間違いなく。)物としては、JUMANというツールで出 回り、その後「茶筅(ちゃせん)」や「MSLR」という改良された形態素解析ツー ルが生まれています。 とにかく、最初に、誰かが苦労してコツコツとCFGで文法を書かなければな りません。小さくても100個ぐらいの規則で完結するものを作れば、後の拡張 は比較的楽なのですが、最初の100個はとにかく作らなければなりません。そ のためには規範となる文法が必要ですが、手話には規範となる網羅的文法理論 がありませんし、だから、CFGで書くことも出来ません。 手話の文法は部分的に解明されただけで、ほとんどの手話の文を構文解析す るだけの文法集合、つまりはCFG規則の集合体は、まだ誰も作っていません。 単に労力的に作られていないだけではなくて、手話を網羅的に解析できる規範 の文法が確立されていないのですから、どうしようもないわけです。 つまり、自然言語処理の枠組みでは手が出せないわけです。ということは、 今、世間にボチボチ出ている機械翻訳ソフト(英語から日本語に自動的に変換 するソフト)のような、日本語から手話へ、もしくは手話から日本語に変換す るソフトは、まさに自然言語処理の塊なのですが、そんなものは夢のまた夢で す。 「なんだ、自然言語処理は役立たずか。」そう思うかもしれません。確かに 現状ではその通りです。でも、驚くべき事に、私は大学院で手話を自然言語処 理で扱う研究をしていました。学生でお金を払っていると言えども、何もしな いで大学院にいるわけにはいきません。何をしていたのでしょう? 基本的な形態素解析を扱うための準備的な研究もやりましたが、もうちょっ とサボることを考えていました。具体的に言えば、文法を作らなくてもいいよ うな方法、もしくは文法を自動的に作る方法はないかと考えていました。結局 成果として外に出なかったし、私もそのために大学から退学せざるを得なかっ たのですが、実は両方ともあるんです。作らなくてもよい方法と自動的に作る 方法が「学習」というキーワードでもう数年前から自然言語処理の研究誌にい くつも発表されています。その研究の紹介をすると、話が大幅にずれていくの で、ちょっと後回しにして、先に辞書の話をしてしまいます。 ---------------------------------------------------------------------- 辞書。これもありません。辞書といっても、自然言語処理で必要としている のは、文法に出てくる品詞と形態素を対応させて列挙させただけの表です。で も、それを作るためには規範となる辞書が必要ですし、もちろん文法で品詞体 系が明らかになっている必要があります。 日本語を処理する場合、30万語程度の辞書が普及しています。手話は800語 とか、2000語程度です。今、私が見ていて一番信頼がおけると思う辞書は「日 本語-手話辞典」ですが、あんなに厚いのに見出しで数百語、意味でようやく 千のオーダーに乗るぐらいです。とにかく1万語もないのです。 ところで、単語の使われ方には偏りがあって、新聞記事に出ている単語の 80%は数千語に収まると言われています。これは数千語あれば、80%が処理でき ることを意味しています。でも、残りの20%が問題で、これらを列挙していく と数万語が必要になるわけです。「それなら、数千語の辞書を作ればさしあた りはいいのでは?」と思うかもしれません。数千語なら、今の手話辞書でもま にあいそうです。でも、そううまくはいかないんですよね。80%が処理できる 逆に言えば20%が処理できないと言うことは、100文字あったら、20文字は処理 できない、10文字あったら2文字は処理できないということなんですね。やっ てみればわかるのですが、この率はすごいひどいんですよ。自然言語処理の世 界は70%うまくいくのは当たり前、90%でまあまあ、99.9%で実用級なんです。 ですから、80%というのはかなりひどいんですね。「日本語-手話辞典」は前書 きによると「8000文の用例から抽出された単語の内、頻出単語となる4800語を 採用した。これで用例の80%をカバーできる。」としていますが、実はその後 の20%をカバーするためには、数万語が必要になります。これが大変。とてつ もなく大変。とにかく、新聞1部に1回出てくるか出てこないかのような単語ば かりなんですから。でも、そんな単語がないと、解析結果は歯抜けになって全 然使い物にならないんです。 辞書はそう簡単にできるものではありません。広辞苑にしても何世代かの親 子の結晶のたまものですし、岩波国語辞典や大辞林は会社をかけての大事業な わけです。天才がパッパッとやるものではなく、地道に何十年もかけて作るも のです。果たして、手話の辞書が完成するのはいつの日か... そんな事情がありますから、私は辞書も楽に作れないかと考えました。 ---------------------------------------------------------------------- さて、では、文法と辞書を楽に作る方法をご紹介しましょう。といっても、 これは、当たり前ですけど、私のオリジナルではなくて、最近の自然言語処理 の成果の引用です。ちょっと調べるのが面倒なので、オリジナル文献の名称は 省略させてもらいます。 まず、文法を楽に作る方法。今の研究を見ていると2つの方向が見えます。 1つが文法そのものを楽に作る方法と、文法を無視してしまう方法です。 文法を楽に作る方法は、確率文法というものがあります。CFGで書いた文法 に曖昧性がある場合、そこに確率を付与しておきます。そして数百の訓練文を 入力するのと同時に、人力で作った正解も入力して、この確率を調整します。 こうすることで、文法の精度を高める方法です。 もっと最初の段階から文法を作ってしまう方法もあります。文を形態素解析 して、入力に含まれる品詞を調べ上げます。そして、そのつながりを網羅的に 列挙して、それを確率文法として構築します。その後、さらに訓練文を入力し て文法の精度を高めるのです。 この方法には非常に重大な欠点があります。形態素解析をどうするか、とい う問題です。形態素解析するためには辞書と文法とアルゴリズムが必要です。 でも、今、文法を作ろうとしているのです。文法が先か、形態素解析が先か。 鶏と卵のような関係です。 これを解決するには2つの方法が考えられています。まず、人力で小さな文 法を作りだし、それを上述の方法で拡張していく方法。この方法はかなり楽に 実現できますが、うまく拡張する方法が見つかっていません。 もう1つの方法はコーパスを使うものです。「コーパス」とは文を集めたも の。新聞も小説も一種のコーパスです。自然言語処理では、さらに情報を付与 された文をコーパスと読んでいます。形態素解析を行ったコーパス「タグ付き コーパス」(品詞のことをタグと言うため、このような)、構文解析だけをした コーパスを「括弧付きコーパス」と呼んでいます。文を集めてきて、それを人 力で解析して、それを訓練用として使うわけです。このコーパスを作る手間は かかりますが、これを使えばあとは一気に自動的に確率文法が生成できるわけ です。品詞はでたらめな記号列を適当に付けておくだけですが、括弧付きコー パスだけを作るなら、かなり楽です。文法を作るのはパズルのようにつじつま 合わせに苦労しますが、文にカッコを付けるのは直感でできるので、作業の質 としても楽です。 よくよく考えてみると、これは本来、我々が言葉を話すのに似た過程なのか もしれないとも思えてきます。元々人間は文法を理解して言葉を話しているわ けではありません。我々は誰かに日本語文法を教えてもらって話しているわけ ではありません。子供の頃に自然に日本語の仕組みというものを覚えたはずで す。これを計算機にやらせようというのが確率生成文法....のような気がしま す。このあたりは議論の分かれるところだと思いますが。 ---------------------------------------------------------------------- もう一つは音素から学習する方法があります。音素というのは形態素よりさ らに小さい要素です。日本語の場合、1音を3つの状態で構成しておきます。と というと何がなんだかわからないと思いますが、先ほどのCFGのような規則を 状態とみなして、それを確率で結んでおきます。これをマルコフモデルと言い ます。あとは確率文法と同じで、訓練文と正解を入れてモデルを鍛えます。こ の方法の良いところは、ビタビアルゴリズムという手法により、正解とモデル のマッチングがすごく楽という点です。これをHMM(Hidden Markov Model:隠れ マルコフモデル)と言います。 文で書くと何がなんだかわからないと思いますが(正直な話、私も自分で書 いたこの文章だけではHMMのことは理解できないでしょう。)この方法は音声認 識のソフトで使われている方法で、かなりいい所まで精度を高めることができ ます。ただ、ほとんど自動であるが故に、ある一定以上の精度になると、それ 以上手動で高めることができません。できるかもしれませんけど、今のところ 有効な方法が見つかっていません。 ---------------------------------------------------------------------- これらを手話に適用すれば、自然言語処理技術で手話を扱えるだろうという のが私の頭の中にはあります。でも、そのためには色々な壁があります。HMM にしても音素を決めるのは必要ですし、文法を作るためにはコーパスは必要で す。どちらが大変かと言えば、どちらも大変です。 その突破口について、ある研究が始まっています。それがsIGNDEXです。次 回はその紹介から続けます。 では、また来週。 ---------------------------------------------------------------------- このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して 発行しています。http://www.mag2.com/ (マガジンID: 0000038270) ---------------------------------------------------------------------- ■登録/解除の方法 メールマガジン「語ろうか、手話について」は、以下のURLよりいつでも 登録/解除可能です。 http://www.mag2.com/m/0000038270.htm http://www.rr.iij4u.or.jp/~tokudama/kataro/ ■バックナンバーの参照 http://www.rr.iij4u.or.jp/~tokudama/kataro/ http://backno.mag2.com/reader/Back?id=0000038270 ■掲示板 http://www64.tcup.com/6411/tokudama.html 補助的な情報を掲載しています。編集者への連絡はMailをお使い下さい。 ■苦情、文句、提案、意見など Subjectに[kataro]を入れて、以下のアドレスまでMailをお送り下さい。 個別には返事ができないかもしれませんので、ご了承下さい。 tokudama@rr.iij4u.or.jp ====================================================================== ○メールマガジン「語ろうか、手話について」(週1回以上 発行) 発行: 手話サークル活性化推進対策資料室 編集: 徳田昌晃 協力: 五里、おじゃまる子、くぅ(ヘッダ作成) 発行システム: インターネットの本屋さん『まぐまぐ』http://www.mag2.com/ マガジンID: 0000038270 ■意見、文句、提案、投稿は、居住都道府県名と氏名(匿名可)を添えて tokudama@rr.iij4u.or.jpまで送って下さい。 ■メールマガジン「語ろうか、手話について」は、著作権は徳田昌晃に所属し ますが、基本的には転載・複写自由です。有効にご活用下さい。 ======================================================================