ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ
              _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
             _/_/ メールマガジン 『語ろうか、手話について』   _/_/
            _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
No. 81                                              2002年 6月26日発行
ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ

  皆さん、こんにちは。ワールドカップがあっけなく終わってしまい、阪神の
調子が悪い今日この頃、いかがお過ごしでしょうか。

  このメルマガは、今週で2周年を迎えます。なんだかんだと続けてきました
が、昨年から再配信などをしているので、ようやく81号です。100号までいく
かな? ちと微妙な状況です。

----------------------------------------------------------------------

  さて、今週もシリーズ「自然言語処理学から見た手話」の続きです。メルマ
ガのタイトルが「語ろうか、手話について」なのにもかかわらず、前回は完全
に自然言語処理の話だけで、全然手話の話がありませんでした。すみません。
内容もたい大学の学部の講義2回分か、大学院の前期の講義1回分ぐらいの難解
度と分量でした。でも、わからなくても、気にしないでください。こだわる人
だけ、よく読んでもらえればいいと思います。もしかしたら、将来、役に立つ
かもしれないぐらいで読んでください。

  今週は、前回の小難しい話が、どんな風に役に立っているか、そして手話の
場合にはどうなるのかを見ていきます。

----------------------------------------------------------------------

  さて、皆さんがパソコンでキーを打つと画面に文字がでます。ひらがなを入
れて、変換キーを押すと漢字の候補が出てきます。この漢字の候補が出てくる
時に自然言語処理の技術が使われています。実はすごいことをやっているんで
す。

  皆さんは、次のひらがなをどのように変換しますか?

      ちょうかくしょうがいしゃしゃかいさんかそくしん

私が使っているATOK15では、一発で以下の通り変換されました。

      聴覚障害者社会参加促進

でも、他のソフトや一昔前の仮名漢字変換ソフトだと、次のように変換されて
しまうかもしれません。

      超確証会社者解散か促進
      超過苦笑会社者海産加速心

解散か促進? 加速心って何? なんともおかしな結果ですが、でも、パソコンは
手順通りにやったから、こうなったとしかいいようがないです。前回は、ごく
小さな文での解析例を紹介しましたが、あれは本当におもちゃみたいなもので
す。文法は4つだけ。辞書は8つの単語しか登録されていないし、そのうち複数
の品詞がついている単語は1つしかありませんでした。でも、現実には単語は
何十万語もあり、文法は100以上あるのが普通です。数が増えると言うことは
単純に手間が増えるだけではないんです。問題が難しくなるんです。
  例えば、単語の数が10個から20個に増える。すると選択肢は倍になるわけで
1つの文章に10個の単語が含まれているとすると2の10乗の難しさになります。
つまり、1024倍です。通常の数十万の単語を解析するとなると、その難しさ
は... 天文学的です。東京ドームで何倍分という尺度では測りきれません。そ
うなると、計算機にはメモリとかの容量の限界があるので、処理できないわけ
です。

  それをなんとか動かすとなると、前回のアルゴリズムにも少し工夫が必要で
す。例えば「最長一致法」というものがあります。それは、一番長く一致した
単語を正解とする方式です。
  前述した例ですと「ちょう」の段階では、長、聴、超、弔、帳など色々な単
語がありますが、「ちょうか」まで考えると、超過、町家、長歌、弔花などが
あります。私の使っているATOK15では、「ちょう」では48候補ありましたが、
「ちょうか」で35候補まで減りました。さらに「聴覚」までやると、聴覚、超
各、弔客、頂角の4候補まで減ります。この中からなら、一番最初に「聴覚」
を出しておけば正解する確率が高いだろうと思うわけです。現実問題、それで
ほとんど大丈夫です。ただ、この方法はやりすぎると「ちょうかくし」まで考
えて「聴覚士」に誤変換するということもあります。

  これは単語の変換での例ですが、自然言語には、このような選択肢がたくさ
んあるという場面があります。これを「曖昧性」と呼んでいます。人間では、
なぜか曖昧性を楽々解決しているのですが、計算機だと、すぐにこの曖昧性に
ひっかかって大変なことになります。

----------------------------------------------------------------------

  解析の段階は、意味と文脈の2つの段階が残っているのですが、自然言語処
理の研究は、ここの段階ですごい長い間停滞しました。そういうわけで、ここ
で一区切り付けて、手話での解析について、考えてみたいと思います。

  解析するとなれば、アルゴリズム、辞書、文法が必要です。手話の場合、こ
の3点セットはあるでしょうか?

  まずアルゴリズムなんですが、これは実はあまり言語に依存しないのです。
前回のアルゴリズムを見てもらえばわかるのですが、あの4つのルールの中に
は全然言葉に依存したものがないのです。だから、英語でも、日本語でも同じ
アルゴリズムを使えるんです。まぁ、辞書との整合性などで少しは手直ししま
すが、完全に作り直しってことはないのです。残りの2つ、文法と辞書を変更
すればアルゴリズムは変更しなくていいというのは、自然言語処理学の得た偉
大な知見の1つです。

  では、残りの文法と辞書ですが、これはアルゴリズムと同じように同じとい
うわけにはいきません。そりゃそうです。少なくとも辞書は全然違う言葉です
から、作り直す必要があります。

----------------------------------------------------------------------

  まず辞書です。

  形態素解析するには形態素を網羅した辞書が必要です。自然言語処理では20
万語程度の辞書が使われています。最新の仮名漢字変換ソフトでは固有名詞も
たくさん含んでいますから、50万語ぐらいにはなると思います。ここで使う辞
書とは形態素と品詞が組になって並べられているものです。それなりに昔から
研究されていますから、このようなものがあるのは当たり前ですが、手話では
いつぐらいにこのような辞書ができるのか... それは私にもわかりません。と
りあえず、今現在、存在しないのは確かです。誰かが作らなければならないの
でしょうけど、旗を振る人も、マンパワーを提供する人もいまだ見あたりませ
ん。確かに難しい話ですけどね。辞書を作るというのは、人件費の固まりです
から、いくら意義のある事とはいえ、この不景気な時に作るのは難しいでしょ
う。

  辞書といえば全日本ろうあ連盟の作った「日本語-手話辞典」を思い出しま
す。しかし、このタイトルをよく見れば、そう、この辞書は日本語の辞書なん
ですよ。だから、手話の形態素や品詞は、これからの話となります。いやー、
研究するネタが沢山あって学者さんにはたまらないですね。

  漠然と、この辞書を見ながら思うのは、手話には1つの動作と複数動作の単
語がありますよね。複数動作とは、例えば「医者」は2つの動作です。手話と
しては「医」と「者」で、それぞれ独立の手話として考えられますが、日本語
はそこまで分解するとやりすぎって気がします。もう一つ「人気」という手話
を考えてみます。片手が「男」で、もう一つの手は、ヒラヒラと寄せていく手
話です。これも片手は「男」で独立してますし、もう片方のヒラヒラさせる手
も「影響」としてラベルが付けられそうです。手話としての形態素解析はどの
レベルが適当なのか、細かい面と、全体的のバランスの両方から、うまいこと
いいあたりで形態素を設定して、解析できる辞書を誰かが作ってくれないかな
と思っています。

  ただ、全然見込みがないわけではありません。以前、お話ししたとおり、計
算機に「乗せる」という時に、紹介したハムノーシスやsINDEXというものがあ
ります。これらの研究の延長線上には、当然、語彙の収集がありますし、その
結果は辞書になるはずです。画像の面からは、工学院大学の長嶋先生の研究室
で手話の動画から単語を切り出す編集ソフトの開発が進んでいますので、その
成果を使えば、飛躍的に単語収集速度が進むはずです。そんなわけで、辞書は
10年ぐらいで解決できるんじゃないかなと思います。

----------------------------------------------------------------------

  次に文法です。問題は文法です。これが、ないんですよ。部分的には、手話
は日本語と同じSOV体型だ、とか、指さしが文法的に重要な機能を持つと言った
研究成果はあるのですが、網羅的にあらゆる手話文を解析できる文法体系は、
まだないんです。よく手話の文法が話題になったりしますが、それはある特定
の手話の表現を分析した時の話。少なくとも自然言語処理で使うためには、文
脈自由文法という形式で、あらゆる文を書き尽くす必要がありますけど、まだ
そこまでには至っていないと言う状態です。

  さて、その文脈自由文法とは、以下のようなものでした。

   ----------------------------
   文     -> 名詞句 : 動詞句
   名詞句 -> 名詞 : 助詞
   動詞句 -> 名詞句 : 動詞句
   動詞句 -> 動詞
   ----------------------------

  文法とは、言うなれば品詞のつながりです。でも、手話の品詞って何でしょ
う?
  品詞はあまり言語的に差異はないようです。言語によって特徴的なものとい
うのはあるようですが、大まかな部分、例えば名詞や動詞というのは同じよう
にあるようです。手話の場合、特徴的なのはCLぐらいでしょうか。でも、この
話はやぶ蛇になりそうなので、やめておきます。

  では、その品詞のつながりである文法は、どうにもならないのでしょうか?
  ここに自然言語処理には一発逆転の技術があります。それは、計算機を使っ
て自動的に文法を作ってしまうと言う技術です。でも、文法がなければ処理が
できないのでは? と思った人もいるでしょう。まさにその通りです。つまり最
初から完全な文法を作るわけではないのです。最初は、手作りで小さな文法を
作ります。辞書も数百語程度の小さな物を作ります。それを元にして、文を解
析します。その結果、必要になりそうな品詞を追加し、そして品詞接続の精度
も高めます。これを繰り返すことで、どんどん文法も語彙も大きくして、最終
的には実用的なところにまで持っていくというものです。

  この手法には色々あるのですが、私の印象では、今は隠れマルコフモデル一
色です。ということで、ここでも、今一番流行している隠れマルコフモデルを
紹介します。

  隠れマルコフモデル(HMM: Hidden Markov Model)は音声認識で脚光を浴びて
いる手法で、モデルとそのモデルが生成する出力文から、モデルを鍛え直す手
法です。今回参考にした文献をあげておきます。

   言語と計算(4) 確率的言語モデル
     北研二著、東京大学出版、3800円+税

  モデルとは、ここでは文法全体と思ってください。出力文は文のことです。
そして、モデルと出力文について、次の3つの問題を考えます。

  a. 評価
    出力文OとモデルMがある場合に、モデルMから出力文Oが生成される確率
    P(O|M)を求めること。

  b. 複合化
    出力文Oと、モデルMがある場合に、出力文Oを生成したモデルMの最適な
    状態遷移状態を求めること。

  c. 推定
    出力文Oから、P(O|M)を最大にするモデルMを求めること。

推定によって求められたモデルMが我々が求める文法です。

さて、これを数学的に説明すると、絶対わかってもらえないと思うので、例え
話にして、この3つの問題を解説します。

  例えとして、東京から大阪に行く最も良い方法を探すことにします。この時
モデルとなるのは日本国内の交通手段すべてです。出力文は東京から大阪への
経路となります。
  東京から大阪に行く経路は電車、高速道路、飛行機など色々あり、最適なも
のを見つけるのはとても大変です。そこで、ちょっと変わった方法を使って、
この解を求めます。
  まず、東京駅に大学生を100名集めて、各自に10万円を渡します。そして、
ヨーイドンで大阪に出発してもらいます。そして、大学生が来るのを大阪で待
つことにします。学生達は各々自らが信じる最適な方法で大阪に向かいます。
新幹線に乗る者あり、地下鉄に乗り換えて羽田空港に向かう者あり、タクシー
に乗る者あり、レンタカーを借りて高速道路を走る者あり、同じレンタカーで
も一般国道を走る者あり、中にはヒッチハイクする者もいるかもしれません。
でも、最悪でも3日以内には全員が大阪に着くとします。
  さて、3日が過ぎ、全員が大阪に着きました。これは日本国内のあらゆるの
交通手段というモデルから、学生の東京から大阪までの経路という出力文が得
られたことになります。注目点は、この実験をした自分は東京と大阪しか見て
いないことです。学生がどこでどうしたのかは、まだわかりません。学生が大
阪に着いた時間と、その時に手元に残っていた現金だけはすぐにわかります。
でも、これによって、日本の交通手段という巨大なモデルMから出力文Oが求め
られるわけです。これで「a.評価」の確率P(O|M)が計算できます。
  ここで、最速の方法だけを見るなら最初に到着した学生の経路を調べればOK
です。領収書や学生に聞き取りすることでわかります。これが「b.複合化」で
す。面倒ですが100名の学生の経路は1人1人聞いていけばわかります。ヒッチ
ハイクした学生の行動を調べるのは大変そうです。JRを使ったとしても、何時
何分の電車に乗ったかまで調べると大変です。でも、調べることはできます。
そうすれば、モデル全体はよくわからなくても、必要な部分だけは見えてきま
す。
  最後に「推定」です。これは最適な経路を求めたいと言うことですが、最速
の学生のことがわかったのに、もっと最適な解があるのでしょうか? 答えは「
あるかもしれない」のです。なぜなら、最初に大阪に着いた学生が使った手段
は、交通費がとても高かったかもしれません。新幹線のグリーン車なんか使っ
ていたりしてね。そうなると、もうちょっと安くてもいいから、早い手段を知
りたいと思います。そこで、他の学生の手段も調べてみます。そうすることで
お得な値段で早く東京から大阪に着く方法がわかります。
  これで終わりかというと、そんなことはありません。もしかすると、今回の
学生から得られた結果はベストではないかもしれません。それは、出発時間が
昼ぐらいだったから、たまたま乗り換えがうまくいったから、などという要因
が考えられます。モデルが、日本の交通手段全体と、巨大なので、そういうこ
とまで考えると、最適かどうかはわからないわけです。そこで、今回の結果を
得て、学生を再び東京駅に集めて、「前はJRを使った方がうまくいったから、
迷った時にはJRを使ってください」と言って、再び大阪に行ってもらいます。
これが「c.推定」です。これを繰り返すことで、本当に最適な東京から大阪へ
の経路を発見するわけです。もちろん、何十回、何百回やっても本当に最適か
どうかの確証はありませんけど、数回やればだいたい満足な解が得られること
は、直感的にわかります。
  なんで、この手段がすぐれているのでしょうか。まず、大阪で待つだけでい
いこと。必要な時だけ時刻表を調べたり、到着した学生に聞き取りをすればい
いこと。そして、何よりもすごいことは、東京から福岡への最適経路を求める
ためには、学生に一言「福岡に行ってください」と言えば済むことです。これ
は、とてつもないメリットです。

  とても安直な説明ですが、これが隠れマルコフモデルです。マルコフモデル
自体を説明していないので、すごく中途半端なのですが、モデル全体を見なく
ていい、見なくて済むので「隠れ」だということだけ付け加えておきます。

  さて、手話の文法を作ることを、この例から考えてみます。
  自由文脈文法の1つ1つを作ることは案外楽です。でも、数が増えてくると、
全体としてどういう出力が出るのかわかりません。つまり、モデルです。とに
かく小さな文法は作れそうです。そして、手話の文を入力して、それがモデル
に適格かどうかを調べるプログラムを作ればいいわけです。まぁ、それが少々
困難なことは確かですが。そして、何十個かやってみて、うまくいった文法の
ルールの確率を高くしたり、文法を増補してやります。語彙も増やしていきま
す。ほら、なんとなく手話の文法が作れるような気がするじゃないですか。と
いうか、作れるはずなんです。

  未だに解決していない問題が、わずかこの数十行で説明した方法だけで解決
するはずがありません。いくつか問題があります。説明すると長くなるので、
今回は省略します。興味のある人は宿題とでも思って考えてください。

----------------------------------------------------------------------

  次回は、残りの部分をさらりと流して、ようやくこのシリーズを締めくくり
たいと思います。では、また来週。

----------------------------------------------------------------------
このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して
発行しています。http://www.mag2.com/ (マガジンID: 0000038270)
----------------------------------------------------------------------
■登録/解除の方法
  メールマガジン「語ろうか、手話について」は、以下のURLよりいつでも
  登録/解除可能です。
    http://www.mag2.com/m/0000038270.htm
    http://www.rr.iij4u.or.jp/~tokudama/kataro/
■バックナンバーの参照
    http://www.rr.iij4u.or.jp/~tokudama/kataro/
    http://backno.mag2.com/reader/Back?id=0000038270
■掲示板
    http://www64.tcup.com/6411/tokudama.html
    補助的な情報を掲載しています。編集者への連絡はMailをお使い下さい。
■苦情、文句、提案、意見など
    Subjectに[kataro]を入れて、以下のアドレスまでMailをお送り下さい。
    個別には返事ができないかもしれませんので、ご了承下さい。
      tokudama@rr.iij4u.or.jp
======================================================================
○メールマガジン「語ろうか、手話について」(週1回以上 発行)

発行: 手話サークル活性化推進対策資料室
編集: 徳田昌晃
協力: 五里、おじゃまる子、くぅ(ヘッダ作成)
発行システム: インターネットの本屋さん『まぐまぐ』http://www.mag2.com/
マガジンID: 0000038270

■意見、文句、提案、投稿は、居住都道府県名と氏名(匿名可)を添えて
  tokudama@rr.iij4u.or.jpまで送って下さい。
■メールマガジン「語ろうか、手話について」は、著作権は徳田昌晃に所属し
  ますが、基本的には転載・複写自由です。有効にご活用下さい。
======================================================================