ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ _/_/ メールマガジン 『語ろうか、手話について』 _/_/ _/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ No. 106 2005年 7月 6日発行 ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ こんにちは、職場の引っ越しが本決まりで、机に高く積み上げられている雑 誌をどうするか思案している徳田です。考えたってしょうがない、捨てるか持 ち帰るかなんですけどね。 もう掲示が終わっていて読めないかもしれませんが、毎日新聞にこんな記事 が載ってました。 http://www.mainichi.co.jp/universalon/clipping/200506/252.html 「手袋:手先の動き、文字に変換 手話認識が容易に--京大など開発」 開発者の一人が黒田知宏さん。CGで遠隔手話電送を研究している超のつく 有名人で、私も学生の頃、何回か会ったことがあります。私と違って優秀な研 究者です。そして良心的な研究者です。 私の学生の頃は、手話の研究がなんとなくブームで、工学分野では、福祉と か手話と書くと結構研究予算が楽に出たりしたんです。ですから、単なる画像 認識の研究でも手話の研究だと標榜したりした人が結構いたんです。そんな 中、奈良先の黒田さん、工学院大の長島先生、京都繊維の黒川先生は工学分野 でも良心的に手話を研究している人という印象があります。(他にも数名いま すが、長々書くとそれだけでいっぱいになるので3人だけ。) で、私はこの記事を読んで、「黒田さん、コツコツ研究していたんだ、すご いなぁ。私なんか、野に下ってメルマガ書いているだけだもんなぁ。」と思っ たのですが、予想通りというか何というか、No.104で書いたような反応を、あ るメルマガで見てしまいました。「『手話認識』の文字をを記事から削除し ろ」って意見でした。 新聞記事だけではわからないでしょうけど、黒田さんはプライバシーのこと を考えて、あえて顔画像を使わない伝送技術を研究しています。表情を模式化 して送ることは検討しているようですが、そちらの研究がどうなったかはわか りません。少なくとも、手話の主要な表現部位である、指についてかなり改善 したというのが、今回の成果です。 ということで、その部分だけを取り上げて、手話認識とはとんでもない、と いう反応は「なんか相変わらずだなぁ」と思いました。 この批判をした人がようやく手話を使い出した頃には、黒田さんも私も手話 サークルや全通研で活動して、手話をぞんざいに扱う研究者を見ながら、自分 はそうはならないようにと研究を進めてきました。表情が手話に大切なことは 百も承知。その上で、黒田さんが手話の読み取りグローブに研究生命をかけて いることを読み取って欲しいなと思いました。 「語ろうか」の読者の方には、その点をわかって頂ければ、私としては満足 満蔵です。 ---------------------------------------------------------------------- 余談が長くなりましたが、本題の私の方の研究テーマ、手話の機械翻訳の解 説の続きに入ります。でも、黒田さんと違って、昔話ばかりなので恥ずかしい です... ---------------------------------------------------------------------- 前回のお話では、「翻訳(通訳)は意味が大事だ」ということでしたが、ま ずはおさらいしつつ、ほんのちょっと例を見ながら、自然言語処理について勉 強しておきます。以下、前回出した、翻訳の例です。 She ripped the letter into pieces. という例文を日本語にします。 これを自然言語処理学では、次の手順で処理します。 (1) 英語を入力 (2) -> 形態素解析する。英語の場合品詞付け She[名詞] ripped[動詞] the[冠詞] letter[名詞か名詞] into pieces[?] (3) -> 構文解析する (((She ripped) the letter) into pieces) SVC構文だから、the letterは名詞句だね。となる。 into piecesも慣用句で処理しよう。ということもわかる。 (4) -> 日本語の構造に変換する 日本語は動詞が最後に来るから、S C Vの順にしよう。 She the letter into pieces ripped (5) -> 日本語の単語に置き換える 彼女 手紙 粉々に 破いた。 (6) -> 日本語を出力 ちょっと微調整して「彼女は手紙を粉々に破いた」 ---------------------------------------------------------------------- すごくうまくやってますが、いくつか手品を使ってごまかしているのでうま くいったように見えています。実際に、これぐらいうまくやるには、相当な努 力が必要です。 その手品について、いくつか質問に答える形で、解説しておきましょう。 ---------------------------------------------------------------------- 質問1. 構文の変換ってどうやっているの? 日本語だから動詞が最後だとは限らないでしょ? 回答: 実は暗黙のうちに、すごい処理をしています。 構文解析は事前に大量の文章を解析して、ルールを作っておきます。経験的 に400パターンのルールを作っておくと、9割方は解析できるそうです。つま り、このパターンが来たら、こうする、これはこう、あれはどう、といちい ち変換ルールを作っておくわけです。それで、解析した文がどのパターンな のか確定して、それがどの変換ルールに当てはまるか調べて、あとは変換 ルールが示すとおりに変換するだけなんです。 ただ、90%以上の解析をするためには、急激に必要とする変換ルール数が増 えて、実践的に使える機械翻訳ソフトは、このパターンを2万とか、10万と かいうレベルで持っているという話も聞きます。 例では「日本語だから動詞は最後」なんて簡単に言っていますが、実は、そ の膨大な変換ルールから一番合っているものを探して、当てはめている作業 が暗黙の了解で行われたのです。 ---------------------------------------------------------------------- 質問2. なんで名詞とか、品詞付けをするの? 直接単語で処理すればいい じゃん。いちいち、名詞か動詞かを判定する方が面倒だよ。 回答: それは、応用が利くからです。 例文はSVC、つまり、 (((名詞 動詞) 補語1) 補語2) というパターンでした。(補語が1、2とするか、まとめるかは流派によりそ うですが。) もし、品詞でないパターンを作れば、 (((She ripped) the letter) into pieces) というように、文そのものになりますが、これをパターンとするなら、膨大 な単語に対応するあらゆるパターンが必要になります。 (((She ripped) the document) into pieces) (((He ripped) the ticket) into pieces) (((Jim ripped) articles) into pieces) などなどなど。 最初の名前の部分だけでも、すでに星の数ほどの単語があるわけで、そうな ると、パターンの数は星の数どころではなく、世界中の海にいるプランクト ンの数、いや水分子の数よりも多くなるでしょう。 でも、品詞でパターンを作れば、(((名詞 動詞) 補語1) 補語2) だけで終わ りで、変換後に単語の置き換えで処理してしまえばいいわけです。星の数ほ ど必要だったパターンが、たったの1つでOKになってしまうわけです。 実際の処理では、名詞という分類は荒すぎで、人名とか、巨大な物の名前と か、かなり細分化されています。だから、変換ルールが数万個にもなるんで すね。 数万個の変換ルールを作るのは大変です。ですから、ルールを自動的に作る 研究もかなり長いこと行われています。私の知っている範囲では、結構、う まいこと自動的に作れるもんなんです。 ---------------------------------------------------------------------- 質問3. 最後の微調整ってどういうこと? 「てにをは」が実はすごく難しい と思うけど。 回答: はい、ここが本当の手品ですね。 実際は、構文解析や生成段階で、経験からあみだされたルールを組み込んで おいて処理してしまいます。補語には「を」を付けるとか、主語には「は」 か「が」を適当に付けちゃえ、とか。 いえ、もっとまじめにルールを作ることもできます。そのあたりは、構文解 析や経験則ルールの量と、計算機の性能や、処理速度とのトレードオフとな ります。 説明上、「微調整」と呼びましたが実際は形態素解析や構文解析、変換ルー ルで処理されるというわけです。それを含めると、例外上に複雑になるので 「微調整」と呼んだわけです。 ---------------------------------------------------------------------- ここまできて、コンピュータ(計算機)で言葉を扱う自然言語処理学とは、な んて面倒くさい学問なんだと思った人、大正解です。その面倒なことをいかに 計算機に効率よく実行させるかに、この自然言語処理学のキモがあります。 人間が使う大量の単語、その無限とも言える組み合わせ、その結果生成され る多種多様森羅万象烏合無象とも言える文章。それを計算機という道具を使っ て処理していくのが自然言語処理学です。 ---------------------------------------------------------------------- 余談、というか、「語ろうか、手話について」としては本論ですが、この自 然言語処理の考え方で、日本手話と日本語対応手話の定義を行うと、非常に簡 単です。 日本語を日本語対応手話に変換するには、形態素レベルで処理可能。 日本語を日本手話に変換するには、構文レベルまで処理が必要。 つまり、 日本語と形態素レベルでしか違わないのが、日本語対応手話 日本語と構文レベルで違うのが、日本手話 たった2行で説明できます。もっとも、そのために自然言語処理学の知識が必 要ですけど... 結果的には、日本手話への変換の方が大変だということもわかります。あく まで結果的に。 でも、学説によりこの定義にはいちゃもんがつきます。私も単純に形態素レ ベルの処理だけ日本語対応手話と日本語が変換できるとは思えないのですが、 心情的には、このような定義も「あり」かと思います。 ---------------------------------------------------------------------- さて、ちょっと話をまとめます。 言葉を変換するには、純粋に形態素レベルの解析で処理が完結すると言うこ とはありません。実際は構文解析の結果を使わないと精度の良い結果が得られ ないことが多いです。 人間での処理も同様だと考えられます。ただ、我々はいちいち文を聞いた時 に構文のことを考えているとは思えません。では、どうなっているのか? いくつかの理屈が考えられます。まず、実は構文解析は、やっているけどい ちいち気にしていないという説。構文解析自体は脳の構造上、無意識に処理で きるレベルに組み入れられているという説。我々はもうちょっと上のレベルで ある意味の段階でいっぺんに処理しているので、構文はあまり気にしていない 説。 どれももっともらしい説明はつけられますが、まだ私には本当のところはよ くわかりません。脳を生理学的に研究すればわかるかもしれませんが、私の知 る限り、まだ、この疑問に答えられるレベルには到達していないようです。部 分的には心理学の延長で答えられるものもありますが、一般解としてはまだ不 十分なように思います。 ただ、個人的には、この問いには、あまり興味はありません。もし、それが わかればそれなりに知見は得られると思いますが、それが役に立つかなと思う と、そんまり期待していないのです。電卓が計算を理解せずに単なる電気信号 で数式を処理しているように、言葉も計算機で扱う時には、単なるロジックと して処理できるのではないかと思うからです。脳と同じ動きをするのではあれ ば、普通に人間を雇えばいいだけの話ですし。 ただ、最後の「意味」というのは、興味深い説です。というのも、構文解析 ぐらいでは、まだまだ精度が十分ではないので、まだいくつかのトリックが必 要です。市販の翻訳ソフトの処理結果がイマイチなのは皆さんご存じの通り。 言葉を処理するためには、もっとなにか、すごい手法が必要です。「意味」は そのための有力な鍵となりそうです。 ---------------------------------------------------------------------- 以上見てきたように、自然言語処理学では、言葉を処理するために、大量の 単語を扱いやすくするために品詞を使い、品詞と単語のと対応には巨大な辞書 を使います。そして、言葉の変換、例えば日本語と英語を橋渡しするために大 量の変換ルールを作っておくわけです。 対象となるのは、大量の単語と大量の変換ルール。これをいかに結びつける か。そのために、先ほどの例では構文解析の結果を品詞を介して形態素解析に 適用しました。 でも、それだけでは現実問題、まだまだ力不足です。 そこで、自然言語処理学の研究者が注目しているもの、それが「意味」で す。さらに意味を使って、精度の高い処理を行おうとしています。 ---------------------------------------------------------------------- と、さらに長く続きそうなので、続きはまた来週。 当初の予定では、意味の説明すると言っていたのですが... 気長におつきあ いください。 では、次回の語ろうかをお楽しみに。 ---------------------------------------------------------------------- このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して 発行しています。http://www.mag2.com/ (マガジンID: 0000038270) ---------------------------------------------------------------------- ■登録/解除の方法 メールマガジン「語ろうか、手話について」は、以下のURLよりいつでも 登録/解除可能です。 http://www.mag2.com/m/0000038270.htm http://www.rr.iij4u.or.jp/~tokudama/kataro/ ■バックナンバーの参照 http://www.rr.iij4u.or.jp/~tokudama/kataro/ http://backno.mag2.com/reader/Back?id=0000038270 ■掲示板 http://www64.tcup.com/6411/tokudama.html 補助的な情報を掲載しています。編集者への連絡はMailをお使い下さい。 ■苦情、文句、提案、意見など Subjectに[kataro]を入れて、以下のアドレスまでMailをお送り下さい。 個別には返事ができないかもしれませんので、ご了承下さい。 tokudama@rr.iij4u.or.jp ====================================================================== ○メールマガジン「語ろうか、手話について」(月1回以上 発行) 発行: 手話サークル活性化推進対策資料室 編集: 徳田昌晃 協力: 五里、おじゃまる子、くぅ(ヘッダ作成) 発行システム: インターネットの本屋さん『まぐまぐ』http://www.mag2.com/ マガジンID: 0000038270 ■意見、文句、提案、投稿は、居住都道府県名と氏名(匿名可)を添えて tokudama@rr.iij4u.or.jpまで送って下さい。 ■メールマガジン「語ろうか、手話について」は、著作権は徳田昌晃に所属し ますが、基本的には転載・複写自由です。有効にご活用下さい。 ======================================================================