(C) TOKUDA Masaaki
http://www.rr.iij4u.or.jp/~tokuda/以下にあるファイル(文章、写真、データ)は、
全て徳田昌晃が作成しています。著作権は徳田昌晃が所有します。しかし、これら
を作った労力を尊重してもらえるなら、これらのファイルの利用(複写配布、改変、
販売)に制限はありません。むしろ、社会資質の向上のため、積極的に利用して下さ
い。但し、徳田昌晃が書いたことを表示せずに利用する場合は、利用者がその責任
を負って下さい。
1997年夏に登場したVoice Typeは衝撃でした。音声が、画面に文字として表示さ
れる。それは研究として追求されるべき課題であると思っていたのに、市販のソフト
として、登場してしまったからです。時代はそこまで進んでいる、と研究者として認
識不足を反省したものです。
コンピュータに詳しくない人には、逆に「今までそんなこともできなかったの?」と思
うでしょうし、少し詳しい人は研究者同様に驚いたでしょう。とにかくVoice Typeは
画期的商品でした。その前までは、音声認識はどうだったのでしょうか?
音声認識の研究は、音声解析の歴史です。コンピュータが音声というデータを受
け取り、それを文字にする。これが大変難しい。空気のふるえであるアナログ情報を
文字というデジタル情報に変換する。それぞれ膨大な選択肢があり、アナログ情報の
方はとらえにくい。よく音声をコンピュータに波の形で表示させているのを見ますが、
あれがどうやって文字になるのか、不思議ではありませんか? どうやるのかと言えば、
この波の形は「あ」、この波の形は「い」というようにあらゆる波の形を記録してお
いて、入力された音声波形をこの記録と比べて、文字に変換していくのです。
これを蓄積していけば将来は音声認識ができると一昔前まで大多数の研究者は思って
いました。ちょっとしゃれたデモシステムも作られて、それはハンバーガーシステム
と呼ばれていますが、マイクに「ハンバーガーをください」と言うと、CGで店員さん
が表示されて、「いくつですか?」と聞いてくる。「一つ」と答えると、「ハンバー
ガーを一つ」という注文が実行されるというシステムです。「ハンバーガー」「一つ」
という音声データを記録しておいて、マイクから入力された音声と比較して認識する
というものでした。たしか1990の頃に作られたと思いますが、当時としては画期的。
しかし、限界も明らかにされました。代表的な問題は、人によって音声データがかな
り異なるということ、認識するデータは事前に認識させたいだけ準備しなければなら
ないこと。前者を解決するためには、コンピュータの認識エンジン(認識するプログ
ラムの中核部分のこと)の性能を向上させなければなりません。後者はエンジンが使う
データをたくさん作る必要があるので、労力の問題です。たくさん認識させるために
はたくさんのデータを事前に作らなければなりません。
1995年より以前は、これが音声認識の定説でした。まとるめと、認識性能を上げるた
めには
しかし、革命が起きました。HMM(Hidden Markov Model)の登場です。日本語では隠
れマルコフモデル。これは数学的なモデルです。そのままではどうしようもありません
が、プログラムとして実現することで、役に立ちます。さて、音声認識に使うとして、
その原理を説明します。(でも、たぶんあんまりよい説明ではないので、ぼちぼちこの文
章は改良します。)
マルコフモデルというものがあります。これは入力に対して状態を変えていくものです。
オートマトンと考えればいいです。これを音声認識に適用すれば、エンジンをマルコフ
モデルで作り、音声データを入力データとすれば、状態の結果が認識された文字となり
ます。
ではHMMとはなんでしょう? マルコフモデルでは途中の状態までわかるのですが、HMMは
その名の通り見えません。ただ見えないだけでは訳が分からなくなっただけですが、HMM
は状態が確率的に遷移します。ですから、同じ入力があっても、状態がAになる時もある
し、Bになる時もあります。それはまったく運任せ。これがマルコフモデルと違って、何
が良くなるのかというと、学習できるということです。
つまり、今まではデータを蓄積して、そのデータとぴったり合うようにシステム設計者
がマルコフモデルを調整しなければならなかったのですが、HMMではデータを入力して、
うまくいかなければ捨てて、良ければ採用するということだけをすれば、あとはHMMが適
当に中身を変えてくれるわけです。もちろん、そのためにHMMの中の確率も変更できるよ
うにしておく必要はあります。
いいことだけではなく、このための処理能力はかなり高いものが必要です。ですが、最
近のCPUの性能向上が、問題を解決しました。
ということで、HMMの登場により、
ViaVoiceも最初は離散発音でしたが、そのうち連続発音になり、エンロールも楽に なっていきます。
それでは、ViaVoice98の評価といきたいところですが、なんか動かない! SmartVoice とは相性が悪いのでしょうか? ということで、評価はミレニアムまでお待ちください。