(C) TOKUDA Masaaki
http://www.rr.iij4u.or.jp/~tokuda/以下にあるファイル(文章、写真、データ)は、
全て徳田昌晃が作成しています。著作権は徳田昌晃が所有します。しかし、これら
を作った労力を尊重してもらえるなら、これらのファイルの利用(複写配布、改変、
販売)に制限はありません。むしろ、社会資質の向上のため、積極的に利用して下さ
い。但し、徳田昌晃が書いたことを表示せずに利用する場合は、利用者がその責任
を負って下さい。
SmartVoiceはViaVoiceに刺激されたNEC(日本電気)が発売した音声認識ソフトで
す。NECは「ずっと前から研究していたのに、IBMの知名度の方が上になってしまって
悔しい。」うんぬん、というコメントをしていましたが、国内メーカーの名誉のため
に言及しておくと、音声認識の研究をしていたのは、IBMやNECだけではないのです。
かなり色々な会社が研究していましたが、私の印象だと東芝やガスや電力会社、そし
てもちろんNTTも熱心でした。東芝は自社のノートブックパソコン「ダイナブック」
の一部の機種に音声認識ソフトを搭載しているのは有名です。このソフトは文章認識
はしないようですけど。一方、電力、ガス会社は利用者側の研究に熱心で、これは巨
大システムを低コストで動かすのが目的です。かなり真剣です。
さて、NECは悔しがっていましたが、HMMで音声認識をしようという研究は、アメリカ
が発祥の地。確か大学だと思うけど元祖は忘れてしまいました。その結果があまりに
も良いので、爆発的に広まり、IBMもNECもその流れにいるわけです。今ではほとんど
HMMばかり。現在、音声認識関係の論文を読むとHMMを使っていないシステムの話を見
つける方が難しいぐらいです。
さて、SmartVoiceに話を戻しますと、私は知らなかったのですが、かなり前に
Version 1が発売されていたそうです。しかし、全然噂にならなかったところをみる
と、性能もいまひとつだったのでしょう。
今回のVersion2は、実売価格約12000円。マイクはViaVoice98と同じで、しっかりし
たもの。デバイスは問題なく合格。
いくつかのソフトのおまけも付いていますが、一番得するのがVoiceATOK2。ATOK12は
別売りですが、Voice一太郎以外でVoiceATOK2を入手できるのはSmartVoiceだけです。
なお、「駅すぱあと」も付いてきますが、インストールできないので、全然使い物に
なりません。音声合成エンジンは未使用です。
SmartVoiceの最大の特徴は、訓練(エンロール)がほとんどないということ。10文 も読めば、使えるようになります。これに要する時間は3分程度。その後の処理はあり ませんので、本当に買ってすぐ使えるという表現がぴったりです。しかし、これは逆 に訓練しようとしても、できない、訓練のしがいがない、ということにもなっていま す。フル訓練には45分程度、150文を読めばいいのですが、その効果は確かにあるの ですが、目に見えて実感できるほどではありません。その点では、昔のViaVoiceは最 初全然使い物にならないのに、3時間訓練すると認識するようになるので、とても熱 心に訓練したものです。
使い勝手という点では、だいぶ研究したようで、かなりスムーズに操作できます。 少なくともViaVoice98よりは使い勝手は良いです。
ということで、お手軽な割に、高機能、というのがSmartVoiceです。1999年夏の 時点では、確かに最高性能でした。(残念ながら、その後に登場したViaVoiceミレニ アムが最高性能の称号を奪ってしまいました。NECの巻き返しを期待したいです。)
SmartVoiceは辞書を8万語と15万語のものに切り替えられるのですが、ここでは15
万語を使用しています。8万語を使うと処理速度が速くなるそうですが、元々遅いので、
精度の方を重視して15万語を利用します。ところで、この数は仮名漢字変換と比較す
るとそれほど多いわけではありません。ViaVoiceよりは多いようですが、音声認識の
辞書は10万語程度が平均のようです。
なお、訓練は全て行っています。訓練の時間はだいたい45分程度かかっています。
かなり楽な訓練です。
評価用に入力した文章は次の3つです。
評価はこの文章をマイクで読み上げます。結果を安定させるにはライン入力
で同じ音声を使うべきだと思いますが、要約筆記の代わりに音声認識ツールを使
うとすればマイク入力しかありません。また、音声認識ツールごとに癖がありま
す。人間側で簡単にできる調整をして、音声認識ツールにベストな結果を出して
もらい、その上で実践的な状況における能力を評価します。
なお、「ろう者」「通訳者」という単語は、どのツールでも単語登録をしていま
す。
SmartVoiceは平坦な発音が良い結果を出すようです。次の結果は平坦な発音 (直接聞くと違和感を感じます。)で入力した結果です。入力時間は3文で約1分。 出力が全て出るまでに約2分50秒です。これは結果2、3も同じぐらいです。
結果1と同じ調子でもう一度入力します。前述したようにマイク入力なので 全く同じ入力というわけにはいきませんので、結果もこの程度異なることを見て ください。
結果1,2と違い、普通の話し方で入力した結果を以下に示します。処理時間は ほとんど同じで2分ちょいです。
音声認識にVoiceATOKを追加することで、いくらか言語情報を付与して精度 を高めることができるようです。効果のほどは以下の通り。なお、入力音声は 平坦音声です。
ほとんど訓練せずにこれだけの結果が出せるのなら、かなり良い性能と思って いいのではないでしょうか。ただ、やはり未知語のあたりがメチャメチャになって しまうことと、まだ実時間での解析には無理があること、入力する声色を変えなけ ればならないのは、課題でしょう。さらなる改良を期待します。