(C) TOKUDA Masaaki
http://www.rr.iij4u.or.jp/~tokuda/以下にあるファイル(文章、写真、データ)は、
全て徳田昌晃が作成しています。著作権は徳田昌晃が所有します。しかし、これら
を作った労力を尊重してもらえるなら、これらのファイルの利用(複写配布、改変、
販売)に制限はありません。むしろ、社会資質の向上のため、積極的に利用して下さ
い。但し、徳田昌晃が書いたことを表示せずに利用する場合は、利用者がその責任
を負って下さい。
SmartVoiceも発売され、いよいよ音声認識ツールが競争時代になって、本家と
しての威信と誇りをかけて登場したのがViaVoiceミレニアムです。音声認識のソフ
トを開発しているのはIBMだけではないのですが、事実上、使えるソフトを出し続
けてきたのはViaVoiceシリーズと言えるでしょう。価格は色々使えるPro版が実売
価格12000円。限定機能のstandardが10000円。学割だと少し安く買えます。
ViaVoice98には色々なソフトがおまけに付いてきたのですが、ミレニアムはなんに
も付いてきません。簡単なゲームは付いていますが、嬉しいと感じるおまけは全然
ありません。
ViaVoiceシリーズの特徴は、エンロールという訓練があることです。このエンロー
ルがかなりきつい作業で、他のソフトや雑誌の評価では目の敵にされています。で
も良い結果を出すためには、このぐらいの負担は必要なのではないかとも思います。
でも、楽なのに越したことはありません。それで、今回のミレニアムですが、これ
が恐ろしく楽になりました。全ての訓練を終わらせるには時間は確かに1時間かかり
ますが、心労的な感覚では今までよりずっと楽で、SmartVoice並です。
さらに文章を入力していくと、自動学習を行います。だんだん賢くなっていくよう
に感じます。実感としては乏しいのですけど。
なお、ボキャブラリエクスパンダと音声データの関係はただいま調査中です。
条件はSmartVoiceと同じです。単語登録も同じ程度行っています。ただ、ViaVoice
ミレニアムは自動学習機能があるので、その分有利かもしれません。
なお、句読点は自動で挿入されるモードを使っています。「、。」は自動で挿入
されているので、余分なところに入っているのも、正しく入っているのもViaVoice
の能力です。
評価用に入力した文章はSmartVoiceと同じ、次の3つです。
ViaVoiceはSmartVoiceと違い、普通の抑揚のある音声入力が良いようなので 全て普通の話し方で入力しています。入力時間は3文で約50秒。処理時間も1分程 度です。
結果1と条件は同じです。つまり、発話者の調子により、これだけ結果は異なっ てくるということです。
VoiceATOK2を追加して認識させます。声の調子は結果1、2と同じです。
1999年11月現在、個人で使う市販日本語の音声認識としてViaVoiceミレニアムは最も
高性能であると言えるでしょう。かなりの部分を修正なく使える程度に認識します。特に
外来語などもかなりの確率でカタカナに変換することには驚かされます。例えば、外国人
の名前もほとんど認識します。
ただ、上記の例でもわかるとおり、まだ無修正では使えないような場合もあります。新聞
記事のような文章はほぼ100%認識しますが、少しくだけた文体では語尾などに不満が残り
ます。話者の方で語尾をはっきりさせるような調整が必要です。
ただ、音声認識ツールとしては、かなり完成度が高く、今後別の画期的なエンジンが開発
されるまでは、より深く使いこなすユーザの努力が必要なのではないかと思います。