ViaVoice ミレニアム


(C) TOKUDA Masaaki
http://www.rr.iij4u.or.jp/~tokuda/以下にあるファイル(文章、写真、データ)は、 全て徳田昌晃が作成しています。著作権は徳田昌晃が所有します。しかし、これら を作った労力を尊重してもらえるなら、これらのファイルの利用(複写配布、改変、 販売)に制限はありません。むしろ、社会資質の向上のため、積極的に利用して下さ い。但し、徳田昌晃が書いたことを表示せずに利用する場合は、利用者がその責任 を負って下さい。


製品概要

SmartVoiceも発売され、いよいよ音声認識ツールが競争時代になって、本家と しての威信と誇りをかけて登場したのがViaVoiceミレニアムです。音声認識のソフ トを開発しているのはIBMだけではないのですが、事実上、使えるソフトを出し続 けてきたのはViaVoiceシリーズと言えるでしょう。価格は色々使えるPro版が実売 価格12000円。限定機能のstandardが10000円。学割だと少し安く買えます。
ViaVoice98には色々なソフトがおまけに付いてきたのですが、ミレニアムはなんに も付いてきません。簡単なゲームは付いていますが、嬉しいと感じるおまけは全然 ありません。
ViaVoiceシリーズの特徴は、エンロールという訓練があることです。このエンロー ルがかなりきつい作業で、他のソフトや雑誌の評価では目の敵にされています。で も良い結果を出すためには、このぐらいの負担は必要なのではないかとも思います。 でも、楽なのに越したことはありません。それで、今回のミレニアムですが、これ が恐ろしく楽になりました。全ての訓練を終わらせるには時間は確かに1時間かかり ますが、心労的な感覚では今までよりずっと楽で、SmartVoice並です。
さらに文章を入力していくと、自動学習を行います。だんだん賢くなっていくよう に感じます。実感としては乏しいのですけど。
なお、ボキャブラリエクスパンダと音声データの関係はただいま調査中です。


評価

条件はSmartVoiceと同じです。単語登録も同じ程度行っています。ただ、ViaVoice ミレニアムは自動学習機能があるので、その分有利かもしれません。
なお、句読点は自動で挿入されるモードを使っています。「、。」は自動で挿入 されているので、余分なところに入っているのも、正しく入っているのもViaVoice の能力です。

入力文

評価用に入力した文章はSmartVoiceと同じ、次の3つです。

  1. ろう者には手話通訳が必要とされています。しかし、難聴者には要約筆記の 方が良いこともあります。これは特に人手がかかります。そのため、音声認識に 期待が集まっています。
  2. モンティパイソンは1970年代に活躍したイギリスのコメディアンの集団で す。ビーンを代表作とするローワン・アトキンソンもその影響を受けた、そのブ ラックユーモアはとても日本では広く受け入れられるとは思えませんが、イギリ スのユーモアを強く感じさせます。
  3. 今年はミカンの豊作が予想され、市場では価格の暴落を心配する声が多く 聞かれます。お正月に向けて、野菜の価格上昇も予想され、スーパーマーケッ トの卸担当者は心の休まる時間もなさそうです。

結果1

ViaVoiceはSmartVoiceと違い、普通の抑揚のある音声入力が良いようなので 全て普通の話し方で入力しています。入力時間は3文で約50秒。処理時間も1分程 度です。

  1. ロシアには、手話通訳が必要とされています。しかし、難聴者には、要約筆 記の方が良いこともありますこれは特に人手がかかります。そのため、音声認識に 期待が集まっています。
  2. 門扉タイソンは、1,970年代に活躍した。イギリスの米にはの集団です。Bを 代表作とする。浪漫後金損もその影響を受けた。その、ブラックユーモアはとても 日本では、広く受けられるとは思えませんが、イギリスのいうも強く感じさせます。
  3. 今年は、ミカンの豊作が予想され、市場では、化学の暴落を心配する声が多く 聞かれます。、お正月に向けて、野菜価格上昇も予想されスーパーマーケットの卸 担当者は、試安。自家もなさそうです

結果2

結果1と条件は同じです。つまり、発話者の調子により、これだけ結果は異なっ てくるということです。

  1. 納車には、手話通訳が必要つされています。しかし、難聴者には予約に、の方 が良いこともあります。これは特に人手がかかります。のため、音声認識に期待が集 まっています。
  2. 門扉タイソンは、1,970年代に活躍した。イギリスのコメディアンの集団です。 便の代表作とする。浪漫後僅差もその影響を受けた。そのブラックユーモアとても日 本では、広く受け入れられると思いませんが、イギリスのユーモアを強く感じさせます
  3. 今年はみかんの豊作予想され、市場では価格の暴落を心配する声が多く聞かれま す。お正月に向けて、野菜の価格上昇も予想され、スーパーマーケットの卸担当者は、 心安。時間もなさそうです。

結果3 (VoiceATOK2を追加)

VoiceATOK2を追加して認識させます。声の調子は結果1、2と同じです。

  1. ろう者には、手話通訳が必要つされています。しかし、難聴者には、要約筆記の 方が良いこともあります。これは特に人手がかかります。そのため、音声認識に期待が 集まっています。
  2. もんTタイソンは1,970年代に活躍した。イギリスのコメディアンの集団です。P 5代表作とする。浪漫後金相場もその影響を受けた。そのラックユーモアはとても日本 では広く受け入れられると思えませんが、リリースのユーモアを強く感じさせます。
  3. 今年は、ミカンの豊作が予想され、市場では価格の暴落を心配する声の多く聞かれ ます。お正月に向けて、野菜の価格上昇も予想され、スーパーマーケットの卸担当者は、 心の休まる地価もなさそうです。

感想

1999年11月現在、個人で使う市販日本語の音声認識としてViaVoiceミレニアムは最も 高性能であると言えるでしょう。かなりの部分を修正なく使える程度に認識します。特に 外来語などもかなりの確率でカタカナに変換することには驚かされます。例えば、外国人 の名前もほとんど認識します。
ただ、上記の例でもわかるとおり、まだ無修正では使えないような場合もあります。新聞 記事のような文章はほぼ100%認識しますが、少しくだけた文体では語尾などに不満が残り ます。話者の方で語尾をはっきりさせるような調整が必要です。
ただ、音声認識ツールとしては、かなり完成度が高く、今後別の画期的なエンジンが開発 されるまでは、より深く使いこなすユーザの努力が必要なのではないかと思います。


戻る