実験室 Vol.4

音声認識ソフト「ViaVoice98」で
音声入力を試してみた



ViaVoice98 Friendly Speak 日本語版製品情報
日本アイ・ビー・エム


 ViaVoice98が登場する前の1996年、IBMは「VoiceTypeDictation」という音声認識ソフトを発売しています。実はこのときに初めて音声認識ソフトを試したのですが、「はっきりいってとても使い物にならないな」と思いました。単語一つ一つを区切って、ゆっくりと話さなければならず、さらに誤認識がやたら多い。また、入力する前には「音声入力開始」とマイクに吹き込み、終わると「音声認識終了」と指示してやらなければならない。操作はとても面倒で、もう二度と使う気にはなれないしろものでした。
 ところがどっこい、新バージョンとなるViaVoice98は、まったく比べものにならないほど使いやすく、また高精度の認識ができるようになっていました。
 最大の改良点は、単語ごとに区切ることなく、ちょうど教科書を朗読するような感覚で一気に読み上げて大丈夫になったところ。それも、発音さえ不明瞭にならないように気を付ければ、かなり早口で読み上げてもついてきてくれる。声がさくさくと文字へと変わっていく(もちろん漢字カナ交じり文でですよ)。キーボードから入力するよりもずっと高速です。
 また、認識率が驚くほど向上し、うまく入力できなくてイライラすることがなくなりました。たとえば、新聞の社説を全部読み上げてみても10カ所くらいしか間違えない。400字詰め原稿用紙にして4〜5枚の分量だから、大したものです。

本当にどれくらいすごいのか?

 いくら言葉で説明しても実感がわかないでしょうから、テスト結果をお見せしましょう。これは、朝日新聞朝刊に掲載されたコラム「後味の悪い足立区長選」を音声入力した結果です。本当に音声だけです。キーボードやマウスにはいっさい触れていません。
 なお、句点は「マル」、読点は「テン」、かぎかっこは「カギカッコ」と読み上げます。改行する部分は「ココデカイギョウ」です。

 共産党系区長の試食(失職)を受けた東京都足立区長選。投票前日の夜は小雨が降った。自民党、公明党、自由党、民主党の大物が次々とマイクを握る。「代々木の独裁癖(区政)を許すな」「ただちに自由主義を取り戻す」。当選した前助役の鈴木常敏強い(恒年氏)陣営の最後の演説だった。ぬれたメモ帳にペンを走らせながら、有権者の意識とはかけ離れた言葉の数々に、違和感を持った。
 共産党系のお(×)市長だから、その自治体が共産主義になったわけではない。共産党員が苦悩(区の)要職に就いたわけでもない。鈴木氏を推薦した自民、公明、民主3党の区議会与党は、大きな失政のなかった吉田満像(万三)前区長を失職に追い込んだ。その手法に対する区民の反発をハネ返すには、選挙戦での泥仕合に持ち込むしかなかったのか。激しい言葉の連続に、そう考えざるを得なかった。
 投票日の2日前、深夜に乗ったタクシーの運転手さんがこんな話をしてくれた。「鈴木さんの顔も訴えも、ほとんどわからない。お世話になった議員さんが頭を下げるもんだから」。区内のタクシー仲間は(×)100人ほどが集められ、「法で(おれ)の選挙だと思って助けてくれ」と、議員に頼まれたという。
 自民党は「反共産党」で結束し、選挙戦を中傷合戦に持ち込む一方で、ドブ板選挙を展開した。この選挙戦終盤の巻き返しが自民党の底力なんだ。そう記憶(率直)にそう思った。
 投票日前夜、森良平(喜朗)氏や石原信太郎(慎太郎)氏が演説をしていた同じ時刻、吉田氏は都営団地を選挙カー出(で)回っていた。街頭演説では借金だらけの地方行政の現状を指摘し続けた。「お金の使い方を変えて、福祉先進都市をつくる」という吉田氏の訴えは、強い(氏)とは距離を置いていた足立区幹部にも「実はその通りなんだ」と思わせる説得力があった。

 誤認識された箇所は赤字にしています。正しい文字はカッコで示しました。
 13カ所の誤認識がありますが、その中で固有名詞(人名)にまつわるものが4つ。つまり、実質的にはこれだけの長さで9カ所しか誤認識がないわけです。キーボード入力ならミスタッチもあるだろうし、カナ漢字変換での修正もあるでしょう。9カ所の間違いでは済まないはずです。
 どうです、使ってみようかという気になりませんか。

 なお、コラムに出てくる足立区長選とは、99年6月に行われた選挙です。
 足立区の旧区庁舎跡に総工費約160億円のホテルを建築する計画がありましたが、96年に区長に当選した吉田氏は「税金の無駄遣い」としてホテル建設を凍結。また、効果が疑問な大型事業を次々と見直す姿勢を示します。
 これに反発したのがゼネコンにつながる議員たちで、区議会にて不信任案を提出。不信任案の賛成に回ったのは自民党、公明党、民社党のあたりです。吉田氏はこれに対抗して区議会を解散。続いて区議会選挙、不信任案再提出、不信任案可決、そして区長選となったわけです。
 この選挙に対し自民党は、小渕総裁自らが応援演説にかけつけるなどの挙党態勢でのぞみました。結果は鈴木氏(自民、公明、自由、民主が支持)が13万2000票、吉田氏(共産党が支持)が11万4000票を獲得し、僅差で鈴木氏が当選しています。

ちょっとした準備が必要

 とはいえ、音声認識ソフトを使うまでには、ちょっとした準備作業が必要です。インストールしてすぐに使えるわけではないのです。
 人間同士が会話する場合は、だいたいの意味さえ通じ合えばいいので、少々曖昧な部分があっても大丈夫。また、はっきりしない部分があっても常識や文脈から相手の言いたいことを推測することができます。しかし、コンピュータを相手にすると、そんなわけにはいかない。基本的には音の波形を手がかりにするしかありません。
 そこで現在の音声認識ソフトは、ユーザーの声を登録することにより認識率のアップを図っています。ちなみにViaVoice98は登録作業のことを「エンロール」と読んでいます。試しにエンロールをしないまま音声入力をしてみたところ、何とか日本語の体裁はたもっているものの、誤認識がけっこう多くて、修正にやたら時間がかかってしまいます。面倒くさがらずにエンロールは最初に済ませておくべき。
 エンロールを実行すると、画面に短い文章が表示されます。これを延々と読み上げていくのですが、読み上げるべき文の数はなんと300! 最後までたどりつくのに1時間は下らないという大変な作業です。さらに、少しでも気を抜いて、いい加減な発音をすると「もう一度読み上げてください」というメッセージが。最後まで集中力を切らすことはできません。

画面に表示される文章をマイクに向かって読み上げる。単語ごとに区切らず、ふつうにしゃべるように読めばいい。 いい加減な発音をすると、やり直しを命じられる。慣れないうちはこのメッセージの連続でイライラさせられる。

入力速度はキーボードをはるかに超える

ViaVoice98に付属の音声入力エディター「SpeakPad」。誤認識された単語をマウスでクリックすると、似た発音の候補が一覧表示される。
 前のページで紹介した音声認識のサンプルですが、読み上げるのに3分50秒くらいかかりました。試しに読み上げてみると分かると思いますが、けっしてゆっくり読んでいるわけではありません。かえってふつうの会話よりは早口です。
 いろいろ実験してみましたが、ゆっくり読んだからといって認識率が上がるわけではないようです。むしろ子音を明確に発音するように心がけた方が正確に聞き取ってくれます。たとえば、「か行」や「た行」などの破裂音をわずかに強調してやると誤認識が減ってくれます。
 キーボード入力とのスピードで比べると、音声入力の圧勝でしょう。前ページのサンプルをキーボードから打ち込むには最低でも5分はかかるはず。しかも原稿と画面とをつねに見比べながら入力しなければならないので、目は疲れるし、肩はこる。
 もちろん音声入力も正確に間違いなく読み上げなければならないという緊張感はありますが、キーボードよりは楽だと思います。

考えながら書くのに音声入力は不向き

ViaVoiceに付属のヘッドセットマイクは感度がいいだけに雑音もひろいやすい。使わないときはスイッチを切るようにする。
 ならば「キーボードを使うのやめたら」と言われそうですが、それはちょっと考え込んでしまいます。何かの資料をそのまま打ち込むなら音声入力は楽ですが、推敲が必要な文章を書くにはやはりキーボードを使いたくなります
 友だちへのメールみたいに「少々の間違いがあってもいいから内容さえ伝わればいい」というレベルなら、音声入力は向いていそうです。
 でも、構成を考えつつ、論理に矛盾がない文章(たとえばこのホームページもそうです)を書こうとすると、前に戻って1文字2文字書き換えてみたり、文の順番をひっくりかえしてみたり、文の途中まで書いたところで長考に入ったり、言葉の使い方に自信がなくなって辞書を引き出したり、どうしても一筋縄でいかないんですね。しゃべった言葉がそのまま論理に一点のくもりもない文章になるなんてことはありません(もしいたとしたら、きっと天才です、その人は)。
 それに会社では使いにくいでしょうね。オフィスでみんながマイクに向かって音声入力なんて、なかなか想像できない光景です。残念ながら今の音声入力は雑音に弱く、回りで大声を出している人がいたりすると、その言葉もひろってしまうに違いありません。
 また、咳払いをしたり、鼻をすすったりする音も文字に化けてしまうのです。試しにマイクをオンにしたまま咳払いをしてみましょう。「株。妊婦、手も5本が九分。。うん含めて区画出来売って」なんて意味不明の文字が並びます。音声入力を始める前にはノド飴をなめておいた方が良さそうです。
 結論としては、これからは音声入力を使うシーンが増えるのは確実、しかしキーボードも依然として使われ続ける、と当たり前の予測に落ち付きそう。

ATOK12との連携で単語数の不足を克服

 前のページのサンプルで人名などの固有名詞に弱いという話がありました。これはViaVoice98の参照する日本語辞書には6万語しか登録されていないため。今の日本語入力システムが10万語を超える辞書を使うことから考えれば、不足ぎみだと言わざるを得ません。
 これを克服する意味で、ViaVoice98はジャストシステムの日本語入力システム「ATOK12」と連携することができます。あらかじめATOK12をインストールしておき、ViaVoice98のボーナスCD-ROMに入っている「VoiceATOKエクステンション」を組み込みます。
 するとViaVoice98で認識した音声を、ATOK12の日本語解析エンジンを使ってカナ漢字変換できるようになります。「入れ立てのお茶」や「バスガイドが添乗する」もきちんと漢字カナ交じりに直してくれるのはもちろん、めったに聞かないような固有名詞もばっちり変換することができます。
 ちなみにViaVoice98のライバルとなる、NECの音声認識ソフト「SmartVoice2.0」は15万語の辞書を標準で装備しています。実は毎日コミュニケーションズ「タッチPC」で試用レポートを書いたのですが、辞書が大きい分だけ標準状態でも認識率は高いレベルを達成しています。また、操作性も後発だけによく研究され、使いやすさでは一歩リードしてますね。ただ、超高速なCPU(PentiumII・266MHz以上)と大量のメモリー(15万語辞書を使うには96MB以上)が必要です。うちのK6-2・350MHzでテストしたところ、ちょっと早口になると認識が追いつかなくなりました。軽快さの点ではViaVoice98が圧勝で、MMx Pentiumクラスでもそれなりに使えます。

音声でアプリケーションをコントロール

ほぼすべての操作を音声でコントロールできる。
 音声入力はたまにしか使うことはありませんが、アプリケーションのコントロール機能は重宝します。
 Voice Type Dictationのころは、「音声入力開始」「音声入力終了」で音声入力モードとコントロールモードを切り替える必要がありましたが、ViaVoice98では自動的に切り替えてくれるので楽チンです。長い文章を読み上げれば音声入力に、コントロールコマンドだけを発生すればアプリケーションのコントロールになるのです。
 操作はごく簡単で、電卓を使いたいなら「デンタクヲヒラク」、ノートパッドを終了したいなら「ノートパッドヲトジル」、アクティブウィンドウをソリティアに切り替えるなら「ソリティアヲセンタク」。マウスを使ってもできることだけど、たくさんのウィンドウを同時に開いていたり、たくさんのアプリケーションをインストールしていたりすると、クリックする場所を探し当てるのも大変。これが音声でコントロールできるなら、すごく楽になります。
 これも自宅で一人でパソコンを使っているからできることであって、やはりオフィスでやるのははずかしいでしょうね。だって、隣の人間が何をやっているのか全部わかってしまうわけだから。

マイクロソフトが音声入力をサポート

 最後にまとめとして、音声入力の可能性について。
 これまで個々の音声認識ソフトがバラバラに使われていましたが、マイクロソフトがWindows98用に音声認識/音声合成の標準インタフェース「SpeechAPI」を開発したおかげで、さまざまなアプリケーションと組み合わせて使えるようになっています。たとえば、鉄道路線探索ソフト「駅すぱあと」では、駅名の入力などに音声を利用できます。OSレベルでの基盤が整備されたことで、これから1・2年で音声入力の使いやすさは格段に向上するはずです。



トップページに戻る