音声認識ソフトの実力評価と学習能力活用
トップ > テキストから音声合成、その音声から音声認識
今まで音声認識のテスト結果とその活用について、多くの報告をしてきましたが、ユーザーのためのもう一つの補助ツールである音声合成について、調査した結果についてレポートします。
Windowsには、「コンピューターの簡単操作」の部分に、2つの操作用補助ツールが用意されています。「音声認識」と「音声合成」ですね。
「音声認識」については何度も報告してきた通り非常に便利な機能ですが、これまで「音声合成」については、ほとんどテストをしてきませんでした。
唯一、ある音声(例えば自分の声)を、どこまで別人の声に変えることができるのかというテストをしただけでした。<高機能な音声波形編集ソフトSoundEngine Free>
今回、音声合成についていろいろ調査してみたところ、いろいろな文字データから音声合成して、スピーカーから発声させることができるということがわかりました。
(何を今さら・・遅れていますが)
そのメインの機能としては、テキストを入力して再生ボタンを押すと、人間の声でそのテキストを読み上げくれるというものです。
テキストデータは直接入力しても良いし、テキスト入力済のファイルを開く形でもいいし、ファイルをドラグ&ドロップするというやり方のどれでも可能となっているものが多いです。
メジャーなフリーソフトは4つ。
「Balabolka」、「テキストーク」、「SofTalk」、「JukeDoxフリー」です。
この中で実用できるレベルだと感じたのは2つで、「Balabolka」と「テキストーク」でした。他の2つは完成度が低く感じられて、実用化はまだ少し無理ではないかと思いました。
順にテストを行おうと思っていますが、まずはNo1との評価である「Balabolka」から始めることにしました。
まずはソフトのダウンロードとインストールです。
①Balabolkaのダウンロード
無料音声読み上げソフト「バラボルカ」
http://www.cross-plus-a.com/jp/balabolka.htm
②ダウンロードされた「balabolka.zip」をダブルクリックしてファイルを全て展開します。
③新しくできたフォルダ「¥balabolka」の中にある「setup.exe」をクリックしてソフトをインストールします。
④デスクトップに「Balabolka」のショートカットができていますので、それをダブルクリックしてプログラムがスタートします。
プログラムをスタートさせると、次のような画面が開きます。
上の部分にあるアイコンの中に「スタート」「一時停止」「停止」のボタンがあるので、それをクリックした簡単に音声合成を開始したり停止することができます。
いろいろな機能が用意されていますが、まずはすぐにトライしてみました。やり方は簡単なのですが、ここで一つだけお断りを。
Windows7の場合は、すぐにできるのが英語の音声合成のみとなっていました。日本語のための Microsoft Speech Platform「Microsoft Haruka Desktop [日本語]」がインストールされていないためです。
初めからインストールされているのは、英語用の「Microsoft Anna [英語(米国)]」のみ。
上の画面では、プルダウンメニューから言語に対応したプラットホームを選べるようになっていますが、「SAPI5」タブをクリックしてみると、その中には「Microsoft Anna [英語(米国)]」しか出てきません。
なので、日本語の音声合成をしようと思ったら、Microsoft Speech Platform「Microsoft Haruka Desktop [日本語]」を別にインストールする必要があります。この部分については、あとで説明したいと思います。
「Balabolka」には、合成した音声を保存する機能もあるので、後日、その保存した音声を使って、音声認識ができるか(テキスト化ができるか)を、追加トライしてみようと考えています。
まず最初は、英文の音声合成テストを行ってみました。
手順は次の通りです。
①まずは音声合成で読み上げするテキストを入力します。
英文の書かれたファイルを開いてもいいし、ドラッグ&ドロップしてもいいし、画面上に他のWindowからテキストをコピペしてもいいし、直接インプットしてもOKです。
②次に、再生ボタン「>」をクリックします。
③英文の読み上げが始まります。
入力された英文は黒色ですが、読み上げられると同時にその文字が青色に替わっていきます。文字色を見ると、今どこまで読み上げられたのかが一目でわかるようになっています。
「う~ん、なかなかのものです!」
単語と単語のつなぎ目が、「ククッ!」と早く発音されたりするときがたまにありますが、しっかりと理解できる英語の読み上げとなっています。
声を出すことができない人にとって、キーボードから文字を入力するだけでそれをコンピューターが替わりに声を出して読み上げてくれるのですから、コミュニケーションが格段にやり易くなるなと感じました。
筆談でのやり取りよりも臨場感があり、手話のようにその技術を先に覚える必要のない音声合成は、画期的な補助手段の一つになるのではないかと思います。
合成した音声ファイルのデモと、英文の読み上げよりももっといいと感じた日本語の音声合成については、つぎに書きたいと思います。
a:4361 t:2 y:10