Windows 10 Technical Preview の音声合成と音声認識

2014年11月17日(月)00時22分

Win10TP の SAPI5 エンジン

前回Windows 10 Technical Preview(以下「Win10TP」)をインストールしてみましたので、ついでに SAPI5(音声合成・音声認識プラットフォーム)の状況について調べてみました。
その結果、おそらく現状では Win8 と変わりはないようで、つまり今回のタイトルは「Win8 の音声合成と音声認識」としても、そう違いはないと思われます。

音声合成エンジン

まず、音声合成エンジンですが、以下の三つがインストールされています(個別項目にてサンプル音声)。

  • Microsoft David Desktop - English (United States)
  • Microsoft Zira Desktop - English (United States)
  • Microsoft Hazel Desktop - English (Great Britain)

自分は Win7 からですので、「男性英語話者が増えている!」と思ったのですが、調べてみるとどうも David Desktop は Win8 時代から存在するようで、つまり変化は特にないということになります。
もちろん、内部的に何かしら改善されている可能性はないとは言えませんが。

音声認識エンジン

次に音声認識ですが、以下の一つがインストールされています。

  • Microsoft Speech Recognizer 8.0 for Windows (English - US)

…この「バージョン 8.0」というのは Vista も Win7 も Win8 も同一で、つまりもう長いあいだずっと変わっていません。
もはや「クラウド」の時代で、MicrosoftBing で音声認識機能を提供していますし、「今更ローカルのエンジンにリソースを割くような無駄なことはしない」ということなのかもしれません。

Microsoft David

個別にみていきますと、まず Microsoft David です。
音声合成界では何故か、世界的に「女性音声」の勢力が強いため、そういう意味で貴重な「男性音声」です。
ただこの David、別に Win10TP で新規に追加されたわけではなく、Win8 の頃から居たそうで、日本語版には標準では存在しないものの、英語の言語パックを追加適用することで使えるようになるらしいです。
登場時期から考えて、Microsoft Zira のパートナー的な位置づけとして開発されたのであろうと思われますし、その品質も「Microsoft Zira 相当」、つまりはそれなりに高いことが期待されます。
ということで、とりあえず例のごとく?「不思議の国のアリス」の冒頭部分を読み上げさせた MP3 ファイルを作ってみました。

比較の対象としては、以前に「Microsoft Speech Platform 11 の追加音声」や「Microsoft Speech Platform の日本語音声合成エンジン」で、他の英語話者で作った MP3 ファイルを公開しています。

Microsoft Zira

この「Microsoft Zira」は、名前から考えても、Microsoft Speech Platform(以下「MSSP」)の「Microsoft ZiraPro」と同じものだと思われます。
そもそも、MSSP の話者はすべて「普通の人名」的な名前が付けられており、「ZiraPro」のみが異質な存在でしたので、他に合わせて改名されたのでしょう。
一応、同じものであろうとは思いながらも、念のためにサンプルの MP3 ファイルを作ってみました。

で、「ZiraPro の MP3 ファイル」と聴き比べてみましたが、まあ同じです。
なお、「Microsoft ZiraPro」については「Microsoft Speech Platform 11 の追加音声」で言及しています。

Microsoft Hazel

これはもう、名前もそのままですので、MSSP のイギリス英語話者である「Microsoft Hazel」と同じだと思います。

日本語話者は?

Win10TP は今のところ「英語版」「中国語版」「ポルトガル語版」のみが出ています。
ですので、「日本語話者」は追加もできませんし、現時点では確認のしようもないわけですが、ただまあ、Microsoft Hazel の例を見る限り、おそらくは「Microsoft Haruka」がそのまま載ってくるのであろうと思います。

Windows ストアアプリと音声処理機能

ついでに、というべきか自分にとってはこちらが本命なのですが、Windows ストアアプリにおいてはどのような扱いであるのかを調べてみたところ、「Win8 では使用不可、Win8.1 で音声合成のみ使用可能」という状況のようです。
いわく、Win8.1 になって「Windows.Media.SpeechSynthesis」なる名前空間が追加され、これを使用することで音声合成が可能になるとのこと。
しかしその音声合成は、「話者選択と合成音声の生成」しかできないようで、本当に「最低限のサポート」という感じになっています。
実際のところ、自分がしてみたかったのは、例えば単語登録といった「SAPI5 の音声合成機能に関するもう少し突っ込んだ使い方」だったのですが、この様子ではどうにも試しようがないようです。
また、音声認識に至っては、前述のように「Bing を使ってください」ということで、せっかくローカルに存在する SAPI5 の音声認識機能の使用方法が提供されていません。
とはいえまあ、音声認識は音声合成よりもなお、「大量の音声情報を集め、解析し、常に精度を上げていく」といったことが求められますので、「クラウド経由で」となるのも、やむを得ない流れなのかもしれません。

【同じタグを付けた記事の一覧】
Windows WinRT 音声技術 音声合成 音声認識

Windows 10 Technical Preview をネットブックにインストール

2014年11月08日(土)20時30分

Windows 10 Technical Preview

遅ればせながら、Windows 10 Technical Preview(以下「Win10TP」)をインストールしてみました。
そもそもの原因は、「Surface RT(初代)の入手と Haruka Desktop」で書いた通り Surface RT を入手したものの、これが事実上「ストアアプリ専用マシン」であり、「Win8 でちょっと試してみたいこと」があるのですが、そのためには「ストアアプリを書かねばならない」ということにあります。
しかしストアアプリは「Win8 以降」の環境でないと開発できないらしく、そして我が家には「Win7 以前」の環境しか存在しないのです(除く「Surface RT」)。
で、「もしかしたらこれでもいけるのでは?」と考え、試してみることにしたのです。

ONKYO DC423

そしてその Win10TP を「何にインストールするのか」ですが、通常こういうものは仮想環境に入れるのが一般的かと思います。
ただ、自分が普段使っている Portable-VirtualBox は、「Portable-VirtualBox を 4.3.12 に改変してみる」等でも書いている通り、バージョンアップがかなり遅れ気味です。
そのうえ、ネット上では「VirtualBoxWin10TP のインストールに失敗した」という書き込みもいくつか見つかったりしますので、「古いバージョンの VirtualBox では厳しいかもしれない」と思い、長らく「何かあった時の予備」として置いてあった実機「ONKYO DC423」に入れてみることにしました。
この DC423 はいわゆる「ネットブック」に属するものですが、ブームも終盤頃の製品であり、またメモリも増設していますので、性能的には少しはマシな部類のはずです。
とはいえ所詮はネットブックですので「それなり」でしかありませんが、元より高性能が必要なことをするつもりはありませんので、特に今回の目的を考えれば十分だと思います。

インストールと初回設定

インストールは、ダウンロードした ISO イメージを DVD に書き込み、USB 外付けの DVD ドライブからの起動で、何の問題もなく終了しました。
表示されるメッセージは当然すべて英語なのですが、すでに Surface RT で三度ほど「初期化 → 初回設定」作業を行っていたりしますので、辞書を片手に格闘するようなこともなく、すんなりと進みました。
デバイスマネージャーでは二つほど不明なデバイスが存在しましたが、有線 LAN も無線 LAN も SD カードのスロットも使用可能でしたので、特に問題なしです。

スタート画面?

ログインすると、Win8(Surface RT)と同様のスタート画面になりました。
Win10TP ではスタートメニューが復活している!」と、ニュース等で大きく取り上げていたため、早速デスクトップに移行してスタートボタンを押してみたものの、なぜか普通にスタート画面に戻りました。
キーボードの Windows キーを押しても同様です。

スタートメニュー復活!

ということで、いろいろと設定などを見て回ると、タスクバーを右クリックして「Properties → Start Menu → Use the Start menu instead of the Start screen」をチェックし、再度ログインすることで、スタートメニューが復活することがわかりました。
少し調べてみたところ、Windows 10 ではデバイスによって適した挙動に変更されるそうで、画面が狭い(1024 x 600)ネットブックでは、初期値でスタートメニューではなくスタート画面が使用されることになっているようです。

ストアアプリ起動不可?

もう一つ、ネットブックの特徴?として、ストアアプリがことごとく起動不可でした。
クリックすると「This app cannot open」というようなエラーメッセージが表示されます。
書かれた内容からして、どうやら解像度が足りないようです。
どうもストアアプリは最低「1024 x 768」という決まりがあるらしく、確かにネットブックの「1024 x 600」では足りていません。
これは Win8 の時点ですでにあった問題らしく、検索すると「レジストリ書き換えでどうにかする」というような対策が提示されていました。
が、別に今回このマシンでストアアプリが起動できなくとも、目的を考えれば特に困りませんので、とりあえず作業を進めました。

Build 9860 へアップデート

Win10TP は、初回リリースの「Build 9841」から更新され、現在2014年11月時点では「Build 9860」となっています。
しかし、ISO イメージは更新されていないようで、インストール直後の状態では、まだ「Build 9841」でした。
起動した状態でそのまま放置していると、いずれアップデートされるとのことですが、今回は「PC settings」の「Update and recovery → Preview builds」で強制的に実行させました。
…が、これがまたとんでもなく時間のかかる代物で、おそらく新規インストールの時間よりもかかり、寝る前になんとなくはじめてしまったことを後悔するレベルでした。

ストアアプリ復活!

で、アップデートするとなぜかストアアプリが起動するようになりました。
まあ、別に使う予定もないのですが、せっかくなのでいろいろと起動して試してみると、ストアアプリもデスクトップ上の一つのウインドウとして実行されるようになっています。
もっとも、この挙動は事前にいろいろなところで書かれているのを見て知ってはいましたが、しかしこうなるともう「ストアアプリである必要ないのでは?」という気にもなることは確かです。

デスクトップ寄り

すでに各所でさんざんに語られてはいますが、Win8 ではタブレットに迎合しすぎでデスクトップでは使いにくく、それが伸び悩んだ理由の一つとなったためか、Win10TP ではかなりデスクトップ環境への回帰が図られています。
ただし当然、その結果としてタブレットでは使いづらくなっているようで、「スタートメニュー ⇔ スタート画面」こそ設定で切り換えられますが、ストアアプリの挙動は従来のようなスクリーンを占有する専用環境で起動するモードにできないようです(自分が設定を見つけきれてないだけかもしれませんが)。

デスクトップとタブレット

デスクトップとタブレット、これはもう操作体系が違いすぎますので、一つにまとめようというのは無理があると感じます。
ですので、もし Win10 の「Windows RT」版が出るのであれば、そちらはデスクトップ環境を完全に切り捨てた、真の「ストアアプリ専用OS」として出し、デスクトップ版の方は設定でどちらの操作体系にも切り換えて使えるようにするのがいいのではないかと思いました。
なにやら最近 Microsoft Office のストアアプリ版も見えてきたようですし、そもそも Windows RT の「デスクトップ」は「Microsoft Office を実行するためにのみ仕方なくつけた」感がありましたので、実際、もしまだ Windows RT が続くのであれば、そういうふうになるのではないかという気はします。

【同じタグを付けた記事の一覧】
ソフト紹介 Windows WinRT

Surface RT のために Didio2 タッチペン(ECTP-02SL)を購入

2014年11月03日(月)23時24分

デスクトップ環境とタッチペン

ひょんなことから手に入れた Surface RT ですが、前回「Surface RT(初代)の入手と Haruka Desktop」でも書いた通り、これはもう Windows ストアアプリ専用端末といった趣で、そのように使っている限りは、タッチパネルを指で操作していても特に問題はありません。
ただ、使用頻度は低いものの、デスクトップ環境で何かをしたいというときがあります。
しかし、デスクトップ環境は、そもそもマウスとキーボードでの操作を前提としているため、指ではとても使いにくく、誤操作が頻発してしまいます。
ということで、マウス的に使うためのスマホ用タッチペンを買うことにしました。

Digio2 タッチペン ツインヘッドタイプ

それで買ってきたのが、ナカバヤシ株式会社の「Digio2 タッチペン ツインヘッドタイプ」です。

Amazon で探してみると、「黒」「銀」「青」「赤」の四色があるようですが、自分が購入したのは型番「ECTP-02SL」で、末尾に「SL」とあるように銀色のものです。
「ツインヘッド」の名の通り、大小2つのペン先が付いています。
また、ペン先が取替式になっていて、替えのペン先が大小1個ずつの計2個ついています。

細いペン先

なぜこれにしたのか?ですが、近所でスマホ用のタッチペンが売っていそうなところを回った結果、これが一番「ペン先が細かった」からです。
「細い」といっても、「他よりはマシ」という程度で、そこそこの太さはあります。
Surface 用にタッチペンを買おう」と思った当初、ボールペンのようなペン先の細いものがあると考えており、そういったものを探したのですが、まったく見つかりませんでした。
それもそのはずで、「人の指」に反応することを前提に作られているタッチパネルは、ある程度の接地面積を確保しないと反応しないため、あまり細いものは作れないようなのです。
実際に試してみた感触からも Surface RT においては、この程度のサイズが限界ではないかと感じました。
もっとも、この太さでも「マウスの代替」という用途においては、少なくとも指よりははるかにマシになります。

使ってみて

二種類のペン先は大小共に十分に反応します。
少なくともデスクトップ環境におけるマウスの代替としては問題なく使用可能です。
しかし、「小」のペン先の方はやはり少し感度が落ちるようで、例えば手書き入力などで試すと、注意してゆっくり動かさないと線が途切れることがあります(「大」のペン先の方は、普通にボールペンで書いているかのように動かしても、わりに平気です)。
ですので「これで Surface RT をお絵かき端末に!」というような目的ですと、それはさすがに少し無理がある気がしますので、そういう場合はやはりペン入力に対応した専用のデバイスを使うべきかとは思います。
しかし、今回のような「ちょっとした細かい作業を便利にしたい」という目的においては十分に機能しますし、買って後悔のない商品でした。

【同じタグを付けた記事の一覧】
Windows WinRT

Surface RT(初代)の入手と Haruka Desktop

2014年11月01日(土)01時00分

Surface

Surface RT」を入手しました。
「Pro」ではなく「RT」、「2」や「3」ではなく初代(無印)の「Surface」です。
「何故に今頃これを?」という話ですが、もともとは知人が少し前に「電気屋で安くで売っていたから」という理由で衝動買いしたものです。
知人曰く「買ったときは何かに使うだろうと思った」らしいのですが、実際のところ何に使うこともなく放置されていたそうで、それを先日「お前なら何かに使うだろう」という謎の理論により、我が家に置いていったのです。

Haruka Desktop

そういった経緯で入手した Surface ですが、これが自分にとって初めての Windows 8 環境です(正確には「Windows RT 環境」ですが)。
そして、このブログでもしばしば記事にしていますが、自分はかねてより音声認識や音声合成を強い関心の対象としています。
ですので、Win8 で初めて標準添付となった日本語音声合成エンジンである「Haruka Desktop」には大いに興味がありました。
ということで、せっかく手に入れた Win8、まずは「音声合成」「音声認識」あたりについていろいろ探ってみることにしました(結果的には何一つわからなかったのですが)。

HTA は使用できず

Surface RT 搭載の「Windows RT」は、「Windows ストアアプリ専用 OS」的に作られたもののようですが、デスクトップ環境もあるにはありますし、自作のアプリケーションは無理でも、ちょっとしたスクリプトの動作は可能なようです。
というわけで、とりあえず「音声合成して音声認識するスクリプト」あたりから HTA ファイルをコピーして持っていきましたが、汎用アイコンになっていました。
当然実行もできません。
で、ファイル検索してみると「Windws RT」には「mshta.exe」がなく、つまり HTA は実行できないようです。

WScript.Shell は使用できず

気を取り直して「wscript.exe」と「cscript.exe」を検索しますと、これらは存在するようです。
つまり、「.vbs」や「.js」は実行可能なはずです。
で、「Windows の音声認識を JavaScript で(基礎編)」から「DictJS00.js」を持っていき実行したところ、以下のエラーとなりました。

エラー : “WScript.Shell”というオブジェクトを作成できませんでした。
コード : 80070005
ソース : Wscript.CreateObject

…少しネットで調べてみますと、Windows RT では「WScript.Shell」を使用することがどうやらできないようです。

SAPI5 は使用できず

とはいえ、「DictJS00.js」において「WScript.Shell」は、単に「wscript.exe」で起動された場合に「cscript.exe」で起動しなおす、という目的でしか使用していません。
つまりなくても問題ありませんので、その部分を削り、改めて実行してみたところ、以下のエラーとなりました。

エラー : “SAPI.SpInProcRecoContext”というオブジェクトを作成できませんでした。
コード : 80070005
ソース : Wscript.CreateObject

これだけではまだわかりませんので、極力シンプルに「WScript.CreateObject("SAPI.SpVoice").Speak("This is a test.");」とだけ書いた JS ファイルを作ってみましたが、やはり同様のエラーで実行不可でした。
…どうやら Windows RT では SAPI5 系のオブジェクトも使用することができないようです。

PowerShell でも使用できず

そもそも、Microsoft にとって HTA や JScript は、既に過去の「終わらせたい」技術ではあろうと思いますし、そのために「あえて」おざなりにしてある、という可能性もないとは言えません。
というわけで、念のために「それらよりは新しい技術」である PowerShell を起動し「(New-Object -ComObject SAPI.SPVoice).Speak("This is a test.")」してみました。

New-Object : 型を作成できません。この言語モードでは、コアの型のみがサポートされています。

やはりダメなようです。

ストアアプリ専用 OS

勝手な予想にすぎませんが、Windows RT は「Windows ストアアプリ」の普及のためだけに「Windows ストアアプリ専用プラットフォーム」として設計したもので、本来はデスクトップ環境など、付けるつもりはなかったのではないかとすら思います。
ただ、それではあまりに「売り」がなく、失敗が確定的であるため、やむを得ず自社の強みである Microsoft Office を付けることとし、そのためやむを得ずデスクトップ環境をつけた、と。
実際、デスクトップ環境はほぼ「Microsoft Office 専用」で、「それ以外の使い道」は徹底的にふさいであるように感じました。

せめて Visual Studio を…

ちなみに、「Windows ストアアプリ」は、どうやら(RT ではない普通の)Win8 でしか開発できないようです。
そして自分は Win7 環境しか持っていませんので、つまりこの Surface RT は、現在のところ、自分にとっては出来合いの「Windows ストアアプリ」をダウンロードして使うだけの「消費型デバイス」としてのみ存在することになります。
まあ、ここでこんなことを書いても仕方がないのですが、それでも、せっかくデスクトップ環境をつけたのであれば、「ストアアプリ開発専用」でいいので、Visual Studio(か類似する開発環境)をつけておいてほしかったなあと思います。

【同じタグを付けた記事の一覧】
Windows WinRT 音声技術 音声合成 音声認識

(失敗)VOA に英語音声認識でタイムタグをつける

2014年10月05日(日)00時27分

VOA という英語音声素材

Voice of America(以下 VOA)というのは、アメリカの国営放送です。
で、その中に「Learning English」なるプログラムがあります(かつては「Special English」の名称で放送していたようです)。
これは、英語ネイティブでないリスナーを対象に、使用する単語を絞り込み、通常よりゆっくり読み上げる英語ニュースで、音声だけでなくそのスクリプト(ニュースの読み上げ原稿)も同時に提示されています。
それらの特徴から、英語の初級~中級学習者の間で話題に上ることが多いのですが、さらに素晴らしいのは、これらの音声やスクリプトが、「public domain」で公開されているという事実です(これは例えば、公式サイトの下の方にある「About Us」あたりに明記されています)。
例えばブログや WEB ページで、例文等として比較的自由に使える英語の「文章」であれば Wikipedia などがありますが、「音声」となるとなかなか見つかりませんので、これはありがたいことです(日本語でもこういったものがあるとうれしいのですが)。

音声認識とタイムタグ付きテキスト

そして、今回はこの音声ファイルを、Windows の音声認識にかけて、タイムタグ付きテキストを自動生成できないだろうか?と考え、実際にやってみた記録です。
「タイムタグ付きテキスト」というのは、LRC ファイル等とも呼ばれる、いわゆる歌詞カードです。
LRC ファイルを生成できると、対応する音楽再生ソフト(foobar2000 等)やDAP(ウォークマン等)で、現在読み上げている個所を表示したりハイライトさせたりするようにできます。
Windows で WAVE ファイルを音声認識させると、各認識文が「どのタイミングで開始されるか」という情報も得られますので、これを使ってタイムタグを打とうというわけです。
ただし、結論から先に書きますと、タイムタグ生成の前段階である音声認識の時点で、「完全自動処理」が可能なレベルの結果が得られないことがわかり、それ以降の処理を書いていないため、今回の目論見は失敗に終わったということになります。
ですが、せっかく途中までは書きましたので、「どの程度まで認識できるのか」といった資料として、今回試した内容を書き残しておこうと思います。

SAPI5 と Microsoft Speech Platform

これまでに、「Windows の音声認識を JavaScript で(基礎編)」や「Windows の音声認識を C++ で(基礎編)」等でも書いていますが、Windows で使用できる音声認識機能として、標準で添付されている「SAPI5」と、Microsoft のサイトから無料でダウンロード可能な「Microsoft Speech Platform(以下 MSSP)」の二つのシステムがあります。
ただし、標準である SAPI5 の方は、「日本語版 Win7 で英語音声認識機能を使う」で書いたような作業を行わないと英語認識が使用できません。
その点、MSSP の方は OS の言語に関係なく「MSSpeech_SR_en-US_TELE.msi」をダウンロード&インストールするだけで英語認識可能になるのですが、こちらはこちらで「口述筆記(自由認識)」モードが使えず、あらかじめ登録しておいた文章のみが認識可能な「コマンド認識」モードのみとなります。
とはいえ、今回の目的はあらかじめ読み上げ原稿がわかっており、「その原稿内のどの文章を読んでいるのか?」が認識できればいいわけですから、MSSP を使うことにしました。

MSSP のインストール

まずは「http://www.microsoft.com/en-us/download/details.aspx?id=27225」から、MSSP のランタイム「SpeechPlatformRuntime.msi」をダウンロード&インストールします。
この「SpeechPlatformRuntime.msi」は、32ビット版である「x86」と、64ビット版である「x64」があるのですが、これは「OS のビット数がどちらか?」ではなく「使用するソフトウェアのビット数がどちらか?」で決まります。
といっても、共存可能ですので、とりあえず「x86」をインストールし、64ビット版の Windows の場合のみ追加で「x64」もインストールしておけばいいと思います。
その後、「http://www.microsoft.com/en-us/download/details.aspx?id=27224」で、英語認識エンジン「MSSpeech_SR_en-US_TELE.msi」をダウンロード&インストールします。

スクリプトの準備

今回実験のために書いた HTA スクリプト「DictVOA.hta」は、上部テキストエリアに認識文を設定し、それに対応する WAVE 音声ファイルを指定して「認識」することで、認識できた行の時間情報を表示するものです。

DictVOA.txt ← 矢印左側の文字の上で右クリックし、「対象をファイルに保存(A)…」してダウンロードします。

DictVOA対象をファイルに保存

ダウンロードした「DictVOA.txt」を右クリックし、「プロパティ」を見て、「ブロックの解除」ボタンがあれば押して「OK」します。

DictVOAブロックの解除

ダウンロードした「DictVOA.txt」の拡張子(末尾の3文字)を「txt」から「hta」に変更し「DictVOA.hta」とします。

DictVOA拡張子変更

DictVOA.hta を実行します。

DictVOA

やってみた結果

アナウンサーによる違い

当然、というべきかわかりませんが、ニュースを読み上げるアナウンサーの違いによって、認識率がかなり違います。
アナウンサーは皆、ゆっくりと丁寧に読み上げてはいるのですが、人によってはどうにもうまく認識せず、数行しか確定できないということもあります。
もちろん、その逆に「凄く認識しやすいアナウンサー」というパターンもあり、実験した中では一つだけでしたが、「一記事丸々全文認識確定できた」というニュースもありました。
感覚として、なんとなく女性アナウンサーの方が認識率が悪いような気がします(サンプル数が少ないため、たまたまである可能性は高いのですが)。

インタビュー音声

VOA による「なるべく生のアメリカ英語にも親しんでもらおう」というような配慮によるものか、外部(アナウンサー以外)の人によるインタビュー音声が、わりに頻繁に挿入されます。
これらは当然、Learning English のようなゆっくりとしたものではなく通常の速度、そして話し言葉ですから流暢というわけにもいきませんし、またスタジオ録音でないためノイズも乗っています。
そういう悪条件であるため、インタビュー音声に関しては、これが混じっているとほぼ「自動認識は無理」という状態になります。

略記・数字

これは VOA 側でなく音声認識側の問題ですが、SAPI5 や MSSP の音声認識システムは、例えば「Mister」を「Mr.」と表記するような略記に対応していません。
つまり、記事中にこういった表記がある場合、「元の表記」に戻して登録しないと認識率が著しく低下します。
これが略記だけのことであれば機械処理でもある程度対応可能なのですが、数値も、例えば「123」をアナウンサーが「one hundred twenty three」と読み上げているのであれば、文中の「数字」を「数値英単語列」に書き換えて登録する必要があります。
これが結構厄介で、例えば「2001」という「数字」があった場合、これが「西暦」であるのか、単なる何かの数を示しているだけなのかで読み方が変わります。
つまり、最終的には「アナウンサーがどう読み上げているのか?」を聞いて書き換えるしかないため、結局のところ、ある程度の手作業は避けられないということになります。

半自動化

今回は「完全自動化」を前提としたため「難しい」という結論になりました。
が、例えば「A」「B」「C」「D」「E」の5行の文章が存在するとして、「A」と「D」の文が認識確定できれば、「B」「C」と「E」の位置が大まかに推定可能になります。
つまり「A」の終わりから「D」の始まりまでの間に「B」「C」があるわけで、WAVE ファイルからその範囲のみを切り出し、「B」「C」のみを登録した音声認識器に掛ければ、認識確率がかなり上がります。
これを利用して、認識不可だった文章を細切れに認識させていけば、インタビュー音声を含むほとんどの位置確定が可能になることを確認しています。
というわけで、ある程度の手作業を許容すれば、目的達成はできなくもない、とは思いますが、実際のところ、そこまでして作るほど LRC ファイルを利用するだろうか?という疑問はあります。
「英語聞き取りの練習」ということであれば、別に普通の TEXT ファイルを目で追っていても特に不便はないですから…。

【同じタグを付けた記事の一覧】
自作ソフト eラーニング 音声技術 語学学習 音声認識 英語音読学習計画

スポンサーサイト

プロフィール

Author:電脳太助
Website:電脳スピーチ web

サイト内検索
カレンダー
11 | 2014/12 | 01
- 1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31 - - -
FC2アクセスランキング
最新記事
最新コメント
最新トラックバック
FC2アクセスランキング
FC2カウンター
アクセスランキング
[ジャンルランキング]
コンピュータ
165位
アクセスランキングを見る>>

[サブジャンルランキング]
ソフトウェア
23位
アクセスランキングを見る>>
タグクラウド
月別アーカイブ
カテゴリ
ユーザータグ

音楽管理(61)
ポータブル(45)
音声技術(41)
ソフト紹介(37)
自作ソフト(34)
サイト運営(27)
プログラミング(27)
iTunes(25)
FC2(25)
ブログ(24)
音声合成(23)
LISMO(23)
Windows(23)
音声認識(22)
電子ブック(22)
x-アプリ(21)
eラーニング(20)
語学学習(18)
foobar2000(16)
ソースコード(16)
バックアップ(16)
画像管理(15)
WindowsLiveWriter(14)
DnspTools(10)
アフィリエイト(9)
ウォークマン(9)
fi-6130(9)
FLAC(9)
Gracenote(8)
英語音読学習計画(8)
JavaScript(8)
C++(7)
ベクター(7)
SyntaxHighlighter(7)
spcbght(7)
TraConv(7)
雑記(7)
W63CA(6)
DCP-J552N(6)
MP3Gain(6)
WindowsLiveMesh(6)
VirtualBox(6)
ExactAudioCopy(6)
英語発音矯正実験(6)
iGoinLM(6)
LAME(5)
楽器演奏(5)
音楽技術(5)
nLite(4)
GalateaProject(4)
WindowsLiveSkyDrive(4)
WinRT(4)
GalateaTalk(4)
MIDI(4)
PC-98(3)
AACGain(3)
ホームページ(3)
LLVM(3)
OverCutChecker(3)
カウンター(3)
PK-513L(3)
iTCDini(3)
OCR(2)
ImageCompositeEditor(2)
アクセス解析(2)
qtaacenc(2)
AquesTalk(1)
AquesCmdDl(1)
資格試験(1)

RSSリンクの表示
メールフォーム

名前:
メール:
件名:
本文:

Ads by Google
Amazonおまかせリンク
Ads by Google
Amazon人気商品(和書)
Amazon人気商品(音楽)
Amazon人気商品(PCソフト)
Amazon人気商品(家電)
FC2アフィリエイト