タグ付けされた質問 「speech-recognition」

7
Linux用のまともな音声認識ソフトウェアはありますか?
質問の短縮版:Linuxで実行され、まともな精度と使いやすさを備えた音声認識ソフトウェアを探しています。ライセンスと価格は問題ありません。テキストを口述できるようにしたいので、音声コマンドに限定されるべきではありません。 詳細: 私は満足して次のことを試しました: CMUスフィンクス CVoiceControl 耳 ジュリアス Kaldi(Kaldi GStreamerサーバーなど) IBM ViaVoice(Linuxで実行されていましたが、数年前に廃止されました) NICO ANNツールキット OpenMindSpeech RWTH ASR 叫ぶ silvius(Kaldi音声認識ツールキット上に構築) サイモンは聞く ViaVoice / Xvoice ワイン+ドラゴンNaturallySpeakingの + NatLink + トンボ + イトトンボ https://github.com/DragonComputer/Dragonfire:音声コマンドのみを受け入れます 上記のネイティブLinuxソリューションはすべて、精度と使いやすさの両方が劣っています(または、一部はフリーテキストのディクテーションを許可せず、音声コマンドのみを許可しています)。精度が低いということは、他のプラットフォーム用に以下で言及した音声認識ソフトウェアの精度よりもかなり低い精度を意味します。Wine + Dragon NaturallySpeakingに関しては、私の経験ではクラッシュし続けており、残念ながらそのような問題を抱えているのは私だけではないようです。 Microsoft WindowsではDragon NaturallySpeakingを使用し、Apple Mac OS XIではApple DictationとDragonDictateを使用し、AndroidではGoogle音声認識を使用し、iOSでは組み込みのApple音声認識を使用します。 Baidu Researchは昨日、トーチで実装されたConnectionist Temporal Classificationを使用した音声認識ライブラリのコードをリリースしました。以下のスクリーンショットに示すように、Gigaomのベンチマークは勇気づけられますが、かなりのコーディング(および大きなトレーニングデータセット)なしで使用できるようにするための適切なラッパーを認識していません。 アルファ版のオープンソースプロジェクトがいくつかあります。 https://github.com/mozilla/DeepSpeech(MozillaのVaaniプロジェクトの一部:http ://vaani.io (mirror)) https://github.com/pannous/tensorflow-speech-recognition …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.