Linux用のまともな音声認識ソフトウェアはありますか？

49

質問の短縮版：Linuxで実行され、まともな精度と使いやすさを備えた音声認識ソフトウェアを探しています。ライセンスと価格は問題ありません。テキストを口述できるようにしたいので、音声コマンドに限定されるべきではありません。

詳細：

私は満足して次のことを試しました：

CMUスフィンクス
CVoiceControl
耳
ジュリアス
Kaldi（Kaldi GStreamerサーバーなど）
IBM ViaVoice（Linuxで実行されていましたが、数年前に廃止されました）
NICO ANNツールキット
OpenMindSpeech
RWTH ASR
叫ぶ
silvius（Kaldi音声認識ツールキット上に構築）
サイモンは聞く
ViaVoice / Xvoice
ワイン+ドラゴンNaturallySpeakingの + NatLink + トンボ + イトトンボ
https://github.com/DragonComputer/Dragonfire：音声コマンドのみを受け入れます

上記のネイティブLinuxソリューションはすべて、精度と使いやすさの両方が劣っています（または、一部はフリーテキストのディクテーションを許可せず、音声コマンドのみを許可しています）。精度が低いということは、他のプラットフォーム用に以下で言及した音声認識ソフトウェアの精度よりもかなり低い精度を意味します。Wine + Dragon NaturallySpeakingに関しては、私の経験ではクラッシュし続けており、残念ながらそのような問題を抱えているのは私だけではないようです。

Microsoft WindowsではDragon NaturallySpeakingを使用し、Apple Mac OS XIではApple DictationとDragonDictateを使用し、AndroidではGoogle音声認識を使用し、iOSでは組み込みのApple音声認識を使用します。

Baidu Researchは昨日、トーチで実装されたConnectionist Temporal Classificationを使用した音声認識ライブラリのコードをリリースしました。以下のスクリーンショットに示すように、Gigaomのベンチマークは勇気づけられますが、かなりのコーディング（および大きなトレーニングデータセット）なしで使用できるようにするための適切なラッパーを認識していません。

アルファ版のオープンソースプロジェクトがいくつかあります。

https://github.com/mozilla/DeepSpeech（MozillaのVaaniプロジェクトの一部：http ://vaani.io （mirror））
https://github.com/pannous/tensorflow-speech-recognition
Vox、Dragon NaturallySpeakingを使用してLinuxシステムを制御するシステム：https : //github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo（Googleがリリース予定、Interspeech 2018で言及）

芸術の現状と音声認識に関する最近の結果（書誌）を追跡しようとするこの試みも知っています。既存の音声認識APIのこのベンチマークと同様に。

私はを認識していアエネア別にイベントを送信するために、1台のコンピュータ上でトンボを経由して音声認識を可能にする、が、それはいくつかの待ち時間のコストがあります。

また、音声認識のためのLinuxオプションを検討している次の2つの講演も承知しています。

2016-The 11th HOPE：Open Source Speech Recognitionによる音声によるコーディング（David Williams-King）
2014-Pycon：Pythonを使用した音声によるコーディング（Tavis Rudd）

software-rec speech-recognition

— フランク・ダーノンクール
ソース

2

あなたが「不満」と思ったものについての詳細は、そうでなければおもしろいが一般的な投稿トピックを進めるかもしれません。たとえば、「ワイン+ドラゴン・ナチュラルリー・スピーキング」の組み合わせで特に不満を感じたのは何ですか？（Windowsエクスペリエンスを再現するのにどのように失敗しましたか？）

— Theophrastus

1

@Theophrastus基本的に、すべてのネイティブLinuxソリューションの精度と使いやすさは劣っています。精度が低いということは、他のプラットフォーム用に述べた音声認識ソフトウェアの精度よりもかなり低い精度を意味します。ワイン+ドラゴンNaturallySpeakingのためとして、私の経験ではそれがクラッシュして、私は残念ながら（そのような問題を持っている唯一の一つであるように思えませんappdb.winehq.org/...）

— フランクDernoncourt

1

私はこれらを試していませんが、誰かが便利だと思った場合に備えて：github.com/Uberi/speech_recognitionとjasperproject.github.ioとgithub.com/benoitfragit/google2ubuntu

— ハトシェプスト

これらのソフトウェアの1つにコマンドラインツールがありますか？xdotool（github.com/jordansissel/xdotool）やxsendkey（github.com/kyoto/sendkeys）のようなキープレスとマウス移動ツールに音声認識を組み合わせることは非常に興味深いでしょう。

— baptx

13

現在、AndroidスマートフォンでGoogle音声認識と組み合わせてKDE Connectを使用して実験しています。

KDE Connectを使用すると、AndroidデバイスをLinuxコンピューターの入力デバイスとして使用できます（他にもいくつかの機能があります）。スマートフォン/タブレットのGoogle PlayストアからKDE接続アプリをインストールし、Linuxコンピューターにkdeconnectとindicator-kdeconnectの両方をインストールする必要があります。Ubuntuシステムの場合、インストールは次のようになります。

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

このインストールの欠点は、KDEデスクトップ環境を使用しない場合は必要ないKDEパッケージがインストールされることです。

Androidデバイスをコンピューターとペアリングすると（同じネットワーク上にある必要があります）、Androidキーボードを使用し、マイクをクリックしてGoogle音声認識を使用できます。話していると、Linuxコンピューターでカーソルがアクティブになっている場所にテキストが表示され始めます。

結果に関しては、私は現在いくつかの技術的な天体物理学のドキュメントを書いているので、それらは少し混同されており、Googleの音声認識はあなたが通常読まない専門用語に苦労しています。また、句読点や適切な大文字使用法を理解することも忘れてください。

— ショックバーナー
ソース

4

現在のところ、LinuxではVoice Notebookのみが機能します。

— アレクセイ
ソース

2

ただし、Chromeブラウザでのみ機能します。

— フランクデルノンクール

3

もう1人のLinuxerが便利な音声読み上げ（ディクテーション）プログラムを探しているので、speechpad.pwを調べました。

母国語を非常によく認識します
速く動作し、非常に信頼性が高い

欠点：

もちろん、それはグーグルのプロプライエタリでクローズドなソフトウェアです
Googleサービスは、あなたが話すすべての単語を聞いて処理し、おそらく保存します
オーディオとテキストは処理され、Googleによって明らかに保存されます
speechpad.pwには、毎月/四半期/年間のサブスクリプション料金が必要です
speechpad.pwは、Google Chromeブラウザーのアドオンとしてのみ実行されます。他のブラウザーはありません

そのため、speechpad.pwは非常にプロプライエタリであり、クローズドソースであり、Googleにもバインドされています。Googleは、眠れないメタデータ、個人情報、個人コンテンツコレクターとして知られています。

音声認識自体は非常にうまく機能しますが、これらの欠点は私にとってノーゴーアプリケーションです。

— も
ソース

おかげで、はい、重大なマイナス面があります。特に、Chromeブラウザーでのみ機能します。

— フランクデルノンクール

1

ChromeでGoogleドキュメントを使用し、[ツール]»[音声入力...]オプションを使用できます。おそらくまったく同じ音声認識ソフトウェアですが、無料です。次に、結果をドキュメントからコピーして、テキストが必要な場所に貼り付けます。

— アレクシスウィルケ

2

Chromeアプリ "VoiceNote II"（http://voicenote.in/）は、私のXubuntu 16.04マシンでうまく機能しています。音声トレーニングは不要で、セットアップは簡単でした。それを見つけるための1回の検索、1回のクリックでインストール、1回のクリックでショートカットを作成し、デスクトップにバインドします。

— Indy Tech Fix
ソース

ありがとう、ただしGoogle Chromeでのみ動作します

— フランクデルノンクール

0

携帯電話やタブレットでdragonを使用してから、テキストを自分にメールで送信することをお勧めします。それはドラッグですが、動作し、非常に正確です。このためにLinuxを使用することを主張する場合、2番目のディスプレイを取得すると、コピーと貼り付けがはるかに簡単になります。

私はこれを試していませんが、タブレット/電話のドラゴンでPython Bluetooth Chatプログラムを使用または適応できるかもしれません。ディクテーション入力をサポートするモバイルデバイス用のリモートキーボードアプリもあります。

私は実験して、より決定的なものであなたに戻ろうとします。

— user273470
ソース

0

KD Connectアプリを使用しています。それは非常に効果的に機能しています！デスクの電話で話している間、モニターに目を向けることができます。唯一の欠点は、これがGoogleキーボードを介して行われていることです。無料、ネイティブ、オープンソースのいずれでもありません。

— ジョシュ・レヴァイン
ソース

-2

あなたは使用することができ、Linuxのアプリケーションでテキストにスピーチを 32または64ビットのLinux用にこのアプリケーションの使用Googleの音声APIとバイナリ統合モジュールを。Ubuntuでspeechpad.pwツールを使用する短いプレゼンテーションを見ることができます。

— パベル・ポポフ
ソース

1

OPは音声読み上げエンジンを探しています。これは、STTエンジンの単なるWeb-UIラッパーです（そして、それが悪いのです）。

— セリン