Linux用のまともな音声認識ソフトウェアはありますか?


49

質問の短縮版:Linuxで実行され、まともな精度と使いやすさを備えた音声認識ソフトウェアを探しています。ライセンスと価格は問題ありません。テキストを口述できるようにしたいので、音声コマンドに限定されるべきではありません。


詳細:

私は満足して次のことを試しました:

上記のネイティブLinuxソリューションはすべて、精度と使いやすさの両方が劣っています(または、一部はフリーテキストのディクテーションを許可せず、音声コマンドのみを許可しています)。精度が低いということは、他のプラットフォーム用に以下で言及した音声認識ソフトウェアの精度よりもかなり低い精度を意味します。Wine + Dragon NaturallySpeakingに関しては、私の経験ではクラッシュし続けており、残念ながらそのような問題を抱えているのは私だけではないようです。

Microsoft WindowsではDragon NaturallySpeakingを使用し、Apple Mac OS XIではApple DictationとDragonDictateを使用し、AndroidではGoogle音声認識を使用し、iOSでは組み込みのApple音声認識を使用します。

Baidu Researchは昨日、トーチで実装されたConnectionist Temporal Classificationを使用した音声認識ライブラリのコードをリリースしました。以下のスクリーンショットに示すように、Gigaomのベンチマークは勇気づけられますが、かなりのコーディング(および大きなトレーニングデータセット)なしで使用できるようにするための適切なラッパーを認識していません。

ここに画像の説明を入力してください

アルファ版のオープンソースプロジェクトがいくつかあります。

芸術の現状と音声認識に関する最近の結果(書誌)を追跡しようとするこの試みも知っています。既存の音声認識APIのこのベンチマークと同様に。


私はを認識してい アエネア別にイベントを送信するために、1台のコンピュータ上でトンボを経由して音声認識を可能にする、が、それはいくつかの待ち時間のコストがあります。

ここに画像の説明を入力してください

また、音声認識のためのLinuxオプションを検討している次の2つの講演も承知しています。


2
あなたが「不満」と思ったものについての詳細は、そうでなければおもしろいが一般的な投稿トピックを進めるかもしれません。たとえば、「ワイン+ドラゴン・ナチュラルリー・スピーキング」の組み合わせで特に不満を感じたのは何ですか?(Windowsエクスペリエンスを再現するのにどのように失敗しましたか?)
Theophrastus

1
@Theophrastus基本的に、すべてのネイティブLinuxソリューションの精度と使いやすさは劣っています。精度が低いということは、他のプラットフォーム用に述べた音声認識ソフトウェアの精度よりもかなり低い精度を意味します。ワイン+ドラゴンNaturallySpeakingのためとして、私の経験ではそれがクラッシュして、私は残念ながら(そのような問題を持っている唯一の一つであるように思えませんappdb.winehq.org/...
フランクDernoncourt

1
私はこれらを試していませんが、誰かが便利思った場合に備えて:github.com/Uberi/speech_recognitionjasperproject.github.iogithub.com/benoitfragit/google2ubuntu
ハトシェプスト

これらのソフトウェアの1つにコマンドラインツールがありますか?xdotool(github.com/jordansissel/xdotool)やxsendkey(github.com/kyoto/sendkeys)のようなキープレスとマウス移動ツールに音声認識を組み合わせることは非常に興味深いでしょう。
baptx

回答:


13

現在、AndroidスマートフォンでGoogle音声認識と組み合わせてKDE Con​​nectを使用して実験しています。

KDE Con​​nectを使用すると、AndroidデバイスをLinuxコンピューターの入力デバイスとして使用できます(他にもいくつかの機能があります)。スマートフォン/タブレットのGoogle PlayストアからKDE接続アプリをインストールし、Linuxコンピューターにk​​deconnectとindicator-kdeconnectの両方をインストールする必要があります。Ubuntuシステムの場合、インストールは次のようになります。

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

このインストールの欠点は、KDEデスクトップ環境を使用しない場合は必要ないKDEパッケージがインストールされることです。

Androidデバイスをコンピューターとペアリングすると(同じネットワーク上にある必要があります)、Androidキーボードを使用し、マイクをクリックしてGoogle音声認識を使用できます。話していると、Linuxコンピューターでカーソルがアクティブになっている場所にテキストが表示され始めます。

結果に関しては、私は現在いくつかの技術的な天体物理学のドキュメントを書いているので、それらは少し混同されており、Googleの音声認識はあなたが通常読まない専門用語に苦労しています。また、句読点や適切な大文字使用法を理解することも忘れてください。

ここに画像の説明を入力してください

ここに画像の説明を入力してください



3

もう1人のLinuxerが便利な音声読み上げ(ディクテーション)プログラムを探しているので、speechpad.pwを調べました。

  • 母国語を非常によく認識します
  • 速く動作し、非常に信頼性が高い

欠点:

  • もちろん、それはグーグルのプロプライエタリでクローズドなソフトウェアです
  • Googleサービスは、あなたが話すすべての単語を聞いて処理し、おそらく保存します
  • オーディオとテキストは処理され、Googleによって明らかに保存されます
  • speechpad.pwには、毎月/四半期/年間のサブスクリプション料金が必要です
  • speechpad.pwは、Google Chromeブラウザーのアドオンとしてのみ実行されます。他のブラウザーはありません

そのため、speechpad.pwは非常にプロプライエタリであり、クローズドソースであり、Googleにもバインドされています。Googleは、眠れないメタデータ、個人情報、個人コンテンツコレクターとして知られています。

音声認識自体は非常にうまく機能しますが、これらの欠点は私にとってノーゴーアプリケーションです。


おかげで、はい、重大なマイナス面があります。特に、Chromeブラウザーでのみ機能します。
フランクデルノンクール

1
ChromeでGoogleドキュメントを使用し、[ツール]»[音声入力...]オプションを使用できます。おそらくまったく同じ音声認識ソフトウェアですが、無料です。次に、結果をドキュメントからコピーして、テキストが必要な場所に貼り付けます。
アレクシスウィルケ

2

Chromeアプリ "VoiceNote II"(http://voicenote.in/)は、私のXubuntu 16.04マシンでうまく機能しています。音声トレーニングは不要で、セットアップは簡単でした。それを見つけるための1回の検索、1回のクリックでインストール、1回のクリックでショートカットを作成し、デスクトップにバインドします。


ありがとう、ただしGoogle Chromeでのみ動作します
フランクデルノンクール

0

携帯電話やタブレットでdragonを使用してから、テキストを自分にメールで送信することをお勧めします。それはドラッグですが、動作し、非常に正確です。このためにLinuxを使用することを主張する場合、2番目のディスプレイを取得すると、コピーと貼り付けがはるかに簡単になります。

私はこれを試していませんが、タブレット/電話のドラゴンでPython Bluetooth Chatプログラムを使用または適応できるかもしれません。ディクテーション入力をサポートするモバイルデバイス用のリモートキーボードアプリもあります。

私は実験して、より決定的なものであなたに戻ろうとします。


0

KD Connectアプリを使用しています。それは非常に効果的に機能しています!デスクの電話で話している間、モニターに目を向けることができます。唯一の欠点は、これがGoogleキーボードを介して行われていることです。無料、ネイティブ、オープンソースのいずれでもありません。


-2

あなたは使用することができ、Linuxのアプリケーションでテキストにスピーチを 32または64ビットのLinux用にこのアプリケーションの使用Googleの音声APIとバイナリ統合モジュールを。Ubuntuでspeechpad.pwツール使用する短いプレゼンテーションを見ることができます。


1
OPは音声読み上げエンジンを探しています。これ、STTエンジンの単なるWeb-UIラッパーです(そして、それが悪いのです)。
セリン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.