MP3をテキストに変換する音声認識アプリ?


回答:


21

使用できるソフトウェアはCMUSphinxです。別の回答で提案されているとは異なり、Juliusはモデルを必要とするため適切ではありません。Juliusでは、大規模な語彙音声認識のモデルは利用できません。

pocketsphinxを使用して、オーディオファイルを変換できます。これらの2つのコマンドで作業を行う必要があります。最初にファイルを必要な形式に変換してから、それを認識します。

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

ランポケットスフィンクス

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

結果はresult.txtに保存されます。


また、この回答に加えて、両方のクールなデモがありますspeech recognitionし、voice commandツールはここ:youtube.com/...は
Daithí

システムに音響モデルをどのように追加しますか?
ジャーノ

あなたはそれをダウンロードして解凍するだけで、「システムに追加する」というものはありません
ニコライシュミレフ

@NikolayShmyrev pocketsphinx_continuousが見つけられるようにどこで展開すればいいですか?
ジャーノ

4
さて、Ubuntu 14.04のユニバースリポジトリに、pocketsphinx-utils、pocketsphinx-hmm-en-hub4wsj、およびpocketsphinx-lm-en-hub4パッケージをインストールしました。それからpocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.log働いた。最適なパッケージではないかもしれませんが、リポジトリで見つけることができる最適なパッケージでした。
ジャーノ

12

私はこれが古いことを知っていますが、Nikolayの答えを拡張し、将来誰かを救うことを願っています、最新バージョンのpocketsphinxを動作させるには、githubまたはsourceforgeリポジトリからコンパイルする必要があります(わからないより最新の状態に保たれます)。-j8は、可能であれば8つの独立したジョブを並行して実行することを意味します。より多くのCPUコアがある場合は、数を増やすことができます。

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

その後、から:https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/は、 最新バージョンをダウンロードcmusphinx-en-us-....tar.gzし、en-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

その後、最終的にニコライの答えから手順を進めることができます:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

スフィンクスは大丈夫です。読みやすいバージョンのテキストを作成するためにこれに依存するつもりはありませんが、特定の引用を探している場合は検索できるので十分です。Xapian(http://www.lesbonscomptes.com/recoll/)などのワイルドカードを受け入れ、正確な検索式を必要としない検索アルゴリズムを使用する場合、特にうまく機能します。

お役に立てれば。


4
すべてが魅力のように機能しますが、私の場合は修正するために次のコマンドを実行する必要がありましたpocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

音声をテキストに変換したいのですが、Ubuntu Software Centerを開いてJuliusを検索してみてください

説明

「Julius」は、音声関連の研究者および開発者向けの高性能な2パス大語彙連続音声認識(LVCSR)デコーダーソフトウェアです。

または、ソフトウェアセンターにない別のオプションはSimonです

...は、オープンソースの音声認識プログラムで、マウスとキーボードを置き換えます。

参照リンク

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


1

既存のファイルのトランスクリプションを取得するという質問には答えられないと思いますが、それはクールに見えます。そうは言っても、私はスフィンクスを試してみましたが、それは惨めに失敗しました...転写は99.9%間違っていました。
アレクシスウィルク
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.