私は、自然に聞こえるUbuntu用の音声合成ソフトウェアを簡単にインストールできるものを探しています。、などをインストールしましたがFestival
、Gespeaker
自然な音はありません。すべて非常に合成的で理解しにくい。
そこに何か推奨事項はありますか?
私は、自然に聞こえるUbuntu用の音声合成ソフトウェアを簡単にインストールできるものを探しています。、などをインストールしましたがFestival
、Gespeaker
自然な音はありません。すべて非常に合成的で理解しにくい。
そこに何か推奨事項はありますか?
回答:
非常にミニマルなTTS、espeakやmbrola(私の頭には)よりも良い音。ここにいくつかの情報。
なぜpico2waveがespeakやmbrolaと比較して議論されることはめったにないのかわかりません。小さいですが、本当にいい音です(自然)。変更しないと、自然な女性の声が聞こえます。
そして... Mbrolaと比較して、Unitsを認識し、正しい方法で話します!
例えば:
インストール後、スクリプトで使用します。
#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
次に、目的のテキストで実行します。
<scriptname>.sh "hello world"
または、ファイル全体の内容を読み取ります。
<scriptname>.sh "$(cat <filename>)"
Ubuntuで軽量で安定したTTSを使用するのは以上です。
pico2wave
libttspico-utils
ubuntuの最新バージョンのパッケージに含まれています。@CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
pico2wave -w a.wav "$(input.txt)"
=)。このCLIインターフェースは設計が悪いことに同意します。CLIの大多数とは異なり、OSの最大CLI arg lengthに到達することは可能です。
echo {1..1000}
「SpeakIt」というGoogle Chrome拡張機能を使用して、最高のTTSソフトウェアを無料で見つけたと思います。これは、Ubuntu上のChromeブラウザーでのみ機能します。何らかの理由でChromiumで動作しません。SpeakItには2つの女性の声が付属しており、どちらも他のすべてのものと比較して非常にリアルに聞こえます。クエリとして「TTS」を使用してChromeウェブストアを検索する場合、Chrome拡張機能には少なくとも4つの男性と女性の声がリストされます。
使用法:Webサイトで使用します。読みたいテキストをハイライトし、「SpeakIt」を右クリックするか、ChromeのトップバーにドッキングされているSpeakItアイコンをクリックします。
Firefoxユーザーには2つのオプションもあります。Firefoxアドオン内でTTSを検索すると、「Click Speak」と「Text to Voice」が見つかるはずです。音声はChrome SpeakItの音声ほどではありませんが、間違いなく使用できます。
SpeakIt拡張機能はiSpeechテクノロジーを使用しており、年間20ドルの価格で、サイトはテキストをMP3オーディオファイルに変換できます。テキスト、URL、RSSフィード、TXT、DOC、PDFなどのドキュメントを入力し、MP3に出力できます。ポッドキャストを作成したり、オーディオを埋め込んだりできます。リンクとそのオーディオのサンプルを次に示します(リンクの持続時間はわかりません)。
Picoとespeakは楽しく簡単に仕事に取り掛かることができますが、それほど良いものではありません。デフォルトのフェスティバルの声もあまり良くありません。ただし、Festivalはスキームベースの音声フレームワークであり、多くの研究者がはるかに優れたプラグイン音声を作成しています。これらの音声の1つは既製のパッケージとして利用できるため、ストックUbuntuでpico2waveの品質を簡単に超えることができます。
Festivalを自然な音にするには、次のようにします。
sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts)
festival> (SayText "Don't hate me, I'm just doing my job!")
-b
(または--batch
)を使用し、各コマンドを単一引用符で囲むことにより、コマンドラインから実行できます。
festival -b '(voice_cmu_us_slt_arctic_hts)' \
'(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
Nitechリポジトリから他の非常に優れた音声を取得できますが、それらのインストールは細心の注意が必要であり、デフォルトのパスが変更されたため、バンドルされたスキームファイルのファイル名参照を手動で編集して、ストックのUbuntuで動作する必要がある場合があります。
プロジェクトページからの更新(2019-02):このプロジェクトは現在メンテナンスされていないため、近い将来に維持されます
より良い代替手段がないため、Google翻訳を介してTTSを提供するMichal Fapsoのperlスクリプトと連動するbashスクリプトを作成しました。プロジェクトの説明から:
その意図は、Googleの音声合成システムを介してテキスト音声出力への使いやすいインターフェースを提供することです。pico2waveを使用するフォールバックオプションは、インターネット接続が見つからない場合にTTS合成を自動的に提供します。
現状では、ラッパーは標準入力、プレーンテキストファイル、およびX選択(強調表示されたテキスト)からの読み取りをサポートしています。
主な機能は次のとおりです。
インストールと使用方法はプロジェクトページに記載されています。
試してみてよかったです。バグレポートやその他のフィードバックは大歓迎です!
私は、Ubuntuの高品質のテキスト読み上げの高低を確認しました。なにもない。私の声帯は麻痺しているので、Ubuntuビデオに音声指示を追加するためにTTSが必要でした。市販の高品質のLinuxテキスト音声合成ソフトウェアはこちらから入手できます。それは本当に高価です。最終的に、Natural Reader for Windows(UbuntuではWineでは動作しません)を40ドルで購入しました。たぶん、後でLinuxを手に入れるでしょう。
私は、音声に合わせて最適に聞こえるテキストの研究を行っています。以下は、音質の順でトップ5の製品だと思ったもののリストです。これらの製品に関連するほとんどのWebサイトには、独自の判断を下すことができるインタラクティブなデモがあります。
フェスティバルでのNitech HTSの声は非常に自然で、私が聞いた他のどの声よりも心地よいと思います。フェスティバルでNitechやその他のサウンドを設定する方法については、このリンクを参照してください。これらのボイスを構成するために使用できる良いGUIは見つかりませんでしたが、festival.scmを使用して設定することはできます。その投稿は非常に古いため、「locate festival」コマンドを使用して実際のインストールディレクトリを検索することをお勧めします。
SVOXツール(pico)をLibreOfficeと組み合わせる:
SVOX(pico)ツールは簡単にインストールでき、Ubuntuで高品質の音声を提供します。インストールしてください:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
「テキストの読み取り」拡張機能をインストールすることにより、LibreOfficeをSVOX(pico)ツールと組み合わせて使用し、この優れたTTSソフトウェアの「GUI」を取得できます。
[ ツール]-[アドオン]-[選択範囲の読み取り]でRead Text Extensionのオプションを設定します。外部プログラムとして/ usr / bin / pythonを使用します。トークン(PICO_READ_TEXT_PY)を含むコマンドラインオプションを選択します。いくつかのオプションを試してください。
これで、LO Writer、Calc、Impress、Drawでテキストを選択し、ツールバーとして追加されたアイコン(バルーン付きの幸せそうな顔)をクリックするだけで済みます。
これは私がpdfや他のテキストファイルのために純粋な自然なスピーチをするためにしたことです(他の解決策は自然ではないか、単に有料サービスです)。これは実際にはクロムまたはクロムを使用する回避策ですが、高速かつ簡単に動作します。
Chromeで.docや.txtなどの他のファイルを開いて同じことを行う方法もあります。pdfファイルを表示するchromeには他にも拡張機能があります。自分に合っているかどうか確認してください。さらに、Googleドライブにあらゆる種類のテキストをアップロードして、SpeakItを使用できます。あなたのためにそれを読むために。「テキストを話す」と呼ばれる別の拡張機能も同じように機能し、自然な音声を持ちます。
新しいfirefox 49のナラティブモードで使用するより良いttsエンジンを探しているとき、ピコ tts(svox)-私のお気に入りのTTSエンジンを見つけました。
sudo apt install espeak libttspico0 libttspico-data libttspico-utils
デフォルトの音声合成エンジンシステム全体を変更する方法
arch linuxの人々は私を正しい道に導いた:
好きなモジュールのコメントを外し、音声ディスパッチ設定でデフォルトにします。
# sudo vim /etc/speech-dispatcher/speechd.conf
[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak" "sd_espeak" "espeak.conf"
AddModule "pico-generic" "sd_generic" "pico-generic.conf"
[...]
#DefaultModule espeak
DefaultModule pico-generic
デーモンを再起動します。
# sudo systemctl restart speech-dispatcher.service
ただし、Firefoxを再度起動しても何も起こりません。上記のリンク(archフォーラムの投稿#10および#16)によれば、フェスティバルで動作します(試しませんでした)が、picoの音声ディスパッチャーは利用可能な音声をリストしません。実行されません。
そこにあるアイデアは高く評価されます;-)
私のお気に入りの音声合成プログラムはMagic Englishと呼ばれますが、Joe Steigerが述べたNatural Readerのように、それはWindowsプログラムであり、Wineの下で実行されるかどうかはわかりません。
AT&T Natural Voicesはデモとしてオンラインで入手できますが、ソリューションというよりは回避策です。
Pico、mbrola、cmu、festival、flite、すべて2017年にSUCK(90年代には驚くべきものでした)。AT&Tの自然な音声(素晴らしい)はLinux互換ではなく、無料ではないため、Googleを使用します
git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
gTTS(Google Text-to-Speech)、Google TranslateのText-to-Speech APIとインターフェースするためのPythonライブラリおよびCLIツール。音声
mp3
データをファイル、さらなるオーディオ操作用のファイルのようなオブジェクト(バイト文字列)、またはに書き込みますstdout
。
短所:CLIのみ。Googleパブリックオープンエンドポイントにリクエストする必要があるため、オンラインである必要があります。
sudo -H pip install gTTS # Install
使用法
gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
一部はすでに言及されました
模倣する。インストール:
sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check
eSpeak + Gespeaker(GUI)(Gespeakerソースコード)
短所:古くてい
sudo apt install espeak gespeaker
そのために、Google Chromeの拡張機能であるIntelligent Speakerを作成します。選択しなくてもページを読み取ることができます(テキストの保持が正しい場合)。