テキストから音声への自然な響き?


86

私は、自然に聞こえるUbuntu用の音声合成ソフトウェアを簡単にインストールできるものを探しています。、などをインストールしましたがFestivalGespeaker自然な音はありません。すべて非常に合成的で理解しにくい。

そこに何か推奨事項はありますか?


回答:


51

SVOX pico2wave

非常にミニマルなTTS、espeakやmbrola(私の頭には)よりも良い音。ここにいくつかの情報。

なぜpico2waveがespeakやmbrolaと比較して議論されることはめったにないのかわかりません。小さいですが、本当にいい音です(自然)。変更しないと、自然な女性の声が聞こえます。

そして... Mbrolaと比較して、Unitsを認識し、正しい方法で話します!
例えば:

  • 2°C→2度
  • 2m→2メートル
  • 2kg→2キログラム

インストール後、スクリプトで使用します。

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

次に、目的のテキストで実行します。

<scriptname>.sh "hello world"

または、ファイル全体の内容を読み取ります。

<scriptname>.sh "$(cat <filename>)"

Ubuntuで軽量で安定したTTSを使用するのは以上です。


1
私が見る限り、入力としてcliパラメーターのみを使用します。ファイル名からテキストを読み取るためにpico2waveを取得する方法はありますか?
カルロスエウジェニオトンプソンピンソン14

13
pico2wavelibttspico-utilsubuntuの最新バージョンのパッケージに含まれています。@CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101

1
@CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=)。このCLIインターフェースは設計が悪いことに同意します。CLIの大多数とは異なり、OSの最大CLI arg lengthに到達することは可能です。
Ciro Santilli新疆改造中心法轮功六四事件

1
@Koen知らない!:-)他の問題と同様に、たとえばecho {1..1000}
Ciro Santilli新疆改造中心法轮功六四事件

1
@ user49557他の人の質問をハイジャックすることは想定されていないので、新しい質問を作成して、インストールした内容と問題点を説明してから、いつでも試すことができます(保証はありませんが、 、私は専門家ではありません:P)
Koen

22

SpeakIt!

「SpeakIt」というGoogle Chrome拡張機能を使用して、最高のTTSソフトウェアを無料で見つけたと思います。これは、Ubuntu上のChromeブラウザーでのみ機能します。何らかの理由でChromiumで動作しません。SpeakItには2つの女性の声が付属しており、どちらも他のすべてのものと比較して非常にリアルに聞こえます。クエリとして「TTS」を使用してChromeウェブストアを検索する場合、Chrome拡張機能には少なくとも4つの男性と女性の声がリストされます。

使用法:Webサイトで使用します。読みたいテキストをハイライトし、「SpeakIt」を右クリックするか、ChromeのトップバーにドッキングされているSpeakItアイコンをクリックします。


Firefoxユーザーには2つのオプションもあります。Firefoxアドオン内でTTS検索すると、「Click Speak」と「Text to Voice」が見つかるはずです。音声はChrome SpeakItの音声ほどではありませんが、間違いなく使用できます。

SpeakIt拡張機能はiSpeechテクノロジーを使用しており、年間20ドルの価格で、サイトはテキストをMP3オーディオファイルに変換できます。テキスト、URL、RSSフィード、TXT、DOC、PDFなどのドキュメントを入力し、MP3に出力できます。ポッドキャストを作成したり、オーディオを埋め込んだりできます。リンクそのオーディオのサンプルを次に示します(リンクの持続時間はわかりません)。


3
残念ながら、PDFファイルではブラウザオプションは機能しません。あなたはそれを見つけましたか?PDFから読み込む段落を選択できるようにしたい(つまり、端末などにビットを貼り付ける必要がない)
ジェームズOwers

1
この拡張機能は、Debian 8.4を使用したChrome 50.0.2661.94で機能します。特に英語の女性の声が好きです。私の唯一の不満は、カンマで一時停止する時間が長すぎることです。
-mulllhausen

多くの場合、単語の発音を間違えたり、独自のシステムを使用するのではなく、テキストを別のサーバーに送信するのに時間がかかります。
ゴダード

14

Picoとespeakは楽しく簡単に仕事に取り掛かることができますが、それほど良いものではありません。デフォルトのフェスティバルの声もあまり良くありません。ただし、Festivalはスキームベースの音声フレームワークであり、多くの研究者がはるかに優れたプラグイン音声を作成しています。これらの音声の1つは既製のパッケージとして利用できるため、ストックUbuntuでpico2waveの品質を簡単に超えることができます。

Festivalを自然な音にするには、次のようにします。

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

-b(または--batch)を使用し、各コマンドを単一引用符で囲むことにより、コマンドラインから実行できます。

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

Nitechリポジトリから他の非常に優れた音声を取得できますが、それらのインストールは細心の注意が必要であり、デフォルトのパスが変更されたため、バンドルされたスキームファイルのファイル名参照を手動で編集して、ストックのUbuntuで動作する必要がある場合があります。


2
ところで、Ubuntu 16.04では、このパッケージが欠落しているようです。Debianからdebをダウンロードしてインストールすると、正常に動作します:packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-slt-hts_0.2010.10 25-2_all.deb
ジョンWatte

13

シンプルなGoogle™TTS

プロジェクトページからの更新(2019-02)このプロジェクトは現在メンテナンスされていないため、近い将来に維持されます


より良い代替手段がないため、Google翻訳を介してTTSを提供するMichal Fapsoのperlスクリプトと連動するbashスクリプト作成しました。プロジェクトの説明から:

その意図は、Googleの音声合成システムを介してテキスト音声出力への使いやすいインターフェースを提供することです。pico2waveを使用するフォールバックオプションは、インターネット接続が見つからない場合にTTS合成を自動的に提供します。

現状では、ラッパーは標準入力、プレーンテキストファイル、およびX選択(強調表示されたテキスト)からの読み取りをサポートしています。

主な機能は次のとおりです。

  • Google Translateを介したオンラインTTS合成
  • pico2waveを介したオフラインTTS合成
  • さまざまな言語をサポート
  • CLI、テキストファイル、および強調表示されたテキストから読み取ることができます
  • 固定フォーマットで強調表示されたテキストの読み取りをサポート(PDFファイルなど)

インストールと使用方法はプロジェクトページに記載されています

試してみてよかったです。バグレポートやその他のフィードバックは大歓迎です!


これは私が今まで見た中で最もクールなプロジェクトの一つでなければなりません。ただすごい。😲

5
これはもはや維持されていません。
ゴダード

8

私は、Ubuntuの高品質のテキスト読み上げの高低を確認しました。なにもない。私の声帯は麻痺しているので、Ubuntuビデオに音声指示を追加するためにTTSが必要でした。市販の高品質のLinuxテキスト音声合成ソフトウェアはこちらから入手できます。それは本当に高価です。最終的に、Natural Reader for Windows(UbuntuではWineでは動作しません)を40ドルで購入しました。たぶん、後でLinuxを手に入れるでしょう。


男、そこにあると私はそこに、少なくとも5または6であり、私は私の人生のためのお奨めは、私たちのコミュニティを愛し、今それらのいずれかを見つけることができません先週のようにそれを使用していたが
mchid

Textaloudには、製品をワインの下で動作させるための指示があります。nextup.com/forum/viewtopic.php?t=3349 を参照してください。cepstralにはLinuxポートもあると思います。お気に入りのソフトウェアbalabolkaを動作させることができませんでした。私は主にTTS処理のためにWindows 10をインストールしています。MSデビッドは、ケプストラムデビッドに似ています。あなたは窓10があれば以前の1は無料です
僧須菩提

6

私は、音声に合わせて最適に聞こえるテキストの研究を行っています。以下は、音質の順でトップ5の製品だと思ったもののリストです。これらの製品に関連するほとんどのWebサイトには、独自の判断を下すことができるインタラクティブなデモがあります。

  1. NeoSpeech
  2. iVona
  3. アカペラ
  4. AT&T Natural Voices
  5. CereProc Voices

1
Linuxで利用できるものはありますか?そうは思わない
Mehdi Khademloo

5

フェスティバルでのNitech HTSの声は非常に自然で、私が聞いた他のどの声よりも心地よいと思います。フェスティバルでNitechやその他のサウンドを設定する方法については、このリンク参照してください。これらのボイスを構成するために使用できる良いGUIは見つかりませんでしたが、festival.scmを使用して設定することはできます。その投稿は非常に古いため、「locate festival」コマンドを使用して実際のインストールディレクトリを検索することをお勧めします。


とても良いようです。ここでデモを見つけましたcstr.ed.ac.uk/projects/festival/onlinedemo.html
Iacchus

2
はい、Nitechの声は他のFestivalの声よりも頭と肩です(CMUの声も例外です。CMUの声も非常に良いです)。インストールするのが大変です。Ubunutにはデフォルトのパッケージがあり、cmu_us_slt_arctic_htsと呼ばれ、festvox-us-slt-htsパッケージに入っている優れたCMU音声が1つあります。picoやespeakよりもはるかに優れています!
ジョンワット

5

SVOXツール(pico)をLibreOfficeと組み合わせる:

SVOX(pico)ツールは簡単にインストールでき、Ubuntuで高品質の音声を提供します。インストールしてください:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

「テキストの読み取り」拡張機能をインストールすることにより、LibreOfficeをSVOX(pico)ツールと組み合わせて使用​​し、この優れたTTSソフトウェアの「GUI」を取得できます。

[ ツール]-[アドオン]-[選択範囲の読み取り]でRead Text Extensionのオプション設定します。外部プログラムとして/ usr / bin / pythonを使用します。トークン(PICO_READ_TEXT_PY)を含むコマンドラインオプションを選択します。いくつかのオプションを試してください。

これで、LO Writer、Calc、Impress、Drawでテキストを選択し、ツールバーとして追加されたアイコン(バルーン付きの幸せそうな顔)をクリックするだけで済みます。


4

これは私がpdfや他のテキストファイルのために純粋な自然なスピーチをするためにしたことです(他の解決策は自然ではないか、単に有料サービスです)。これは実際にはクロムまたはクロムを使用する回避策ですが、高速かつ簡単に動作します。

  1. SpeakIt!をインストールしてください!クロムまたはクロムの拡張。
  2. クロムを使用している場合は、PDFビューアーをインストールします(クロムには既に無料でpdfビューアーがあります)。また、クロムの拡張機能設定で[シークレットモードで許可]および[ファイルURLへのアクセスを許可]オプションをオンにします。
  3. PDFをブラウザにドラッグアンドドロップします。
  4. テキストをハイライトし、右クリックしてSpeakItを選択します!純粋な自然なテキスト読み上げを聞くことができます。

Chromeで.docや.txtなどの他のファイルを開いて同じことを行う方法もあります。pdfファイルを表示するchromeには他にも拡張機能があります。自分に合っているかどうか確認してください。さらに、Googleドライブにあらゆる種類のテキストをアップロードして、SpeakItを使用できます。あなたのためにそれを読むために。「テキストを話す」と呼ばれる別の拡張機能も同じように機能し、自然な音声を持ちます。


Googleドライブに保存されているpdfファイルをSpeakItに読み込ませる方法について詳しく教えてください。
マルコラッコヴィッチ14

2

新しいfirefox 49のナラティブモードで使用するより良いttsエンジンを探しているとき、ピコ tts(svox)-私のお気に入りのTTSエンジンを見つけました。

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

デフォルトの音声合成エンジンシステム全体を変更する方法

arch linuxの人々私を正しい道に導いた:

好きなモジュールのコメントを外し、音声ディスパッチ設定でデフォルトにします。

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

デーモンを再起動します。

# sudo systemctl restart speech-dispatcher.service

ただし、Firefoxを再度起動しても何も起こりません。上記のリンク(archフォーラムの投稿#10および#16)によれば、フェスティバルで動作します(試しませんでした)が、picoの音声ディスパッチャーは利用可能な音声をリストしません。実行されません。

そこにあるアイデアは高く評価されます;-)


1

私のお気に入りの音声合成プログラムはMagic Englishと呼ばれますが、Joe Steigerが述べたNatural Readerのように、それはWindowsプログラムであり、Wineの下で実行されるかどうかはわかりません。

AT&T Natural Voicesはデモとしてオンラインで入手できますが、ソリューションというよりは回避策です。


1

シンプルなGoogle™TTS

Pico、mbrola、cmu、festival、flite、すべて2017年にSUCK(90年代には驚くべきものでした)。AT&Tの自然な音声(素晴らしい)はLinux互換ではなく、無料ではないため、Googleを使用します

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

これは、グルタニメートの回答(そのプロジェクトの作成者)の複製です。また、「状況の更新:このプロジェクトは現在メンテナンスされていないため、近い将来に維持されます。」彼はいくつかの代替案
パブロA

1

gTTS

gTTSGoogle Text-to-Speech)、Google TranslateのText-to-Speech APIとインターフェースするためのPythonライブラリおよびCLIツール。音声mp3データをファイル、さらなるオーディオ操作用のファイルのようなオブジェクト(バイト文字列)、またはに書き込みますstdout

短所:CLIのみ。Googleパブリックオープンエンドポイントにリクエストする必要があるため、オンラインである必要があります。

sudo -H pip install gTTS  # Install

使用法

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

ドキュメントとその他の例

その他

一部はすでに言及されました


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.