サンプル誰かの声に、既存のアプリケーションはありますし、任意の他の音声を調節したり、元の1に似ているために、テキストを合成するためにそれを使うのか?
たとえば、このAT&Tの音声合成デモでは、サンプリングされた人間の声に基づいていると思われるプリセットから音声と言語を選択できます。
このプロセスをどのように呼びますか?音声変調ですか?音声合成?
サンプル誰かの声に、既存のアプリケーションはありますし、任意の他の音声を調節したり、元の1に似ているために、テキストを合成するためにそれを使うのか?
たとえば、このAT&Tの音声合成デモでは、サンプリングされた人間の声に基づいていると思われるプリセットから音声と言語を選択できます。
このプロセスをどのように呼びますか?音声変調ですか?音声合成?
回答:
最初の注意:リンクしたAT&Tのシステムのような、最新のテキスト音声合成システムは、連結音声合成を使用します。この手法では、音素の組み合わせが最も多く存在するように選択された、長い文のコレクションを発声する1人の声の録音の大規模なデータベースを使用します。文の合成は、このコーパスからセグメントをつなぎ合わせるだけで実行できます。やりがいのあるビットは、つなぎ合わせをシームレスで表現力豊かにすることです。
この手法を使用してオバマ大統領に恥ずかしい言葉を言わせたい場合、2つの大きなハードルがあります。
これが可能な解決策であるというあなたの直感は有効です-これらの2つの問題に取り組むための予算があれば。
幸いなことに、より少ない監視とより少ないデータで機能する他の手法があります。録音から1つの音声を「偽造」または「模倣」することに関心のある音声合成の分野は、音声変換として知られています。センテンス1を発声するターゲットスピーカーAの録音A1とセンテンス2を発声するソーススピーカーBの録音B2があります彼/彼女の声でターゲットスピーカーと同じ発声。
音声変換システムの概要は次のとおりです。
これは、B2で音声認識を実行し、A1の音声をコーパスとして使用してTTSを実行するよりもはるかに低いレベルで動作するという事実を主張します。
ステップ1と2にはさまざまな統計手法が使用されます。GMMまたはVQが最も一般的な手法です。パート2にはさまざまなアライメントアルゴリズムが使用されます。これは最も難しいパートであり、A1対B1よりもA1対B1の方が明らかに簡単です。より単純な場合、動的タイムワーピングなどのメソッドを使用して位置合わせを行うことができます。ステップ4に関して、最も一般的な変換は、特徴ベクトルの線形変換(行列乗算)です。より複雑な変換はより現実的な模倣になりますが、最適なマッピングを見つけるための回帰問題は解決するのがより複雑です。最後に、ステップ5に関しては、再合成の品質は使用される機能によって制限されます。一般に、LPCは単純な変換方法で処理する方が簡単です(信号フレームを取得->残差とLPCスペクトルを推定->必要に応じてピッチシフト残差-> 変更されたLPCスペクトルを変更された残差に適用します)。ここで重要なのは、時間ドメインに逆戻りして、韻律と音素を適切に分離できる音声表現を使用することです。最後に、同じ文を発声したスピーカーAとBの整列した録音にアクセスできる場合、1つのモデル推定手順でステップ1、2、3、4に同時に取り組む統計モデルがあります。
後で参考文献に戻ってくるかもしれませんが、問題とその解決に使用される全体的なフレームワークについて感じ始めるのに非常に良い場所は、Stylianou、Moulines、Cappéの「確率的分類と調和に基づく音声変換のためのシステムプラスノイズモデル」。
私の知る限り、音声変換を実行するソフトウェアは広くありません-ピッチや声道の長さパラメータ(IRCAM TRAXトランスなど)のようなソースボイスのプロパティを変更するソフトウェアのみです。ターゲットの音声に近い音を録音します。
探しているものはボコーダーと呼ばれます。
Audcityのボコーダーを試しましたか?Audacityは、http://audacity.sourceforge.net/downloadからダウンロードできます。使用方法のデモはhttps://www.youtube.com/watch?v=J_rPEmJfwNsにあります。