誰かの声を模倣/コピー/偽造する方法は？

19

サンプル誰かの声に、既存のアプリケーションはありますし、任意の他の音声を調節したり、元の1に似ているために、テキストを合成するためにそれを使うのか？

たとえば、このAT＆Tの音声合成デモでは、サンプリングされた人間の声に基づいていると思われるプリセットから音声と言語を選択できます。

このプロセスをどのように呼びますか？音声変調ですか？音声合成？

modulation voice

— クラパス
ソース

私はあなたが特定の単語のために、十分なトレーニングサンプルを持っていた場合、それは可能かもしれないと思う

— Phorce

研究コミュニティでは、これは「音声変換」と呼ばれます。

— ピケネット

@ user1582478たくさんありますが、どのように進めますか？

— クラパス

友人からの声を作成し、それを音声モーフィングのような電話でライブで作成することはできますか？

これは質問に対する答えを提供しません。投稿者に批評または説明を依頼するには、投稿の下にコメントを残します-自分の投稿にいつでもコメントできます。評価が十分になったら、投稿にコメントできます。

— マットL. 14年

24

最初の注意：リンクしたAT＆Tのシステムのような、最新のテキスト音声合成システムは、連結音声合成を使用します。この手法では、音素の組み合わせが最も多く存在するように選択された、長い文のコレクションを発声する1人の声の録音の大規模なデータベースを使用します。文の合成は、このコーパスからセグメントをつなぎ合わせるだけで実行できます。やりがいのあるビットは、つなぎ合わせをシームレスで表現力豊かにすることです。

この手法を使用してオバマ大統領に恥ずかしい言葉を言わせたい場合、2つの大きなハードルがあります。

ターゲット音声の大量の文章にアクセスできる必要があります。できれば、均一な録音条件と高品質で録音してください。AT＆Tには、同じスタジオで同じスピーカーの何十時間も録音する予算がありますが、わずか5分の録音から誰かの声を偽造するのは難しいでしょう。
記録された原材料が連結音声合成システムで活用される適切な「フォーマット」になる前に、かなりの量の手動調整と前処理があります。

これが可能な解決策であるというあなたの直感は有効です-これらの2つの問題に取り組むための予算があれば。

幸いなことに、より少ない監視とより少ないデータで機能する他の手法があります。録音から1つの音声を「偽造」または「模倣」することに関心のある音声合成の分野は、音声変換として知られています。センテンス1を発声するターゲットスピーカーAの録音A1とセンテンス2を発声するソーススピーカーBの録音B2があります彼/彼女の声でターゲットスピーカーと同じ発声。

音声変換システムの概要は次のとおりです。

オーディオ機能は録音A1から抽出され、音響クラスにクラスター化されます。この段階では、バッグがすべてスピーカーAの「a」、スピーカーAのすべて「o」などになります。これは、真の音声認識よりもはるかに単純で大まかな操作であることに注意してください。正しく形成された単語を認識する-そして、どのバッグに「o」が含まれ、どのバッグに「a」が含まれているかさえわからない-各バッグに同じ音の複数のインスタンスがあることがわかります。
同じプロセスがB2に適用されます。
A1とB2の音響クラスが揃っています。バッグの類推を続けると、これはステップ1と2のバッグをペアリングするのと同じです。したがって、スピーカーAからこのバッグにあるすべての音は、スピーカーBからそのバッグにある音に対応するはずです。手順2でB1を使用すると、はるかに簡単になります。
マッピング関数は、バッグの各ペアに対して推定されます。このバッグにはスピーカーAからの音が含まれており、スピーカーBが同じ音を発していることがわかっているため、それらを対応させる操作（特徴ベクトルの行列乗算など）を見つけることができます。つまり、スピーカー2の "o"をスピーカー1の "o"のように鳴らす方法がわかりました。
この段階では、音声変換を実行するためのすべてのカードが手元にあります。B2の録音の各スライスから、ステップ2の結果を使用して、対応する音響クラスを見つけます。次に、ステップ4で推定したマッピング関数を使用して、スライスを変換します。

これは、B2で音声認識を実行し、A1の音声をコーパスとして使用してTTSを実行するよりもはるかに低いレベルで動作するという事実を主張します。

ステップ1と2にはさまざまな統計手法が使用されます。GMMまたはVQが最も一般的な手法です。パート2にはさまざまなアライメントアルゴリズムが使用されます。これは最も難しいパートであり、A1対B1よりもA1対B1の方が明らかに簡単です。より単純な場合、動的タイムワーピングなどのメソッドを使用して位置合わせを行うことができます。ステップ4に関して、最も一般的な変換は、特徴ベクトルの線形変換（行列乗算）です。より複雑な変換はより現実的な模倣になりますが、最適なマッピングを見つけるための回帰問題は解決するのがより複雑です。最後に、ステップ5に関しては、再合成の品質は使用される機能によって制限されます。一般に、LPCは単純な変換方法で処理する方が簡単です（信号フレームを取得->残差とLPCスペクトルを推定->必要に応じてピッチシフト残差-> 変更されたLPCスペクトルを変更された残差に適用します）。ここで重要なのは、時間ドメインに逆戻りして、韻律と音素を適切に分離できる音声表現を使用することです。最後に、同じ文を発声したスピーカーAとBの整列した録音にアクセスできる場合、1つのモデル推定手順でステップ1、2、3、4に同時に取り組む統計モデルがあります。

後で参考文献に戻ってくるかもしれませんが、問題とその解決に使用される全体的なフレームワークについて感じ始めるのに非常に良い場所は、Stylianou、Moulines、Cappéの「確率的分類と調和に基づく音声変換のためのシステムプラスノイズモデル」。

私の知る限り、音声変換を実行するソフトウェアは広くありません-ピッチや声道の長さパラメータ（IRCAM TRAXトランスなど）のようなソースボイスのプロパティを変更するソフトウェアのみです。ターゲットの音声に近い音を録音します。

— ピケネット
ソース

素晴らしい答え！おそらくバッグの類推なしにそれを理解することができなかったでしょう...この後の非常に明確な説明の後、私が理解していないことが一つだけあります。どうもありがとうございました。

— クラパス

AとBが異なる言語を話す場合は別です（別の言語のTTSが自分の声で再生される音声変換の不思議なアプリケーションがあります！）。または、AとBが両方とも有名な人物であり、公開されているすべての録音で十分に長い共通の文を見つけられない場合、および自分の言語を話さずに自分の声の録音を使用できない場合2つの間の「橋」。

— -pichenettes

そうですか。再び@pichenettesに感謝します。Stylianou et al。からの上記の本を見てみましょう。乾杯

— クラパス

使用した頭字語へのリンクで回答を更新してください。たとえば、LPC、VQ、GMM。

— aaronsnoswell

aaronsnoswellからのコメントに応えて：LCP：線形予測コーディング、VQ：ベクトル量子化、GMM：ガウス混合モデル。これらの頭字語の単なる拡張がそれぞれが複雑なアイデアであるため、大いに役立つことは明らかではありませんが、（おおよそ）各アイデアは既存のサンプルのセットからのpstまたは将来のデータのモデリングまたは説明に関連します。

— GregD

2

MorphVoxのようなものを使用できます。これがデモンストレーションです。このプロセスは、音声モーフィングまたは変換と呼ばれます。技術的な側面に興味がある場合、最近学習できる記事は、動的カーネルの部分最小二乗回帰を使用した音声変換です。

— エムレ
ソース

ダークベイダーの声は仲間を揺さぶる、それは面白かった。まあ、私は前に同様の効果を見てきました。ありがとう

— クラパス

1

私は同じことを探していますが、それはできません。スコットランドには音声モデリングを行うCereProcという会社がありますが、ラボで何時間も音声を録音する必要があり、単一の音声をモデリングするコストは約3万ドルです。

— ジム
ソース

0

探しているものはボコーダーと呼ばれます。

Audcityのボコーダーを試しましたか？Audacityは、http：//audacity.sourceforge.net/downloadからダウンロードできます。使用方法のデモはhttps://www.youtube.com/watch?v=J_rPEmJfwNsにあります。

— SpeedCoder5
ソース

1

ボコーディングは、1つのオーディオ録音（通常は音声）のスペクトルエンベロープを適用して、別のサウンド（通常は生の変調されていないシンセサイザーサウンド）をフィルター処理することで構成されます。誰かの声を偽造することはできません。

— ピクネット

はい、Audacityは知っていますが、ボコーダーは試しませんでした。録音された音声のエンベロープにしかホワイトノイズを適用できないと思います。ありがとう

— クラパス