他の100の声から人の声をフィルタリングする方法はありますか？

つまり、人間の声は単一の正弦波ではなく、周波数の異なる無制限の正弦波の集まりではないことを知りました。

ウィキペディアによると、

声は、人間が声のひだを使って話したり、歌ったり、笑ったり、泣いたり、叫んだりして作った音で構成されています。その周波数の範囲は、約60〜7000 Hzです。

したがって、人間の声が複合信号である場合、60Hzから7KHzまでのさまざまな周波数範囲が含まれます。

同じ歌を一緒に歌っている人々のグループがいる場合、各人が独自の声の周波数の範囲を持っていると仮定します。

例えば、

人Aが次の周波数を持っている場合：100Hz、250HZ 6KHz、10Hz、87Hz、52Hz、2KHz .......

また、人物Bには、217Hz1、11Hz、12Hz、2323Hz、839Hz、4KHz、100Hz、10Hz ...があります。

上記の例のように、人Aと人Bの両方で類似している非常に多くの周波数が必要です。周波数100Hzと10Hzは2人の人の間で共通です。

私はテレビ番組名「フリンジ」を見ていました。そこでは、他の人の声もそこに存在している間に、オーディオファイルから特定の男の声を除外しました。

それで、すべての人に共通する周波数が非常に多い場合、人の周波数の振幅で何かをしなければならない場合、彼らは正確にどのようにして数百人の声から誰かの声をフィルタリングしますか？

frequency voice

— スフィヤン・ゴリ
ソース

これを実現する方法はいくつかあります。あなたは彼らがテレビ番組でどのような方法を使用したかについてより多くの詳細を示さなければならないでしょう。

— 内部石

テレビ番組は多くの特殊効果を構成します。これはおそらく別の問題でした。人間はこれを行うことができると考えていますが、多くの無意識の推測が通常その認識に関与していることがわかります。

— hotpaw2 2012年

researcher.watson.ibm.com/researcher/view_project.php?id=2819

— ポールR

回答:

信号が1つのマイクのみを使用して記録されている場合は、スペクトル減算などの方法を使用できます。この方法は、ファンやアイドルエンジンからのノイズのような「一定の」ノイズに適しています。他の方法は、統計と音声の知覚モデルに依存しています。信号が複数のマイクで録音されている場合は、ブラインドソース分離を使用して（音声）信号を分離できます。現在の状態では、完璧な結果は得られません。典型的な最終結果は、常に「ノイズ」と対象の音声信号の明瞭さとの間のトレードオフです。「ノイズ」抑制の増加->目的の信号の劣化の増加。

— dspGuru
ソース

dsp.seへようこそ:)フレンドリーなアドバイスと励ましを提供したいと思います。あなたの最初の答えは良いです、おめでとうございます。あなたがここにもっと参加したいならば、私はあなたに良い答えが作るする方法についていくつかのヒントを与えてみましょう大きなを：彼らは通常のリンクと参照および/または文章や提案方法の説明のうちの2つを含め（と彼らは良いフィットしている理由問題の場合）。優れた回答でも書式設定を最大限に活用できます。リスト、箇条書き、段落、引用があり、見た目が良ければ、読みやすくなります。ここで楽しんでください！

— ペネロペ2012年

私の懸念は何ですか、誰もが同じような頻度を持っていますが、どの頻度が誰のものかを知るにはどうすればよいですか？その背後にある一般的な考えは何ですか？

— Sufiyan Ghori

2人のスピーカーが同時に話している場合、あなたはそれを知ることはできませんが、推測することはできます。周波数分析を行うと、スペクトル全体のすべての周波数がヒットしていることがわかります。特定の周波数のセットを取り出して、これをスピーカー1と別の周波数のセットと言い、これをスピーカー2と言うことはできません。誰がいつ話しているかを判断したい場合は、その判断を行うコードを実装する必要があります。ほとんどの場合、それは話者（つまり、話している人々）のモデルに基づいています。

— dspGuru 2012年

（1あなたのしている興味に比べて）他の人が話しているとき、あなたはその後、音声ミュートに決定を使用し、および/またはいくつかの巧妙なフィルタリングを行うことができます。..

— dspGuru

そうすることができないということですか？

— Sufiyan Ghori

-1

さて、2人が話しているサウンドファイルがあるとします。2人が一斉に話していなかった場合は、話し方の音の要素を分離することができます。彼らのスピーチのノイズ要素（ssssまたはfffffサウンド）を分離するのはよりトリッキーかもしれませんが、再び彼らが一斉に話していなかった場合、それは可能かもしれません。これは、位相情報を失うことなく音のスペクトル分析を実行できれば、はるかに簡単です。

基本的に、スペクトル分析は波形（単一の波または線として鳴る）を取り、すべての個々のトーンを分離して、低から高、左から右にそれらを見ることができるようにします。これを行うと、単一波形の立ち上がりと立ち下がりを示す情報のほとんどが失われます。位相情報を保存できれば、1つの音声のすべての個々のコンポーネント周波数が互いに調和的に関連し、それらの位相が揃うため、これははるかに簡単になります。

現時点では、これを実現するアルゴリズムはわかりませんが、理論的には可能だと思います。私はこれを行う方法に取り組んでいるmelodyneの作成者であるpeterneubäckerに関するいくつかの記事を読んだことを覚えています

— カマルマンズキ
ソース