声の音色で人々を区別するライブラリ


7

部屋に3人いるとします。それぞれに独特の声の音色があります。音色で人を見分け、誰が話しているのか知りたい。

回答:


12

長い連続したオーディオ録音を取り、1人のスピーカーだけが話しているチャンクに分割するタスク-各スピーカーの音声特性に関する事前の知識なしで-は、「スピーカーダイアライゼーション」と呼ばれます。研究コードへのリンクはウィキペディアのページにあります

各音声の以前の録音があり、分類をしたい場合、これは少し異なる問題です(話者認識または話者識別)。そのためのソフトウェアツールはこちらから入手できます(SphinxやHTKなどの汎用の音声認識パッケージは、それを行うように調整できるほど柔軟です)。


うわー!そのような広範な答えをありがとう。私はこれをライブで行うことに興味があります。基本的に、いつ、誰が話しているかを検出し、それを別のファイルに書き込むか、またはいつ、誰が話したかをログに書き込むだけです。
ドミトリー

リアルタイムで動作するライブラリを見つけましたか?IBM Watson Speech Recognition APIに出会いましたが、これはオープンソースではありません。
サブルシーカー、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.