声の音色で人々を区別するライブラリ

部屋に3人いるとします。それぞれに独特の声の音色があります。音色で人を見分け、誰が話しているのか知りたい。

audio voice

— ドミトリー
ソース

長い連続したオーディオ録音を取り、1人のスピーカーだけが話しているチャンクに分割するタスク-各スピーカーの音声特性に関する事前の知識なしで-は、「スピーカーダイアライゼーション」と呼ばれます。研究コードへのリンクはウィキペディアのページにあります。

各音声の以前の録音があり、分類をしたい場合、これは少し異なる問題です（話者認識または話者識別）。そのためのソフトウェアツールはこちらから入手できます（SphinxやHTKなどの汎用の音声認識パッケージは、それを行うように調整できるほど柔軟です）。

— ピケネット
ソース

うわー！そのような広範な答えをありがとう。私はこれをライブで行うことに興味があります。基本的に、いつ、誰が話しているかを検出し、それを別のファイルに書き込むか、またはいつ、誰が話したかをログに書き込むだけです。

— ドミトリー

リアルタイムで動作するライブラリを見つけましたか？IBM Watson Speech Recognition APIに出会いましたが、これはオープンソースではありません。

— サブルシーカー、