人間が群集の中でオーディオを選別できるのはなぜですか?ロボットが同じことをするのに何が必要ですか?


8

私は今日のロボティクス会議に出席していましたが、スピーカーの1人が、人のようにオーディオを選別できないため、群衆の中でロボットが同様に機能できないと述べました。

なぜ人々はオーディオをそれほどうまく選別できるのですか?そしてロボットが同じことをするのに何が必要でしょうか?

私はBose Aviationヘッドセットのようなアクティブノイズリダクション(ANR)を知っていますが、それは私が話していることではありません。すべてを取り入れることのできる能力について考えていますが、重要だと思うものだけを処理します。

回答:


7

会議での講演者の発言は正確ではありませんでした。おそらく、「私たちのロボットは人のように音声を選別することはできない」という意味ですが、「[ロボット]は人のように音声を選別することはできません」という記述は誤りです。

以下は、オーディオ信号のソースを特定して追跡できるシステムの部分的なリストです。

探している用語は、マイクの「フェーズドアレイ」です(Matlabフェーズドアレイツールボックスも参照)。NASAはフェーズドアレイを使用して、回転するローターファンブレードから発生するノイズ特定します


私はそのオーディオクラスを受講してからしばらく経ちましたが、特定の声には、群集の中で独特であると合理的に見なすことができる特性があるはずだと思います。
エリック・レッペン、2013

2
リストに追加するために、Kinect for Windowsセンサーにはマイクアレイがあり、オーディオがどのプレーヤーからのものかを判別するために使用できます。
WildCrustacean 2013

すばらしいです。Kinectからその情報にアクセスする方法に関するリンクはありますか?
Ian

+1。しかし、ロボットは何が重要であるかをリアルタイムで決定し、それに基づいてフィルタリングできますか?あなたのリストには、ロボットが事前に学習できる音しか含まれていないようです。
エイドリアンキースター

もちろん。この手法は、ビームフォーミングと呼ばれます。「重要」と見なされるものについてフィルター可能な基準があると仮定すると、その信号を取得したら、その空間的な場所からの動きを追跡します。
Ian

2

私は少なくとも3つのことが起こっていると思います:

  1. サウンドの発信元の場所に依存するフィルタリング。ステレオヒアリングと耳の作り方の特定の属性を組み合わせることで、特定の場所や方向からの音を分離できます。
  2. オーディオの周波数/振幅に依存するフィルタリング。
  3. オーディオの冗長性により、入力を再構築できます。複数の人がお互いに話している場合(または一般的にノイズの存在下で)、私たちは話されていることの一部をキャッチする(または時々視覚的に観察する)だけで、話されていることを知る必要があります。

ロボットは#1と#2で人間をしのぐことができると思います。マイクロフォンアレイを使用すると、空間内の1点に効果的に集中でき、他のすべての干渉を排除できると思います。これは、反射やその他のさまざまな妨害によってさらに複雑になる可能性があります。#3は、おそらくコンピュータにとって難しいものです。


今夜の秘密の言葉はstereo hearingです。何らかの理由でこの能力を失った人に聞いてください。そのため、プログラム、または2つ以上のマイクを備えたロボットでも、プログラマが入力の処理方法を知っている場合は、この機能を利用できます。
ott-- 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.