どの変換が人間の聴覚システムに最もよく似ていますか?


12

フーリエ変換は、一般的に音の周波数分析のために使用されています。ただし、音の人間の知覚を分析することになると、いくつかの欠点があります。たとえば、周波数ビンは線形ですが、人間の耳は周波数に線形ではなく対数的に応答します

ウェーブレット変換は、フーリエ変換とは異なり、異なる周波数範囲の解像度を変更できます。プロパティは、ウェーブレット変換より高い周波数のための短い時間的幅を維持しながら、より低い周波数のための大規模な一時的なサポートを可能にします。

ウェーブレットモレット密接に聴力の人間の知覚に関連しています。音楽の転写に適用でき、フーリエ変換技術では不可能な非常に正確な結果を生成します。各音の開始時間と終了時間を明確にしながら、繰り返して交互に繰り返される音符の短いバーストをキャプチャできます。

定Q変換(密接ウェーブレットモレットに関連する)もされてよく演奏データに適しました。変換の出力は対数周波数に対して効果的に振幅/位相であるため、特定の範囲を効果的にカバーするために必要なスペクトルビンが少なくなります。これは、周波数が数オクターブにわたる場合に役立ちます。

この変換では、周波数ビンが高くなると周波数分解能が低下します。これは、聴覚アプリケーションに適しています。これは人間の聴覚システムを反映しており、低周波数ではスペクトル解像度が向上し、高周波数では時間解像度が向上します。

私の質問はこれです:人間の聴覚システムを密接に模倣する他の変換はありますか?解剖学的/神経学的に人間の聴覚系に可能な限り厳密に一致する変換を設計しようとした人はいますか?

たとえば、人間の耳は音の強さに対して対数応答することが知られています。等ラウドネスの等高線は、強度だけでなく、スペクトル成分の周波数の間隔によっても変化することが知られています。多くの重要な帯域のスペクトル成分を含む音は、総音圧が一定のままであっても、より大きな音として知覚されます。

最後に、人間の耳には、周波数に依存する時間分解能が制限されています。おそらくこれも考慮に入れることができます。


「変換」に数学的な制限を課していますか?
オリーニーミタロ

2
すべてのリンクの栄誉!
ジル

単一の変換で、人間の聴覚システムと同じくらい複雑なシステムを適切に模倣することはできません。既存のHAS モデルは、複雑な信号処理アーキテクチャと、それぞれ聴覚の別の側面をモデル化する複数の変換を使用します。ピースごとのモデリングを検討する場合があります。
Fat32

回答:


9

このような変換を設計する際には、競合する利益を考慮する必要があります。

  • 非線形またはカオス的な側面(耳鳴り)を含む、人間の聴覚システムに対する忠実度(人によって異なります)
  • 分析部分の数学的定式化の容易さ
  • 離散化または高速実装を可能にする可能性
  • 適切な安定した逆関数の存在

最近の2つのデザインが私の耳を引きました: 聴覚を動機とするガンマトーンウェーブレット変換、信号処理、2014

連続ウェーブレット変換(CWT)の優れた時間と周波数のローカリゼーションを提供する機能により、信号の時間周波数分析で一般的なツールになりました。ウェーブレットは定数Q特性を示しますが、これは末梢聴覚システムの基底膜フィルターにも備わっています。基底膜フィルターまたは聴覚フィルターは、ガンマトーン関数によってモデル化されることが多く、実験的に決定された応答に対する優れた近似を提供します。これらのフィルターから派生したフィルターバンクは、ガンマトーンフィルターバンクと呼ばれます。一般に、ウェーブレット分析はフィルターバンク分析に例えることができるため、標準のウェーブレット分析とガンマトーンフィルターバンク間の興味深いリンクになります。ただし、ガンマトーン関数は、その時間平均がゼロではないため、ウェーブレットとして正確に適格ではありません。ガンマトーン関数から真正ウェーブレットを構築する方法を示します。許容度、時間帯域幅積、消失モーメントなどのプロパティを分析します。これらは、特にウェーブレットのコンテキストに関連しています。また、提案された聴覚ウェーブレットが、定数係数をもつ線形微分方程式によって支配される線形シフト不変システムのインパルス応答としてどのように生成されるかを示します。提案されたCWTのアナログ回路実装を提案します。また、ガンマトーンから派生したウェーブレットを使用して、過渡信号の特異点検出と時間周波数解析を行う方法も示します。また、提案された聴覚ウェーブレットが、定数係数をもつ線形微分方程式によって支配される線形シフト不変システムのインパルス応答としてどのように生成されるかを示します。提案されたCWTのアナログ回路実装を提案します。また、ガンマトーンから派生したウェーブレットを使用して、過渡信号の特異点検出と時間周波数解析を行う方法も示します。また、提案された聴覚ウェーブレットが、定数係数をもつ線形微分方程式によって支配される線形シフト不変システムのインパルス応答としてどのように生成されるかを示します。提案されたCWTのアナログ回路実装を提案します。また、ガンマトーンから派生したウェーブレットを使用して、過渡信号の特異点検出と時間周波数解析を行う方法も示します。

ERBlet変換:完全な再構成を伴う聴覚ベースの時間周波数表現、ICASSP 2013

この論文では、音信号の知覚的に動機付けられた完全に可逆な時間周波数表現を取得する方法について説明します。フレーム理論と最近の非定常ガボール変換に基づいて、周波数全体で進化する解像度を持つ線形表現が定式化され、不均一フィルタバンクとして実装されます。人間の聴覚の時間周波数分解能に一致させるために、変換では、心理音響「ERB」周波数スケールで等間隔に配置されたガウスウィンドウを使用します。さらに、変換は適応可能な解像度と冗長性を備えています。シミュレーションにより、ERBごとに1つのフィルターと非常に低い冗長性(1.08)を使用しても、高速反復法と事前調整を使用して完全な再構成を実現できることが示されました。

そして、私も言及します:

オーディオ信号処理のための聴覚ベースの変換、WASPAA 2009

このホワイトペーパーでは、聴覚ベースの変換について説明します。分析プロセスにより、変換は時間領域信号をフィルターバンク出力のセットに変換します。フィルターバンクの周波数応答と分布は、ch牛の基底膜の周波数応答と分布に似ています。信号処理は、分解された信号ドメインで実行できます。合成プロセスにより、分解された信号を簡単な計算で元の信号に合成することができます。また、離散時間信号の高速アルゴリズムが、順変換と逆変換の両方に使用されます。変換は理論的に承認され、実験で検証されています。ノイズ低減アプリケーションの例を示します。提案された変換は、バックグラウンドおよび計算ノイズに対してロバストであり、ピッチ高調波がありません。


1
これはまさに私が探していたものです。ありがとうございました。
user76284
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.