時間対周波数分解能はよく知られた問題であり、実際にそれを克服するためのアプローチがあります。オーディオ信号の場合、一般的に使用される手法には次のようなものがあります。適応解像度(さまざまな時間/周波数構成で分析し、結果にパッチを当てる-Wen X.およびM. Sandler、「複数のフーリエ変換を使用した複合スペクトログラム」)過剰完了ベースのウェーブレット/分解; 位相情報を使用して、周波数ピーク(IFgram)の正確な位置を抽出します。
ただし、表示したグラフはこれらの手法の一部を使用していないようです。これはあなたが探しているものではないのではないかと思います。横軸に「にじみ」が見られるようになり(たとえば、t = 1.2sの場合)、これは、分析がチャンク間の高いオーバーラップで行われたことの確かな兆候です。
実際、フレームのオーバーラップを許可する場合、チャンクの継続時間と1秒あたりの分析フレームの数を互いにリンクする必要はありません。したがって、40msの分析フレームを使用する場合、グリッドは次のようにする必要はありません。
フレーム1:t = 0..t = 40ms; フレーム2:t = 40ms..t = 80ms
それは非常によくある:
フレーム1:t = 0..t = 40ms; フレーム2:t = 10ms..t = 50ms
このオーバーラップにより、FFTウィンドウサイズをあまり小さくしなくても、時間分解能が高くなるような錯覚を与えることができます。これは時間軸上のイベントを正確に特定するのに役立つだけであることに注意してください-2つのイベントを時間内に解決するのに役立ちません... FFTサイズを増やすのと同じように、周波数ピークの場所を特定するのに役立つかもしれませんが、 2つの隣接する周波数ピークの分解能。