44.1 kHzでサンプリングされた32秒の音声信号があります。ここで、音声の周波数を示したいと思います。しかし、私はそれを行うための最良の方法が何であるかわからない。フーリエ変換の絶対値を計算することもあれば、パワースペクトル密度を計算することもあります。正しく理解できれば、後者が機能するため、信号を部分に分割し、FFTを部分ごとに実行し、何らかの方法でこれらを合計します。ウィンドウ関数は何らかの形で関与しています。これを少し明確にできますか?DSPは初めてです。
44.1 kHzでサンプリングされた32秒の音声信号があります。ここで、音声の周波数を示したいと思います。しかし、私はそれを行うための最良の方法が何であるかわからない。フーリエ変換の絶対値を計算することもあれば、パワースペクトル密度を計算することもあります。正しく理解できれば、後者が機能するため、信号を部分に分割し、FFTを部分ごとに実行し、何らかの方法でこれらを合計します。ウィンドウ関数は何らかの形で関与しています。これを少し明確にできますか?DSPは初めてです。
回答:
ここで、音声の周波数を示したいと思います。しかし、私はそれを行うための最良の方法が何であるかわからない。フーリエ変換の絶対値を計算することもあれば、パワースペクトル密度を計算することもあります。
分析に物理的な意味を付加する場合は、パワースペクトル密度(PSD)を使用します。これは、これにより各周波数帯域で信号のパワーが簡単に得られるためです。一方、物理的な意味を望まない/気にしたくないが、各バンドのフーリエ振幅が互いにどのように変化するかを知りたい場合は、絶対的な大きさに固執することができます。
正しく理解できれば、後者が機能するため、信号を部分に分割し、FFTを部分ごとに実行し、何らかの方法でこれらを合計します。ウィンドウ関数は何らかの形で関与しています。これを少し明確にできますか?DSPは初めてです。
いいえ、これは真実ではありません。ここで話しているのは、短時間フーリエ変換(STFT)のことです。これは単に時間領域の信号を切り刻み、それを未亡人にし、次にフーリエ変換を行うことです。しかし、一日の終わりには、まだ複雑なマトリックスがあります。絶対絶対値を取ることを選択した場合、絶対絶対値フーリエ変換行列が得られます。絶対値の絶対値を2乗すると、パワースペクトル密度行列が得られます。
音声信号のようなものについて理解する重要なことは、その周波数成分が時変であることです。周波数領域で音声を表現するために、通常、音声のスペクトルが大幅に変化しない(通常10 ms)と想定できる信号の十分に短いウィンドウを使用します。そのため、STFT(多くの場合ウィンドウ間でオーバーラップする)を使用して、連続する各10 msウィンドウのパワースペクトルを計算し、各連続するスペクトルをその特定の時間における音声の周波数成分の「スナップショット」として扱います。多くの場合、連続スペクトルはスペクトログラムなどの3Dプロットにプロットされます、時間はX軸に、周波数はY軸に、大きさは各X、Y位置で偽色またはグレースケールの強度としてプロットされます。