母音のARモデルに使用する入力は何ですか?


8

母音の2秒の発音を録音しました。信号の最初の0.12秒程度を以下に示します。

これで、この信号を圧縮するための自己回帰(AR)8次モデルを構築しました。(実際には、160個のサンプルまたは一度に0.02秒をモデル化しているだけです。)arMatlabのSystem Identification Toolboxの関数は、「最適な」スペクトルフィットのパラメーターを推定できます。

私の問題は、モデルフィルターへの確率的入力を選択することです。ホワイトノイズより良いものがあると思います。周期性(0.02秒あたり14周期)は、同じ周期のインパルス列が適切だと思います。

もしそうなら、どのように振幅を選択し、どのように周期性を見つけますか?ACFとPSDの推定はかなりうるさいです。私は正しい軌道に乗っていますか?

ここに画像の説明を入力してください


1
参考までに、私はその信号エネルギー(時間領域で測定)が記録された信号と同じになるようにインパルストレインをスケーリングすることになりました。
Andreas

回答:


5

ピッチ推定器は、音声の周期性を見つけるために一般的に使用されます。一般的なピッチ推定器には、ケプストラム/ケプストラム分析、高調波積スペクトル、およびYAAPTなどの複合アルゴリズムが含まれます


ありがとう。インパルスの振幅をどのように選択すればよいですか?
Andreas

4

あなたの最善の策は、このペーパーで説明されている「YIN」ピッチ検出器であると思います:http : //audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf。それはかなりシンプルで、非常によく機能します。彼らはそれを段階的に提示するか、以前のアイデアを改善し、最初の数ステップを実装するだけで十分です。

実際に使用されているほとんどのピッチ検出器は、自己相関に関連しています。ほとんどのピッチ検出アルゴリズムの最大の問題は、オクターブエラーの問題です。これは、低いピッチまたは高いピッチを検出することです。自己相関関数にノイズが多いと言うのは興味深いことです。整数の倍数にピークがあり、基本周波数の約数にノイズがたくさんあるはずです。うまくいけば、基本周波数に対応するピッチラグが最大値になりますが、多くの場合、サブオクターブになります(信号が完全に周期的ではないため)、またはより高いオクターブになります(強いフォルマントが原因で、ハーモニクスは本当に大音量です)。可能な限り最も低いピッチ周期の約2倍のウィンドウサイズをお勧めします。

その信号はまた、非常に低い周波数成分を持っているように見えます-スピーチは通常そのように上下に振れません。たとえば、50 dB程度の24 dB / octハイパスフィルターで処理することをお勧めします。


皆さんのおかげで、これらのピッチ検出器をチェックします。周期を推定するときに、インパルストレインに適切な振幅を見つけるにはどうすればよいですか?
Andreas
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.