素人の言葉でParzenウィンドウ(カーネル)密度推定を説明できますか?


24

Parzenウィンドウ密度の推定は次のように記述されます。

p(x)=1ni=1n1h2ϕ(xixh)

ここで、ベクトルの要素数であり、ベクトルであり、確率密度であり、パルゼンウィンドウの寸法であり、窓関数です。x p x x h ϕnxp(x)xhϕ

私の質問は:

  1. Parzenウィンドウ関数とガウス関数などの他の密度関数の基本的な違いは何ですか?

  2. の密度を見つける際のウィンドウ関数()の役割は何ですか?xϕx

  3. ウィンドウ関数の代わりに他の密度関数をプラグインできるのはなぜですか?

  4. の密度を見つける際のの役割は何ですか?xhx

回答:


44

Parzenウィンドウ密度推定は、カーネル密度推定の別名です。これは、データから連続密度関数を推定するためのノンパラメトリックな方法です。

一般的な未知の、おそらく連続的な分布からのデータポイントがあると想像してください。与えられたデータから分布を推定することに興味があります。できることの1つは、経験的な分布を見て、それを真の分布と同等のサンプルとして扱うことです。ただし、データが連続している場合は、おそらく各が表示されますx1,,xnfxiポイントはデータセットに一度しか現れないため、これに基づいて、各値の確率は等しいため、データは均一な分布に由来すると結論付けます。うまくいけば、これよりもうまくいくことができます:いくつかの等間隔の間隔でデータをパックし、各間隔に入る値を数えることができます。この方法は、ヒストグラムの推定に基づいています。残念ながら、ヒストグラムを使用すると、連続的な分布ではなく、いくつかのビンになります。したがって、これは大まかな近似にすぎません。

カーネル密度の推定は3番目の選択肢です。主なアイデアは、カーネルと呼ばれる連続分布混合(表記を使用)でを近似し、ポイントを中心とし、スケール(帯域幅)が等しいことです。fK ϕ x i hKϕxih

fh^(x)=1nhi=1nK(xxih)

これを下の図に示します。ここでは、正規分布がカーネルとして使用され、帯域幅異なる値が7つのデータポイント(プロッ​​トの上部のカラフルな線でマーク)の分布を推定するために使用されます。プロット上のカラフルな密度は、ポイントを中心とするカーネルです。ことに注意してくださいある相対的なパラメータは、それの値は常に、あなたのデータに応じて選択されるとの同じ値異なるデータセットに対しても同様の結果が得られない場合があります。Khxihh

同じデータで推定された4つのカーネル密度

カーネルは確率密度関数と見なすことができ、1つに統合する必要があります。また、あり、その後にゼロを中心とするように対称である必要があります。カーネルに関するウィキペディアの記事には、ガウス分布(正規分布)、エパネチニコフ、長方形(均一分布)など、多くの人気のあるカーネルがリストされています。基本的に、これらの要件を満たす分布はすべてカーネルとして使用できます。KK(x)=K(x)

明らかに、最終的な見積もりは、カーネルの選択(ただし、それほどではありません)および帯域幅パラメーターh依存します。次のスレッド カーネル密度推定で帯域幅値を解釈する方法は?帯域幅パラメーターの使用法について詳しく説明します。

これをわかりやすい英語で言うと、ここで想定しているのは、観測ポイントxiは単なるサンプルであり、推定される分布fに従うということです。分布は連続的であるため、xiポイントの近傍付近に未知であるがゼロではない密度があると想定し(近傍はパラメーターhによって定義されます)、カーネルKを使用してそれを考慮します。近隣にあるポイントが多いほど、この領域の周囲に密度が蓄積されるため、fh^全体的な密度が高くなります。結果として得られる関数fh^ポイントx(添え字なし)で密度推定を取得します。これは、未知の密度関数f x )の近似である関数fh^(x)を取得する方法です。f(x)

カーネル密度の良いところは、ヒストグラムのように連続関数ではなく、有効な確率密度が混在しているため、有効な確率密度であることです。多くの場合、これはf近似に近づくことができます。

正規分布としてのカーネル密度と他の密度の違いは、「通常の」密度は数学関数であり、カーネル密度はデータを使用して推定される真の密度の近似値であり、「スタンドアロン」分布ではないことです。

Silverman(1986)とWand and Jones(1995)によるこの主題に関する2つの素晴らしい入門書をお勧めします。


シルバーマン、BW(1986)。統計およびデータ分析のための密度推定。CRC /チャップマン&ホール。

ワンド、MPおよびジョーンズ、MC(1995)。カーネル平滑化。ロンドン:チャップマン&ホール/ CRC。


x

xix

1
@anonymous「平易な英語でこれを言って...」段落の最後にコメントで質問を参照する編集を追加しました。
ティム

4

ϕ

xϕh(xix)xx1=1x2=2σ=1ϕhxN1,1(x)+N2,1(x)2

3)任意の密度関数をウィンドウ関数としてプラグインできます。

h

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.