カーネル密度推定を行うときにエパネニコニコフカーネルが理論的に最適である場合、なぜより一般的に使用されないのですか?


17

カーネル密度の推定を行う場合、少なくとも理論的な意味では、Epanechnikovカーネルが最適であることを(たとえば、ここで)読みました。これが本当なら、なぜガウス分布は密度推定ライブラリでデフォルトのカーネル、または多くの場合唯一のカーネルとして頻繁に表示されるのですか?


2
ここで2つの質問が混同されました:なぜもっと一般的に使用されないのですか?なぜガウスはしばしばデフォルト/唯一のカーネルなのですか?些細に聞こえるかもしれませんが、エパネチニコフという名前は、その言語に堪能でない人々にとっては正確に綴り、発音するのが難しいように思えるかもしれません。(E.がロシア人であるかどうかさえわかりません。伝記の詳細を見つけることができませんでした。)また、もし私が(例えば)重りを見せたら、その鐘の形、有限の幅、販売しやすい。EpanechnikovはStataのデフォルトですkdensity
ニックコックス

3
この理論的な最適性は、実際にはほとんど関係がないと付け加えます。
西安

2
それはおなじみの名前です。有限のサポートを持たないカーネルを使用することが理にかなっている場合は、それを好むべきです。私の経験では、これは意味をなさないので、技術的な選択ではなく社会的な選択に見えます。
ニックコックス

2
@NickCox、はい、Eはロシアの男でした、それは略語ではありません:)彼は謎めいた人でした、これはあなたが彼について見つけることができるすべてです。私はまた、彼の名前を持つ誰かがプログラマブル計算機で書いた非常に有用な本を覚えています。はい、それは当時大きなものでした
Aksakal

1
@amoeba彼はИнститутрадиотехникииэлектроникиРоссийскойАкадемииНаукимで働いていました。Котельникова、私は彼が分類され、研究、フルネームはЕпанечниковВикторАлександровичでやった賭け
Aksakal

回答:


6

Epanechnikovカーネルが理論上の最適性のために普遍的に使用されない理由は、Epanechnikovカーネルが実際に理論的に最適ではないためです。Tsybakovは、ノンパラメトリック推定入門(セクション1.2.4)の16〜19ページで、Epanechnikovカーネルが「理論的に最適」であるという議論を明示的に批判しています。

要約すると、カーネルと固定密度いくつかの仮定の下で、平均積分平方誤差は、Kp

(1)1nhK2(u)du+h44SK2(p(x))2dx.

Tsybakovの主な批判は、非負カーネルに限定することなく、非負であってもより良いパフォーマンスの推定値を取得できることが多いため、非負カーネルを最小化することです。

Epanechnikovカーネルの引数の最初のステップは、をおよびすべての非負カーネル(より広いクラスのすべてのカーネルではなく最小化し、「最適な」帯域幅を取得することから始まります(1)hK

hMISE(K)=(K2nSK2(p)2)1/5

および「最適な」カーネル(Epanechnikov)

K(u)=34(1u2)+

その平均積分二乗誤差は:

hMISE(K)=(15n(p)2)1/5.

ただし、これらは未知の密度知識(を介して)に依存するため、実行可能な選択肢ではありません。したがって、「オラクル」の量です。pp

Tsybakovによって与えられた命題は、Epanechnikov oracleの漸近的MISEは次のことを意味します。

(2)limnn4/5Ep(pnE(x)p(x))2dx=34/551/54((p(x))2dx)1/5.

Tsybakovは、(2)は、多くの場合、最良の達成可能MISEであることを主張したが、その後1注文2(のためのカーネルを使用できることを示していると言いすべてのために、カーネル推定量を構築するために)は、そのようなことをSK=0ε>0

lim supnn4/5Ep(p^n(x)p(x))2dxε.

にもかかわらず、必ずしも非負ないものはまだ、正の部分の推定のために同じ結果を有するすることが保証されています(が非負であっても負でない):p^npn+:=max(0,p^n)K

lim supnn4/5Ep(pn+(x)p(x))2dxε.

したがって、のために十分に小さい、そこに存在する真の推定 Epanechnikovのより小さい漸近MISE持って神託をしても、未知の密度で同じ仮定使用しε p

特に、すべてのカーネル推定量(またはカーネル推定量の正の部分)に対する固定漸近MISEの下限はです。したがって、Epanechnikov oracleは、真の推定量と比較した場合でも、最適であるとは言えません。p0

そもそもエパネチニコフ神託の議論を進めた理由は、密度自体が非負であるため、カーネル自体が非負であるべきだとしばしば主張するからです。しかし、Tsybakovが指摘しているように、非負の密度推定量を得るためにカーネルが非負であると仮定する必要はありません。他のカーネルを許可することで、(1) (2)固定についてp、エパネチニコフ神託よりも勝手に優れている。Tsybakovは、それが固定の面で最適のために主張しても意味がないことを主張するために、この矛盾を使用しだけの上に均一で最適の性質のために、クラスp密度の。彼はまた、MISEの代わりにMSEを使用する場合でも引数が機能することを指摘しています。

編集:系譜1.1も参照してください。p.25では、別の基準に基づいてエパネニコニコカーネルが許容できないことが示されています。Tsybakovは、Epanechnikovカーネルが本当に好きではないようです。


4
+1は興味深い読み物ですが、これはガウスカーネルがエパネチニコフカーネルよりも頻繁に使用される理由には答えません。両方とも負ではありません。
アメーバは、

@amoebaそれは本当です。少なくともこれは、タイトルの質問に答えます。これは、Epanechnikovカーネルに関するものです。(つまり、質問の前提に対処し、それが間違っていることを示しています。)
Chill2Macht

3
(+1)負の可能性のあるカーネル推定の正の部分をとるTsybakovのスキームに注意することの1つ-これは少なくとも彼の提案の私の記憶です-は、結果の密度推定器が真の密度により良いMSE収束を与えるかもしれませんが、密度推定値は一般に有効な密度ではありません(質量を切り捨てており、1に統合されていないため)。あなたがいる場合、実際にのみMSEを気に、それは問題ではありませんが、時にはこれは重大な問題になります。
ドゥーガル

2

ガウスカーネルは、たとえば微分による密度推定で使用されます。

difdxi(x)1bandwidthj=1Ndikdxi(Xj,x)

これは、無限に多くの(非ゼロ)導関数を持つガウスとは異なり、Epanechnikovカーネルにはゼロになる前に3つの導関数があるためです。他の例については、リンクのセクション2.10を参照してください。


2
Epanechnikov(ちなみに2番目のnに注意)カーネルの1次導関数は、関数がカーネル自身の境界を越える場合、連続ではありません。それはもっと問題かもしれません。
-Glen_b-モニカの復活16

@Glen_b:おそらく正しいでしょう。ただし、いくつかの後に派生物が0であるとは愚かにもなります。i
アレックスR.

1
@AlexR。あなたの言うことは本当ですが、なぜガウス分布が通常の密度推定でそれほど一般的であるのかを説明しているのはわかりません(密度の導関数を推定するのではなく)。また、導関数を推定する場合でも、セクション2.10はガウスが決して好ましいカーネルではないことを示唆しています。
ジョンラウザー

@JohnRauser:最適化のためには、高次のEpanechnikovカーネルを使用する必要があることに注意してください。通常、ガウスを使用するのは、作業が簡単で、優れたプロパティがあるためです。
アレックスR.

1
@AlexR「[u]通常人々はガウスを使用する」と口論します。使用頻度に関する体系的なデータはありますか?これはあなたが見た仕事に基づいた単なる印象ですか?私はしばしば重りを見るが、それ以上は主張しない。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.