適応カーネル密度推定器?


12

誰もが適応カーネル密度推定器の経験について報告できますか?
(多くの同義語があります:適応|変数|可変幅、KDE ​​|ヒストグラム|補間...)

可変カーネル密度推定で は、「サンプル空間の異なる領域でカーネルの幅を変更します。実際には2つの方法があります...」と言います。 multigrid ...
もちろん、単一の方法ですべてを行うことはできませんが、適応的な方法は魅力的に見えます。
たとえば、有限要素法の適応2Dメッシュの見栄えを参照してください 。

実際のデータ、特に2Dまたは3Dで10万個以上の散在するデータポイントに対して、何が機能し、何が機能しなかったかを聞きたいです。

11月2日追加:「塊状」密度(区分的にx ^ 2 * y ^ 2)、最近傍推定値、およびスコット係数のガウスKDEのプロット。1つの例では何も証明されていませんが、NNが鋭い丘に適度にフィットできることを示しています(KD木を使用すると、2d、3dで高速です...) 代替テキスト


「何が機能するのか」またはプロジェクトの特定の目標が何を意味するのか、もう少し詳しく説明してください。空間ポイントプロセスを視覚化するためにそれらを使用しましたが、この質問をするときにあなたが念頭に置いていたことを疑います。
アンディW

回答:


7

n450np4p は、可変カーネル法が固定幅のものと競合するようになる設定としての次元の数です(あなたの質問から判断すると、これらの設定にはありません)。

これらの結果の背後にある直観は、非常にまばらな設定ではない場合、ローカル密度はバイアスのゲインが効率の損失を上回るほど単純に変化しないことです(したがって、可変幅カーネルのAMISEは固定幅のAMISE)。また、大きなサンプルサイズ(および小さな次元)を考えると、固定幅カーネルは既に非常に局所的であり、バイアスの観点からの潜在的なゲインを減少させます。


Kwakに感謝します。「...ガウス分布確率変数の場合」; 「塊状」分布の新しい作品を知っていますか?
denis

@Denis:> 'Clumpy' =?concentrated =?ガウス分布よりも狭いテール?
user603

私は専門家ではありませんが、Langらの論文の「データセットの塊」のように、「高速カーネル密度推定アルゴリズムに関する洞察」、2004年、8p
denis

@Denis:>私はそれが問題を最悪にしていると言うだろう(すなわち、NNカーネルは塊の少ないデータでより良く動作するはずだ)。直感的な説明はありますが、ここには収まりません。さらに、メインボードでこれを別の質問(この質問にリンク)として尋ねて、追加の意見を求めることもできます。
user603


-1

黄土/黄土は基本的に変数KDEメソッドであり、カーネルの幅は最近傍アプローチによって設定されます。データポイントの密度が著しく異なる場合、固定幅モデルよりもはるかに優れていることは確かです。

KDEと多次元データで注意すべきことの1つは、次元の呪いです。他のことは同じで、p〜10の場合、p〜2の場合よりもはるかに少ない設定半径内のポイントがあります。3Dデータしかない場合、これは問題にならないかもしれませんが、留意する必要があります。


3
黄土は、可変カーネルの回帰法です。質問は、可変カーネル密度推定について尋ねました。
ロブハインドマン

おっと、あなたは正しい。質問を読み違えました。
香港大井

@Rob、私の素朴な質問を言い訳してください:カーネル幅の変更が(時々)ローカル回帰/カーネル平滑化に適している場合、なぜ密度推定に悪いのですか?密度推定はf()== density()のf()推定の場合ではありませんか?
デニス

@Hong Ooi、Ndimで何ポイント使用しましたか?ありがとう
デニス

@デニス。いい質問ですね。それをサイトの適切な質問として追加してもらえますか。人々が思いつく答えを見てみましょう。
ロブハインドマン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.