密度推定はどこで役立ちますか?


13

少し簡潔な数学を経て、カーネル密度の推定について少し直感が得られたと思います。しかし、3つを超える変数の多変量密度を推定することは、その推定量の統計的性質の観点から、良いアイデアではないかもしれないことも認識しています。

それでは、たとえば、ノンパラメトリック法を使用して、二変量密度をどのような状況で推定する必要がありますか?3つ以上の変数の推定を心配するのに十分な価値がありますか?

多変量密度の推定の適用に関するいくつかの有用なリンクを指すことができれば、それは素晴らしいことです。

回答:


15

密度推定のアプリケーションの典型的なケースの1つは、ノベルティ検出(別名外れ値検出)です。ここでは、1つのタイプのデータのみ(またはほとんど)を持っているが、非常にまれで質的に異なるデータに興味があり、それらの一般的なケース。

例としては、不正検出、システムの障害の検出などがあります。これらは、興味のある種​​類のデータを収集するのが非常に困難および/または高価な状況です。これらのまれなケース、つまり発生する可能性の低いケース。

ほとんどの場合、正確な分布を正確に推定するのではなく、相対的なオッズ(特定のサンプルが実際の外れ値であるか、そうでないか)に関心があります。

このトピックに関する多数のチュートリアルとレビューがあります。これは最初から良いものかもしれません。

編集:一部の人々にとっては、外れ値の検出に密度推定を使用すると奇妙に思えます。まず、1つのことに同意しましょう。誰かが混合モデルを自分のデータに当てはめると、実際に密度推定を実行していることになります。混合モデルは、確率の分布を表します。

kNNとGMMは実際には関連しています。これらは、このような確率密度を推定する2つの方法です。これは、ノベルティ検出の多くのアプローチの根底にある考え方です。例えば、この1は kNNs、これに基づいて、他の1(紙の開始時に、この非常に考えを強調)パーゼンの窓に基づいて、多くの他のもの

すべてではないにしても、ほとんどがこのアイデアに取り組んでいるように思えます(しかし、それは私の個人的な認識です)。異常/まれなイベントのアイデアを他にどのように表現しますか?


概説したメモセット(セクション6、「密度ベースのアプローチ」)には、外れ値の検出に対する非常に難解な(主題に関する平均ストリームや静かな発展した文献からは程遠い)アプローチが概説されています。確かに、より一般的なアプリケーションが存在する必要があります。
user603 14

2
申し訳ありませんが、あなたのコメントはわかりません。2つの非常に基本的な例は、kNNとGMMです。これら2つの方法は、確率密度の推定値を提供し、そのような場合に使用できます。
jpmuc 14

ありがとう。GMMとは何ですか?kNNは異常値検出の平均ストリーム手法ではないと思います。その文脈で使用されている堅牢な統計に関する最近の教科書を参照できますか?(外れ値の検出に関連するスライドセットの論文を見て、会議の議事録または古い本のいずれかであるようです)
user603 14

GMM =ガウス混合モデル。スライドでは、kNNに基づくスコアを参照しています。私は個人的にSVMをノベルティ検出に使用しました。残念ながら、具体的な教科書はお勧めできません。たぶん、これらのメモ(stats.ox.ac.uk/pub/StatMeth/Robust.pdf)で十分です。
jpmuc

1
@ user603に強く同意します。密度推定は、一見すると、外れ値を見つけようとする非常に奇妙で間接的な方法です。あなたの答えは、それが実際にどのように適用されるのか、そしてなぜそれがうまくいくと思うのかを要約することによって強化されます。
ニックコックス14

4

バツ

fhバツバツexpバツバツTΣ1バツバツ
Σ1バツ

4

通常、KDEはヒストグラムの代替として宣伝されています。この文脈において、ヒストグラムに対するKDEの主な利点は、手順の視覚的出力に対する任意に選択されたパラメーターの影響を軽減することです。特に、(上記のリンクに示されているように)KDEでは、ユーザーが開始点と終了点を指定する必要はありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.