パラメトリック推定に対するカーネル密度推定の利点


10

パラメトリック推定よりもカーネル密度推定を選択する特別な理由はありますか?私は自分のデータに分布を合わせる方法を学んでいました。この質問が私に来ました。

私のデータサイズは比較的大きく、7500データポイントです。オートクレーム。私の目標は、分布(ノンパラメトリックまたはパラメトリック)に適合させることです。次に、それを使用して自動請求データをシミュレートし、VaRまたはTVaRを計算します。

ログを使用してデータを変換し、比較的正常にした。正規、対数正規、ガンマ、tなどを含む多くの分布をフィッティングしました。AICと対数尤度を使用して、最適なフィッティングを特定しました。しかし、このフィッティングはすべてKSテストに合格しませんでした(p値はe-10で非常に小さい)。

そのため、どのような状況でKDEに切り替えるべきかを尋ねました。


大きなデータセットをパラメトリック分布に合わせるのはかなり難しいように思えます。ヒストグラムとqqplotでフィッティングが非常に良いことがわかりますが、KSテストからは非常に低いp値が得られます。しかし、KDEは本当にこの問題を解決しますか?(私は試しません)
MegaChunk

@MegaChunk AFAIK分布は完全に正規ではないため、KSテストからのp値はあまり有益ではありません。したがって、十分な数のデータポイントがある場合、帰無仮説はほとんど常に拒否されます。
d_ijk_stra

回答:


8

答えの質問は「なぜあなたはデータを分布からのサンプルとしてモデル化するのですか?」です。科学理論を改善したり、科学仮説をテストしたりするときなど、データの背後にある現象について何かを学びたい場合、ノンパラメトリックカーネル推定器を使用しても、データそのものだけではわかりません。パラメータ化されたモデルは、(a)データとモデルが一致するかどうか、および(b)パラメータの可能性のある値は何かをはるかに明確に伝えることができます。したがって、目的に応じて、どちらのアプローチを選択するかが決まります。


6

あるかもしれません。カーネル密度の推定は、ノンパラメトリックなアプローチです。パラメトリック推定では、いくつかのパラメーターに基づく分布のパラメトリックファミリーが想定されている必要があります。モデルがほぼ正しいと考える根拠がある場合は、パラメトリック推論を行うと有利です。一方、データが家族のどのメンバーにもうまく適合しない可能性があります。その場合、データに適度に適合する密度を構築するため、カーネル密度推定を使用することをお勧めします。パラメトリックファミリに関する想定は必要ありません。

この説明は、明確にするために少し単純化しすぎている場合があります。この具体的な例を挙げましょう。パラメトリックファミリーは、2つの未知のパラメーターである平均と分散によって定義される正規分布であるとします。ファミリーのすべての分布は対称的で、中央値と最頻値に等しい平均値を持つベル型です。これで、サンプルは対称的ではないように見え、サンプルの平均はサンプルの中央値と大きく異なります。次に、あなたの仮定が間違っていると考える証拠があります。そのため、データを変換して適切なパラメトリックファミリ(通常は可能)に適合する変換を見つけるか、別のパラメトリックファミリを見つける必要があります。これらの代替パラメトリックアプローチが機能しない場合は、カーネル密度アプローチが代替案として機能します。いくつかの問題があります(1)カーネルの形状、(2)滑らかさのレベルを決定するカーネル帯域幅、および(3)おそらくパラメトリックファミリーに必要なものよりも大きいサンプルサイズ。問題1は、文献では実質的に重要でないことが示されています。問題2は重要です。問題3は、収集できるサンプルの大きさによって異なります。これらの問題は、分布に密度があるという暗黙の仮定と共に存在しますが、これらの仮定は、制限的なパラメトリック仮定よりも受け入れやすい場合があります。問題3は、収集できるサンプルの大きさによって異なります。これらの問題は、分布に密度があるという暗黙の仮定と共に存在しますが、これらの仮定は、制限的なパラメトリック仮定よりも受け入れやすい場合があります。問題3は、収集できるサンプルの大きさによって異なります。これらの問題は、分布に密度があるという暗黙の仮定と共に存在しますが、これらの仮定は、制限的なパラメトリック仮定よりも受け入れやすい場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.