カーネル帯域幅:スコットのルールとシルバーマンのルール


14

帯域幅の選択に関するスコットの経験則とシルバーマンの経験則の違いは、誰でもわかりやすい英語で説明できますか?具体的は、一方が他方より優れているのはいつですか?基礎となるディストリビューションに関連していますか?サンプル数?

PS私はSciPyのコードを参照しています


1
私もpythonを知りたくありません。どのルールをいつ使用するのか、そしてその理由を理解するのに役立つだけです。
xrfang 14年

回答:


11

コード内のコメントは、2つを本質的に同一に定義しているように見えます(定数の比較的小さな違いは別として)。

両方の形式はcAn1/5、同じように見えるものの両方A(スケールの推定)、およびcの非常に近い1(最適帯域幅の推定における典型的な不確実性に近い相対)に。

[より通常スコットと関連すると思わbinwdith推定値は、彼の1979年論文の1である[1](3.49sn1/3) -などを見るウィキペディアを -少しダウンスクロール-またはRのをnclass.scott。]

コードが「スコット推定値」と呼ぶものの1.059は、Silvermanによる(以前の)本にあります(リンクのSilverman参照のp45を参照してください。Scottの派生は、参照する本のp130-131にあります)。これは、正常理論の推定に基づいています。

1.059σ

Aσ

以前に提案した理由と同様の理由で、Silvermanは1.059の削減を提案し続けています(実際、彼は本の中でScottが行っているように、実際には1.059ではなく1.06を使用しています)。彼は、通常でIMSEの効率が10%を超えないように値を減らした値を選択します。これは0.9の元です。

したがって、これらの両方のビン幅は、正常時のIMSE最適ビン幅に基づいており、1つは最適値で、もう1つは(約15%小さく、通常の最適値の効率の90%以内に収まります)。[私はそれらの両方を「シルバーマン」の見積もりと呼びます。スコットに1.059という名前を付けた理由がわかりません。]

私の意見では、両方とも大きすぎます。IMSEに最適な密度の推定値を取得するためにヒストグラムを使用しません。それ(IMSEの意味で最適な密度の推定値を取得する)が私がやりたいことだった場合、その目的のためにヒストグラムを使用したくありません。

ヒストグラムはノイズの多い側で誤っている必要があります(目で必要な平滑化を行います)。私は、これらの種類の規則が与えるデフォルトのビンの数をほぼ2倍(またはそれ以上)にします。したがって、1.06や0.9は使用せず、0.5程度の値を使用する傾向がありますが、サンプルサイズが非常に大きい場合はそれよりも少なくなります。

それらの両方を選択することは、ほとんどありません。どちらも、データで何が起こっているのかを見つけるのに使用するにはビンが少なすぎるためです(少なくとも小さなサンプルサイズで、ここを参照してください)

[1]:スコット、DW(1979)、 "最適とに関するデータに基づくヒストグラム、" Biometrika66、605-610。


ここの SciPy文書によると、Scottのルールは次のとおりです:n **(-1./(d+4))。コードを見ると、「scotts_factor」と同じようにルールを誤解していることがわかりました。帯域幅が大きすぎることは間違いありません。帯域幅の数値選択に関する新しい質問を開きます。ありがとう。
xrfang 14年

d=1n1/5Ac

@ Glen_b-ReinstateMonica ここに投稿した質問をご覧ください。大きなサンプルサイズを使用する場合、Silvermanのルールに伴う問題を示します。何が起こっているのか詳細に答えていただけますか?
ユーザー269666
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.