ヒストグラムの「ビンサイズ」は、規則性の制約と考えることができますか?


8

ヒストグラムを密度関数の推定値と考える場合、ビンサイズをその関数の局所構造を制約するパラメーターと考えるのが妥当でしょうか。

また、この推論を明確にするためのより良い方法はありますか?


カーネル密度の概算を見ることができると思います
seanv507 2018

回答:


6

はい、これはそれについて考える合理的な方法です(適切なpdfを取得するためにヒストグラムが正規化されていると仮定します)。ビン幅は、密度推定の滑らかさを制約します(ヒストグラムは不連続な関数であるため、大まかに言えば)。これは、より微細な構造をモデル化できる範囲、およびデータのランダムな変動が推定に影響する範囲も制御します。これは、カーネル密度推定におけるカーネル幅、および決定木のリーフサイズを制御するハイパーパラメーターと同様の役割を果たします。

もう少し具体的に言うと、ビンの幅はバイアス分散のトレードオフを制御するハイパーパラメーターです。ビンの幅を小さくすると、より細かい表現が可能になるため、バイアスが減少します。ビンが狭いヒストグラムは、実際の/基になる分布をよりよく近似できる、より豊富なクラスの関数を形成します。ただし、各ビンの高さを推定するために使用できるデータポイントが少ないため、分散が増加します。ビンが狭いヒストグラムは、データのランダムな変動に敏感であり、同じ基礎となる分布から描画されたデータセットにより大きく変化します。ビンの幅が適切であれば、これらの相反する効果のバランスが取られ、基礎となる分布によりよく一致する密度推定が得られます。

詳細については、以下を参照してください。

スコット(1979)。最適なデータベースのヒストグラムについて。

Shalizi(2009)。分布と密度の推定[コースノート]


1

カーネル密度推定量は、ヒストグラムの「連続」バージョンとして合理化されることがよくあります。ノンパラメトリックカーネル推定に関する多くの本でも、ヒストグラムについて説明しています。たとえば、Racine、Jeffrey Sの第2章「ノンパラメトリック計量経済学:入門書」を参照してください。Foundations andTrends®in Econometrics 3.1(2008):1-88。


0

サンプルをビンに入れて行うのはデータの近似であるため、これは妥当です。私の経験では、目標と利用可能なデータに応じて、これらのビンは大幅に異なり、データの処理方法に大きな影響を与える可能性があります。ビンを多くする必要がない場合や、データが不足している場合もあるため、一般的な曲線を見ることができます。反対に、近似が強すぎると、ローカルの最小値や最大値、構造などの詳細を見逃す可能性があります。たとえば、次の関数を使用できます。 ここに画像の説明を入力してください

100と8ビンの履歴を比較しますここに画像の説明を入力してください ここに画像の説明を入力してください

構造の複雑さには明らかな違いがあります。密度関数について話している場合は、もちろん、最初の画像のような極端な値のない、より滑らかな曲線の2番目のオプションを選択する必要があります。
通常、デフォルトを選択する経験として、Freedman–Diaconisルールを使用します。ビンの数、タスクを考慮して調整します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.