ヒストグラムの「ビンサイズ」は、規則性の制約と考えることができますか？

8

ヒストグラムを密度関数の推定値と考える場合、ビンサイズをその関数の局所構造を制約するパラメーターと考えるのが妥当でしょうか。

また、この推論を明確にするためのより良い方法はありますか？

— ババ
ソース

カーネル密度の概算を見ることができると思います

— seanv507 2018

6

はい、これはそれについて考える合理的な方法です（適切なpdfを取得するためにヒストグラムが正規化されていると仮定します）。ビン幅は、密度推定の滑らかさを制約します（ヒストグラムは不連続な関数であるため、大まかに言えば）。これは、より微細な構造をモデル化できる範囲、およびデータのランダムな変動が推定に影響する範囲も制御します。これは、カーネル密度推定におけるカーネル幅、および決定木のリーフサイズを制御するハイパーパラメーターと同様の役割を果たします。

もう少し具体的に言うと、ビンの幅はバイアス分散のトレードオフを制御するハイパーパラメーターです。ビンの幅を小さくすると、より細かい表現が可能になるため、バイアスが減少します。ビンが狭いヒストグラムは、実際の/基になる分布をよりよく近似できる、より豊富なクラスの関数を形成します。ただし、各ビンの高さを推定するために使用できるデータポイントが少ないため、分散が増加します。ビンが狭いヒストグラムは、データのランダムな変動に敏感であり、同じ基礎となる分布から描画されたデータセットにより大きく変化します。ビンの幅が適切であれば、これらの相反する効果のバランスが取られ、基礎となる分布によりよく一致する密度推定が得られます。

詳細については、以下を参照してください。

スコット（1979）。最適なデータベースのヒストグラムについて。

Shalizi（2009）。分布と密度の推定[コースノート]

— user20160
ソース

1

カーネル密度推定量は、ヒストグラムの「連続」バージョンとして合理化されることがよくあります。ノンパラメトリックカーネル推定に関する多くの本でも、ヒストグラムについて説明しています。たとえば、Racine、Jeffrey Sの第2章「ノンパラメトリック計量経済学：入門書」を参照してください。Foundations andTrends®in Econometrics 3.1（2008）：1-88。

— オットーケッシ
ソース

0

サンプルをビンに入れて行うのはデータの近似であるため、これは妥当です。私の経験では、目標と利用可能なデータに応じて、これらのビンは大幅に異なり、データの処理方法に大きな影響を与える可能性があります。ビンを多くする必要がない場合や、データが不足している場合もあるため、一般的な曲線を見ることができます。反対に、近似が強すぎると、ローカルの最小値や最大値、構造などの詳細を見逃す可能性があります。たとえば、次の関数を使用できます。

100と8ビンの履歴を比較します

構造の複雑さには明らかな違いがあります。密度関数について話している場合は、もちろん、最初の画像のような極端な値のない、より滑らかな曲線の2番目のオプションを選択する必要があります。
通常、デフォルトを選択する経験則として、Freedman–Diaconisルールを使用します。ビンの数、タスクを考慮して調整します。

— リンギニョ
ソース