回答:
はい、これはそれについて考える合理的な方法です(適切なpdfを取得するためにヒストグラムが正規化されていると仮定します)。ビン幅は、密度推定の滑らかさを制約します(ヒストグラムは不連続な関数であるため、大まかに言えば)。これは、より微細な構造をモデル化できる範囲、およびデータのランダムな変動が推定に影響する範囲も制御します。これは、カーネル密度推定におけるカーネル幅、および決定木のリーフサイズを制御するハイパーパラメーターと同様の役割を果たします。
もう少し具体的に言うと、ビンの幅はバイアス分散のトレードオフを制御するハイパーパラメーターです。ビンの幅を小さくすると、より細かい表現が可能になるため、バイアスが減少します。ビンが狭いヒストグラムは、実際の/基になる分布をよりよく近似できる、より豊富なクラスの関数を形成します。ただし、各ビンの高さを推定するために使用できるデータポイントが少ないため、分散が増加します。ビンが狭いヒストグラムは、データのランダムな変動に敏感であり、同じ基礎となる分布から描画されたデータセットにより大きく変化します。ビンの幅が適切であれば、これらの相反する効果のバランスが取られ、基礎となる分布によりよく一致する密度推定が得られます。
詳細については、以下を参照してください。
スコット(1979)。最適なデータベースのヒストグラムについて。
Shalizi(2009)。分布と密度の推定[コースノート]
カーネル密度推定量は、ヒストグラムの「連続」バージョンとして合理化されることがよくあります。ノンパラメトリックカーネル推定に関する多くの本でも、ヒストグラムについて説明しています。たとえば、Racine、Jeffrey Sの第2章「ノンパラメトリック計量経済学:入門書」を参照してください。Foundations andTrends®in Econometrics 3.1(2008):1-88。
サンプルをビンに入れて行うのはデータの近似であるため、これは妥当です。私の経験では、目標と利用可能なデータに応じて、これらのビンは大幅に異なり、データの処理方法に大きな影響を与える可能性があります。ビンを多くする必要がない場合や、データが不足している場合もあるため、一般的な曲線を見ることができます。反対に、近似が強すぎると、ローカルの最小値や最大値、構造などの詳細を見逃す可能性があります。たとえば、次の関数を使用できます。
構造の複雑さには明らかな違いがあります。密度関数について話している場合は、もちろん、最初の画像のような極端な値のない、より滑らかな曲線の2番目のオプションを選択する必要があります。
通常、デフォルトを選択する経験則として、Freedman–Diaconisルールを使用します。ビンの数、タスクを考慮して調整します。