ウィキペディアは、フリードマンとディアコニスのルールの下で、ヒストグラムのビンの最適な数、は
ここで、はサンプルサイズです。
ただし、nclass.FD
少なくともガウスデータでこのルールを実装するR の関数を見ると、場合、ビンの数はよりも速い速度で増加しているように見えます、に近い(実際には、最適な近似は示唆してい)。この違いの根拠は何ですか?N 1 / 3 N 1 - √ m個≈N0.4
編集:詳細:
ラインはOLSで、切片は0.429、勾配は0.4です。いずれの場合も、データ(x
)は標準のガウスから生成され、に入力されましたnclass.FD
。プロットは、ベクトルのサイズ(長さ)とnclass.FD
関数から返されるクラスの最適数を示しています。
ウィキペディアからの引用:
ビンの数が比例する必要がある理由 は次のとおりです。データが滑らかな密度の有界確率分布のn個の独立した実現として得られると仮定します。次に、nは無限大になる傾向があるので、ヒストグラムは等しく「険しい」ままです。場合分布(例えば、標準偏差またはインター四分位範囲)の»幅«であり、次いで、ビン内のユニット数(周波数)程度であると相対標準誤差は、オーダーであります。次のビンと比較すると、密度の導関数がゼロでない場合、周波数の相対変化は次数です。場合、これら2つは同じ順序です。 S N H / S √のH/SHS/N 1 / 3 KN 1 / 3はの次であるため、は次数になります。
Freedman–Diaconisルールは次のとおりです: