Freedman–Diaconisルールによるヒストグラムのビンの最適な数:理論上のレートと実際の数の差


8

ウィキペディア、フリードマンとディアコニスのルールの下で、ヒストグラムのビンの最適な数、はk

kn1/3

ここで、はサンプルサイズです。n

ただし、nclass.FD少なくともガウスデータでこのルールを実装するR の関数を見ると、場合、ビンの数はよりも速い速度で増加しているように見えます、に近い(実際には、最適な近似は示唆してい)。この違いの根拠は何ですか?N 1 / 3 N 1 - log(n)(8,16)n1/3 m個N0.4n11/3mn0.4


編集:詳細:

ここに画像の説明を入力してください

ラインはOLSで、切片は0.429、勾配は0.4です。いずれの場合も、データ(x)は標準のガウスから生成され、に入力されましたnclass.FD。プロットは、ベクトルのサイズ(長さ)とnclass.FD関数から返されるクラスの最適数を示しています。

ウィキペディアからの引用:

ビンの数が比例する必要がある理由 は次のとおりです。データが滑らかな密度の有界確率分布のn個の独立した実現として得られると仮定します。次に、nは無限大になる傾向があるので、ヒストグラムは等しく「険しい」ままです。場合分布(例えば、標準偏差またはインター四分位範囲)の»幅«であり、次いで、ビン内のユニット数(周波数)程度であると相対標準誤差は、オーダーであります。次のビンと比較すると、密度の導関数がゼロでない場合、周波数の相対変化は次数です。場合、これら2つは同じ順序です。 S N H / S n1/3snh/sのH/SHS/N 1 / 3 KN 1 / 3s/(nh)h/shはの次であるため、は次数になります。s/n1/3kn1/3

Freedman–Diaconisルールは次のとおりです:

h=2IQR(x)n1/3

ビン番号はに比例することを思い出してください。n1/3
Nick Cox

1
私が文献をチェックするのはその日は遅いですが、あなたの公式は私と一緒にベルを鳴らしません。
Nick Cox

確かに、これらは合理的な経験則に過ぎず、したがって、矛盾は理論的に重要ではありません。それ以上のものはありますか?
Michael Lew 2015年

1
あなたはプロットしていません。(切り上げプロットしているようです。データセットを定数値に標準化しない限り、このプロットは範囲の変化を変化と混同しています(おそらくIQRはかなり安定しています)。それで、このプロットを生成するために正確に何をしていますか?K = 範囲  N 1 / 3 /2  IQR レンジ/ IQR Khk=Range n1/3/(2 IQR)Range/IQRk
whuber

2
@whuber:はい、それが違いの原因になっているようです。範囲の増加に合わせて調整するのを忘れていました。
user603 2015年

回答:


8

その理由は、ヒストグラム関数がすべてのデータを含むことが期待されるため、データの範囲にまたがる必要があるという事実に由来します。

Freedman-Diaconisルールは、ビンのの式を提供します。

この関数は、ビンのの式を提供します。

ビンの数とビンの幅の関係は、データの範囲によって影響を受けます。

ガウスデータでは、期待される範囲はとともに増加します。n

これが関数です:

> nclass.FD
function (x) 
{
    h <- stats::IQR(x)
    if (h == 0) 
        h <- stats::mad(x, constant = 2)
    if (h > 0) 
        ceiling(diff(range(x))/(2 * h * length(x)^(-1/3)))
    else 1L
}
<bytecode: 0x086e6938>
<environment: namespace:grDevices>

diff(range(x)) データの範囲です。

ご覧のとおり、データの範囲をビン幅のFD数式で除算して(切り上げて)ビンの数を取得します。

私はもっ​​とはっきりしているように思えたので、ここでより詳細な説明を示します
。実際のFreedman-Diaconisルールは、ビンの数のルールではなく、ビンの幅のルールです。彼らの分析によれば、ビンの幅は比例するはずです。ヒストグラムの合計幅はサンプル範囲と密接に関連している必要があるため(適切な数値に切り上げられるため、少し広い可能性があります)、予想される範囲はとともに変化するため、ビンの数は、ビン幅ですが、それよりも速く増加する必要があります。したがって、ビンの数はように増加するべきではありません-それに近づきますが、範囲が入る方法のために少し速くなります。 N N 1 / 3n1/3nn1/3

ティペットの1925のテーブル[1]からのデータを見ると、標準正規試料中の予想レンジはと非常にゆっくりと成長しているようだ遅くにもより-かかわらず、:ログn nlog(n)

ここに画像の説明を入力してください

(確かに、アメーバは、以下のコメントで、に比例する必要があると指摘しています。これは、質問の分析が示唆するよりもゆっくりと成長します。これは、他の問題が発生しましたが、この範囲の影響でデータが完全に説明されるかどうかは調査していません。)log(n)

ティペットの数(n = 1000まで)をざっと見てみると、ガウスの予想範囲は、でと線形に非常に近いことがが、この範囲の値では実際には比例しない。 10N1000年log(n)10n1000

ここに画像の説明を入力してください

[1]:LHCティペット(1925)。「極度の個人および正常な人口から取られるサンプルの範囲で」。Biometrika 17(3/4):364–387


1
いいえ、違います。詳細を追加しました。
Glen_b-2015

1
実際のFreedman-Diaconisルールは、ビンの数のルールではなく、ビンの幅のルールです。彼らの分析によれば、ビンの幅は比例するはずです。ヒストグラムの合計幅はサンプル範囲と密接に関連している必要があるため(適切な数値に切り上げられるため、少し広い場合があります)、予想される範囲はとともに変化するため、ビンの数は、ビン幅。したがって、ビンの数はように増加するべきではありません -範囲が入る方法のために、少なくともそれほど大きくはありません。 N N 1 / 3n1/3nn1/3
Glen_b-モニカを2015

3
質問でウィキペディアから引用した推論は、サンプル範囲の影響を考慮していません。
Glen_b-2015

1
これで解決すると思います。
user603 2015年

2
このmath.SEポストを正しく適用すると、範囲はように大きくなり。log(n)
amoeba 2015年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.