ヒストグラムの間隔の数に上限はありますか?


10

データセットのヒストグラムに適切な数の間隔(ビン)を選択する方法を説明するいくつかの記事と本の抜粋を読んだことがありますが、ポイントの数に基づいて間隔のハード最大数があるかどうか疑問に思っていますデータセット、またはその他の基準。

背景:私が求めているのは、研究論文の手順に基づいてソフトウェアを作成しようとしているためです。手順の1つのステップは、データセットからいくつかのヒストグラムを作成し、特性関数(論文の作成者が定義)に基づいて最適な解像度を選択することです。私の問題は、著者がテストする間隔の数の上限に言及していないことです。(私は何百ものデータセットを分析する必要があり、それぞれに異なる「最適な」数のビンを含めることができます。また、最適な数のビンを選択することが重要なので、手動で結果を見て、適切なものを選択することはできません作業。)

間隔の最大数をデータセットのポイント数に設定するだけでよいでしょうか、それとも統計で一般的に使用される他の基準がありますか?


同じサイズのビン(つまり、同じ間隔のビン)を意味しますか?
アダムRyczkowski

答えは、実装しようとしているアルゴリズムに依存すると思います。その研究論文へのリンクを提供しなければ、質問は不完全だと思います。
アダムRyczkowski

ポイント数は確かに理論上の最大値ですが、それはほとんどヒストグラムではなく、奇妙にフォーマットされたストリッププロットまたはラグプロットになります。
ピーターフロム-モニカの回復

1
実際、ポイント数は実際には最大ではありません。申し訳ありませんが、十分なコーヒーがありませんでした。一部のビンは0になります。たとえば、(途方もなく単純な例の場合)3つのポイント(1.02 2.21および5.92)があるとします。ビンの最大数が本当に必要な場合、それは明らかに3を超えます。おそらく6:1-2、2-3、3-4、4-5および5-6(ダブルビニングを回避するために適切なオープンおよびクローズインターバルを使用)
ピーターフロム-モニカの回復

1
2JJ

回答:


6

厳密な上限はありませんが、一方で、ほとんどの状況では、独自のビンですべての固有の観測値を取得すると、細かいビンは、それ以上伝達することなく、位置をより正確に特定するためにのみ役立ちます。例えばこれらを比較してください:

30ビンのヒストグラム
100ビンのヒストグラム

非常に特殊な状況を除いて、2番目のプロットでは実際的なメリットはなく、最初のプロットではそれほどではありません。データが連続している場合、これはおそらく有効なビンの数をはるかに超えています。

したがって、ほとんどの状況では、それは少なくとも実用的な上限のように見えます-独自のビンでのすべてのユニークな観察。

(あった場合である利点がユニークな観測につき1以上のビンに、あなたはおそらく情報のようなものを得るためにrugplotやジッタストリップチャートをやるべき) -これらのヒストグラムのマージンで行われているもののようなもの:

ヒストグラム付きヒストグラムラグプロット
ストリップチャート付きのヒストグラム

(これらのヒストグラムは、終わり近くにあるこの回答から取得されます


5

ヒストグラムの詳細がノイズではないが、興味深いまたは重要な微細構造であると疑われる場合は常に、多数のビン、たとえばすべての可能な値のビンを使用するのが良いケースがあります。

これは、この質問の正確な動機に直接関係しておらず、いくつかの最適な数のビンの自動化ルールが必要ですが、質問全体に関連しています。

すぐに例を見てみましょう。人口統計学では、報告された年齢の四捨五入が一般的ですが、特に識字能力が限られている国だけではありません。起こり得ることは、多くの人々が正確な生年月日を知らないか、または過小評価または過大に社会的または個人的な理由があることです。軍の歴史には、軍隊での勤務を避けるため、またはサービスを求めるために、年齢について嘘をつく人々の例がたくさんあります。実際、多くの読者は、たとえ国勢調査に嘘をついていなくても、年齢について非常に恥ずかしがり屋であるか、そうでなければまったく真実ではない誰かを知っています。正味の結果は異なりますが、すでに暗示されているように、通常は丸められます。たとえば、0と5で終わる年齢は、1年未満またはそれ以上の年齢よりもはるかに一般的です。

ちなみに、報告されたデータの最後の桁を調べることは、偽造データをチェックする簡単で優れた方法です。ベンフォードの法則に訴える現在の流行の最初の桁を精査するよりもはるかに理解しやすく、問題も少なくなります。

ヒストグラムの効果は明確になりました。スパイクのようなプレゼンテーションは、この種の微細構造を表示する、またはより一般的にはチェックするのに役立ちます。当然、関心のあるものが何も識別できない場合、グラフはほとんど役に立ちません。

1つの例は、1960年のガーナ国勢調査による年齢の増加を示しています。http: //www.stata.com/manuals13/rspikeplot.pdfを参照してください

最終桁の分布の良いレビューがありました

Preece、DA1981。データの最後の桁の分布。統計学者 30:31-60。

用語に関する注記:変数の個別の値についてよりよく話したいときに、変数の一意の値について書く人もいます。辞書と使用ガイドでは、「一意」とは1回だけ発生することを意味していると説明しています。したがって、人口の明確に報告された年齢は、年単位で0、1、2などになる可能性がありますが、それらの年齢の大多数は1人に固有のものではありません。


4

ヒストグラムのビンの数に絶対最大値はありません。プロットされる変数が連続的である場合、引数は無数のカテゴリーに対して作成できます(そして、ヒストグラムは基本的にはラグプロットになります)。

データセットのポイント数が適切な上限ではありません。1と1000の2つの値を含むデータセットについて考えてみます。2つのビンを持つことは適切ではありません。

上限を決定するための2つの実用的な方法は次のとおりです。a)データの基礎となる丸めを決定します。たとえば、データが整数の場合、整数幅のビンを持つことは理にかなっています。b)最大可視解像度(たとえば、プロットに使用できる水平次元のピクセル数)を確認します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.