ヒストグラムの詳細がノイズではないが、興味深いまたは重要な微細構造であると疑われる場合は常に、多数のビン、たとえばすべての可能な値のビンを使用するのが良いケースがあります。
これは、この質問の正確な動機に直接関係しておらず、いくつかの最適な数のビンの自動化ルールが必要ですが、質問全体に関連しています。
すぐに例を見てみましょう。人口統計学では、報告された年齢の四捨五入が一般的ですが、特に識字能力が限られている国だけではありません。起こり得ることは、多くの人々が正確な生年月日を知らないか、または過小評価または過大に社会的または個人的な理由があることです。軍の歴史には、軍隊での勤務を避けるため、またはサービスを求めるために、年齢について嘘をつく人々の例がたくさんあります。実際、多くの読者は、たとえ国勢調査に嘘をついていなくても、年齢について非常に恥ずかしがり屋であるか、そうでなければまったく真実ではない誰かを知っています。正味の結果は異なりますが、すでに暗示されているように、通常は丸められます。たとえば、0と5で終わる年齢は、1年未満またはそれ以上の年齢よりもはるかに一般的です。
∘⋯
ちなみに、報告されたデータの最後の桁を調べることは、偽造データをチェックする簡単で優れた方法です。ベンフォードの法則に訴える現在の流行の最初の桁を精査するよりもはるかに理解しやすく、問題も少なくなります。
ヒストグラムの効果は明確になりました。スパイクのようなプレゼンテーションは、この種の微細構造を表示する、またはより一般的にはチェックするのに役立ちます。当然、関心のあるものが何も識別できない場合、グラフはほとんど役に立ちません。
1つの例は、1960年のガーナ国勢調査による年齢の増加を示しています。http: //www.stata.com/manuals13/rspikeplot.pdfを参照してください
最終桁の分布の良いレビューがありました
Preece、DA1981。データの最後の桁の分布。統計学者 30:31-60。
用語に関する注記:変数の個別の値についてよりよく話したいときに、変数の一意の値について書く人もいます。辞書と使用ガイドでは、「一意」とは1回だけ発生することを意味していると説明しています。したがって、人口の明確に報告された年齢は、年単位で0、1、2などになる可能性がありますが、それらの年齢の大多数は1人に固有のものではありません。