実際、ベンフォードの法則は信じられないほど強力な方法です。これは、ベンフォードの最初の桁の頻度分布が、実世界または自然界で発生するあらゆる種類のデータセットに適用できるためです。
特定の状況でのみベンフォードの法則を使用できることは正しいです。あなたは、データが均一なログ分布を持たなければならないと言います。技術的には、これは完全に正しいです。ただし、要件をはるかに単純かつ寛大な方法で説明できます。必要なのは、データセットの範囲が少なくとも1桁以上になることです。たとえば、1から9または10から99または100から999であるとしましょう。2桁を超える場合、ビジネスを展開しています。そして、ベンフォードの法則はかなり役立つはずです。
ベンフォードの法則の利点は、干し草の山のデータ内の針を使って調査を非常に迅速に絞り込むことができることです。最初の桁の周波数がベンフォード周波数とは大きく異なる異常を探します。2つの多くの6があることに気付いたら、ベンフォードの法則を使用して6だけに焦点を合わせます。ただし、最初の2桁(60、61、62、63など)に移動します。今、多分あなたは、ベンフォードが示唆するよりもはるかに多くの63があることに気付くでしょう(ベンフォードの頻度を計算することによってそれをするでしょう:0%に近い値を与えるlog(1 + 1/63))。したがって、最初の3桁にはベンフォードを使用します。予想以上に632が多すぎる(またはベンフォードの頻度を計算することで何でも)(log(1 + 1/632))が見つかるまでに、おそらく何かにたどり着くでしょう。すべての異常が詐欺ではありません。しかし、
マークハウザーが操作したデータセットが、十分に広い関連範囲を持つ自然な制約のないデータである場合、ベンフォードの法則はかなり良い診断ツールになります。起こりそうにないパターンも検出する他の優れた診断ツールがあり、それらをベンフォードの法則と組み合わせることで、おそらくマークハウザーの問題を効果的に調査できたはずです(上記のベンフォードの法則のデータ要件を考慮して)。
ここで見ることができるこの短いプレゼンテーションで、ベンフォードの法則についてもう少し説明します:http :
//www.slideshare.net/gaetanlion/benfords-law-4669483