ベンフォード・ロウのリアルタイムのテスト
で与えられる特定の量データがある。ここで、各数量の最初の桁を取得し、最初の桁の経験分布の関係を調べたいと思いここで、は、最初の数字としての正規化された頻度であり、ベンフォードの法則 今、この論文を読みましたXXXx1,...,xnx1,...,xnx_1,...,x_ndidid_ixixix_ip^=(p^1,...,p^n)p^=(p^1,...,p^n)\hat{p}=(\hat{p}_1,...,\hat{p}_n)pi^pi^\hat{p_i}iiipi=log10(1+1/i)pi=log10(1+1/i) p_i = \log_{10} (1 + 1/i) 最初の桁の経験的頻度とベンフォードの法則を比較することについて。ただし、彼らが言及する方法を使用して、データが特定の頻度(たとえば、1秒あたり50データ)で到着する場合に、ベンフォードの法則をリアルタイムで一定の信頼度で棄却できるかどうかについては触れていません。 これらの方法は、次のようにベンフォードの法則とのリアルタイム比較に適用できると思います:(短い)時間間隔(たとえば、3秒)が与えられた場合、最初の桁の経験的頻度を計算します次に、前述のリファレンスに示されている統計の同時信頼区間と値を計算します(サンプルサイズを確認する必要があります)少なくとも60個のデータのため、統計の分布は、その必要があり、比較的近い漸近分布にすることなので、計算され -値がなければならない信頼できます)。p^=(p^1,...,p^n)p^=(p^1,...,p^n)\hat{p}=(\hat{p}_1,...,\hat{p}_n)pppppp 私の質問は、これは有効な手順ですか?それは意味がありますか?そうでない場合、経験的な最初の桁の分布をベンフォードの法則とリアルタイムで比較するための適切な方法はありますか? 私が目にする1つの潜在的な問題は、最初の数字の基になる分布が、指定された時間枠内で(おそらく1回以上)変化する可能性があることです。これが、最初の桁の基になる分布が変化する可能性を低減しながら、適切なサンプルサイズを確保するために、比較的小さな時間ウィンドウを使用することをお勧めする理由です。