ベンフォード・ロウのリアルタイムのテスト


7

で与えられる特定の量データがある。ここで、各数量の最初の桁を取得し、最初の桁の経験分布の関係を調べたいと思いここで、は、最初の数字としての正規化された頻度であり、ベンフォードの法則 今、この論文を読みましたXx1,...,xndixip^=(p^1,...,p^n)pi^i

pi=log10(1+1/i)
最初の桁の経験的頻度とベンフォードの法則を比較することについて。ただし、彼らが言及する方法を使用して、データが特定の頻度(たとえば、1秒あたり50データ)で到着する場合に、ベンフォードの法則をリアルタイムで一定の信頼度で棄却できるかどうかについては触れていません。

これらの方法は、次のようにベンフォードの法則とのリアルタイム比較に適用できると思います:(短い)時間間隔(たとえば、3秒)が与えられた場合、最初の桁の経験的頻度を計算します次に、前述のリファレンスに示されている統計の同時信頼区間と値を計算します(サンプルサイズを確認する必要があります)少なくとも60個のデータのため、統計の分布は、その必要があり、比較的近い漸近分布にすることなので、計算され -値がなければならない信頼できます)。p^=(p^1,...,p^n)pp

私の質問は、これは有効な手順ですか?それは意味がありますか?そうでない場合、経験的な最初の桁の分布をベンフォードの法則とリアルタイムで比較するための適切な方法はありますか?

私が目にする1つの潜在的な問題は、最初の数字の基になる分布が、指定された時間枠内で(おそらく1回以上)変化する可能性があることです。これが、最初の桁の基になる分布が変化する可能性を低減しながら、適切なサンプルサイズを確保するために、比較的小さな時間ウィンドウを使用することをお勧めする理由です。


3
+1よい質問ですが、提案された手順は無効です。信頼区間は、順次テストには使用できません。彼らはあまりにも多くの誤警報を出します。
whuber

@whuberありがとう!同じ理由で、この場合も適合度テストは無効になると私は主張します。
Nate River、

はい、そうだと思います。
whuber

1
私の最初の直感は、ある種のベイジアンアプローチが最も自然だと思いますか?例えば。Jean BaptisteEugèneEstienneは、ベイジアンテクニックを使用して、弾薬のバッチをテストしながらカートリッジの無駄を減らしました。カートリッジの無駄が少なくなると、問題の時間は短くなります。
Matthew Gunn 2016

逐次分析の探索には、シリアルテストの問題に関連する価値があるかもしれません。
Glen_b-モニカを復活させる

回答:


0

サンブリッジら (2010)時系列データのベンフォードの法則への適合性を評価する方法の概要を説明します。ユースケースは少し異なりますが、うまくいくかもしれません。

それらの方法は、基本的に説明したとおりに機能します。データを観測ウィンドウにグループ化し、各ウィンドウの適合をテストします。この方法は他の記事で同じ著者によって使用(および公開)されているため、少なくとも数回の査読に合格するには十分な音です。

それらには独自の適合度測定がありますが、ベンフォードの分析で通常機能する測定を使用できなかった理由はわかりません。メジャーに、選択したウィンドウまたはサンプルサイズに対して適切なプロパティがあることを確認する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.