非常に大きなサンプルサイズの適合度


12

カテゴリデータの非常に大きなサンプル(> 1,000,000)を毎日収集し、データ収集のエラーを検出するために、データが日ごとに「著しく」異なるように見えることを確認したい。

適合度テスト(特にG検定)を使用することは、これに適している(しゃれを意図している)と思いました。予想される分布は、前日の分布によって与えられます。

しかし、私のサンプルサイズは非常に大きいため、テストの出力は非常に高く、多くの誤検出が発生します。つまり、ごくわずかな日ごとの変動でも、p値はほぼゼロになります。

最終的に、テスト統計に定数(0.001)を乗算しました。これは、そのレートでデータをサンプリングするという良い解釈があります。この記事はこのアプローチに同意するようです。彼らは言った:

カイ2乗は、約100〜2500人のサンプルで最も信頼性が高い

これについて、より信頼できるコメントを探しています。または、大規模なデータセットで統計テストを実行する場合の誤検知に対する代替ソリューションの可能性があります。


3
いい質問ですね。ただし、アドホックアプローチには客観的にサポートできる基盤はありません。それはパフォーマンスが悪いという意味ではありませんが、より良い手順があることを強く示唆しています。それらを見つけるには、この質問を編集して、識別しようとしているエラーの種類(エラーの大きさ、発生する可能性のある数、および(a)失敗の結果を含む)を説明すると役立ちますエラーの一部を特定し、(b)正しいデータにエラーのフラグを立てます。
whuber

2
数学的な観点から、非常に大きなした適合度検定は完全に問題ありません。対応する帰無仮説があまりおもしろくないというだけです。なぜ「はい/いいえ」の質問ができるのですか? 「いくら」の答えを得る?あなたのケースでは、日常的に、あなたは、すべてのカテゴリの割合の変化を見積もることができ、各間隔自信を追加し、それらが0の周りに事前に定義された許容範囲をヒットしていないかどうかを確認n
マイケル・M

「有意」や「偽陽性」などの用語の使用は、特にテストを正しく実行している場合、それらの用語の統計的意味と矛盾しているようです*。厳密に技術的な意味で使用しない限り、これらの用語は避けることをお勧めします。あなたの基本的な問題は、そうすることがほとんど意味をなさない状況で仮説検定を使用することです。あなたの興味のある質問は何ですか?*(あなたはその変動を許容しない場合は特に、「人口」として前日を使用することは、適切ではない-一般的に、それはちょうど今日のように変数としてです)
Glen_b -Reinstateモニカ

回答:


4

テストは正しい結果を返しています。分布は日々同じではありません。もちろん、これはあなたには役に立ちません。あなたが直面している問題は長い間知られています。参照:統計的テストに関するカールピアソンとRAフィッシャー:自然からの1935年の交換

代わりに、以前のデータ(自分のデータまたは他のデータ)を振り返って、各カテゴリの日々の変化の分布を取得できます。次に、その分布を考慮して、現在の変更が発生する可能性があるかどうかを確認します。データとエラーの種類を知らずに具体的に答えることは困難ですが、このアプローチは問題により適しているようです。


4

先に進み、5%の聖なる牛を殺しましょう。

問題はテストの熱狂的な力の問題であることを(正しく)指摘しました。80%のより伝統的な値のように、より関連性の高い電力に向けて再調整することができます。

  1. 検出する効果のサイズを決定します(例:0.2%シフト)
  2. そうあなたのために良いのに十分であるパワーを決定し、それが取り押さえていないこと(例えば、1β=80%)
  3. ピアソンテストの既存の理論から戻ってテストを実用的にするレベルを決定します。

等しい確率、 5つのカテゴリがあるとします。p1=p2=p3=p4=p5=0.2p+δ/n=(0.198,0.202,0.2,0.2,0.2)n=106δ=(2,+2,0,0,0)k=

λ=jδj2/pj=4/0.2+4/0.2=40
λN(μ=λ+k=44,σ2=2(k+2λ)=168)44+13Φ1(0.8)=44+130.84=54.91χ42
Prob[χ42>54.91]=3.31011

χ2

ただし、nullと代替の両方の近似は、テールではうまく機能しない可能性があることに注意してください。この説明を参照してください。


2

これらの場合、私の教授は、カイ2乗統計に基づいた関連性の尺度であるCramérのVを計算することを提案しました。これにより、強度が得られ、テストが過敏症かどうかを判断するのに役立ちます。ただし、G2テストが返す統計の種類でVを使用できるかどうかはわかりません。

これはVの式でなければなりません:

ϕc=χ2nk1

どこ n 観測の総計であり、 k行数または列数のいずれか少ない方です。または適合度テストのために、kどうやら 行の。


0

1つのアプローチは、より小さなデータブロックで実行することで適合度テストをより意味のあるものにすることです。

ある日からのデータを、たとえばそれぞれ1000サンプルの1000ブロックに分割し、各ブロックに対して個々の適合度テストを実行し、前日からの完全なデータセットによって与えられる予想分布を使用できます。個々のテストの有意水準を、使用していたレベルに保ちます(例:α=0.05)。次に、予想される偽陽性の数からの陽性検査の総数の有意な逸脱を探します(分布に差がないという帰無仮説の下で、陽性検査の総数はパラメーターとともに二項分布しますα)。

分布が同じであると想定できる2日間のデータセットを取得し、どのブロックサイズが正のテストの頻度とほぼ等しいかを確認することにより、使用するのに適したブロックサイズを見つけることができます。 α (つまり、ブロックサイズによって、テストで誤った違いが報告されなくなります)。


このアプローチが「より有意義な」ものになるという意味について詳しく説明していただけますか?
whuber

統計的有意性と現実世界の有意性です。10 ^ 6個のサンプルの代わりに10 ^ 3個のサンプルを使用することにより、単一の検定の検出力が意図的に低下するため、帰無仮説の棄却は大きな不適合に対応する傾向があります。これは、OPが「マイナーな毎日の変動」を気にしないため、単一のテストの結果をより意味のあるものにします。10 ^ 6サンプルの場合、わずかな違いのためにテストは常にH0を拒否する可能性があるため、テスト結果が意味のある情報を表すかどうかは明確ではありません。
CJストーンキング

1
ありがとう:あなたのコメントは、私が本当の根本的な問題だと思うものに関係し始める興味深い重要な問題を提起します。つまり、エラーを検出するためにデータ間の差異をどのように測定する必要があり、どの程度の差異が懸念されるのでしょうか? 答えは状況によっては適切かもしれませんが、データで発生する可能性のある多くの種類のエラーを効果的に検出する可能性は低く、また、使用するデータのサイズブロ​​ックの(自然な)問題も未解決のままです。
whuber

@ whuber、nullとその偏差がデータサイズ不変であるように問題を再定義できますが、質的な表現を求めますか?
ヴァス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.