データテーブルのレコードの正誤を検証するためのサンプルサイズを計算する方法


8

CrossValidatedで既存の回答を読みましたが(オンラインで他の場所でも)、探しているものが見つかりませんが、見逃した場合は既存のソースを参照してください。

N = 1000レコードのデータセットがあるとします。各レコードは手動でサンプリングし、「有効」または「無効」(または真/偽、右/間違っなど)としてラベル付けできます。

データセット内のすべてのレコードが有効であるという一定のレベルの信頼を実現したいと考えています。レコードをサンプリングするときに、無効なレコードが1つ見つかった場合は、戻ってデータセットの作成方法を修正し、その問題と同様の問題を修正します。

したがって、無効なものを特定し、データセットを修正して再作成した後、有効なレコードのみを含むサンプリングを行います。すべてのレコードが有効であることを(たとえば)99%または95%確認したい場合、サンプルはどのくらいの大きさでなければなりませんか?(理想的にはNの関数として。)

私は超幾何テスト(http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test)をいじってみました-そのコンテキストではkが何であるか知りたいのですが、Kの固定値を持っていません。むしろ、KがNに等しくなるようにkを選択したいのですが、K = Nを設定すると、明らかに1の確率になります。ベイジアンアプローチを使用する必要があるかどうかも疑問に思っていますが、ベイジアン統計を十分に理解していません。




ありがとうございました。これら3つはすべて役立つと思います。3番目(特に)は、基本的にはまったく同じシナリオです。私はそれらの応答で何ができるかを見ていきます-3つのルールは非常に役に立ちます!
Stuart J Cuthbertson

どういたしまして。不明な点がある場合は、ここで質問を編集してください。
Scortchi-モニカを回復

あなたはおそらくそれまでにそれを解決したでしょう:しかし、質問は重複としてクローズされておらず、正確な重複ではありません。答えを詳しく説明する価値があると思いました。
Scortchi-モニカの回復

回答:


7

K>0K=0k=0K=1nNk

f(k)=(Kk)(NKnk)(Nn)
=(10)(N1n0)(Nn)
=NnN=p

したがって、有意水準で帰無仮説を棄却するために必要な最小サンプルサイズ(または同等に片側信頼区間を取得するため)は、単純です。npα=1pK=0

n=(1p)N
n=αN

、および、。それが多く思われる場合は、1,000件のレコードすべてが有効であることを厳密な基準と見なしてください。リラックスすることを検討する場合、同じアプローチを使用してとテストすることができます。N=1000α=0.95n=950K>9


これは、リンクされた記事を読んで私が結論付けた方法(つまり、3つのルールを適用すること)とは異なるアプローチです。ただし、これは理にかなっており、実際には3のルールよりも保守的ではありません(合計を正しく行った場合、N = 1000の場合に3000レコードをサンプリングすることをお勧めします)。「統計では、これを確実にする必要がある場合は、基本的にすべてをチェックする必要がある」との一般的な結論は、どちらのアプローチにも当てはまります。
Stuart J Cuthbertson

3の法則は、有限の母集団からの置換なしのサンプリングにのみほぼ適用されることに注意してください。とき。nN
Scortchi-モニカの回復
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.