平均を推定するために必要なサンプル数の動的計算


9

私はサンプリングを介して多かれ少なかれガウス分布の平均を推定しようとしています。その平均や分散についての予備知識はありません。各サンプルの入手には費用がかかります。特定のレベルの信頼性/精度を得るために必要なサンプル数を動的に決定するにはどうすればよいですか?または、サンプルの採取をいつ停止できるかを知るにはどうすればよいですか?

私が見つけることができるこのような質問へのすべての回答は、差異についてのある程度の知識を推定しているように見えますが、私は途中でそれも発見する必要があります。他の人は投票を取ることを目的としており、それが一般化する方法は私(初心者)にははっきりしていません。

これはおそらくよく知られている答えのある簡単な質問だと思いますが、私のGoogle-fuは私を失敗させています。何を検索すればいいのか教えてもらえると助かります。


これをCWとしてマークした理由は何ですか?質問は、1つの正しい回答を可能にするのに十分具体的であるように思われるため、CWであってはなりません。

1
@josh元気です。私はあなたの選択に興味がありました。

1
Googleの「アダプティブサンプリング」と「シーケンシャルサンプリング」。それでも行き詰まっている場合は、キーワードとして「ウォルド」を含めてから、歴史的に前進してください(つまり、連続サンプリングに関するウォルドの研究を参照する論文を見て、次にそれらを参照する論文を見るなど)。
whuber

1
@Robby McKilliam:しかし、どのデータを使用しますか?この質問は、データが収集される前に発生します。値を1つずつ収集し、新しい値がデータセットに追加されるたびにCIを計算する場合、相関関係のある複数の比較を行っているため、間隔に標準の式を使用できません。したがって、推定量の統計的リスクと追加の各サンプルを収集するコストの合計を最適化する停止ルールが必要です。
whuber

1
@whuberありがとう!私はまだ素材を消化していますが、これはまさに私が探しているものだと思います。これが答えであれば、私はそれを受け入れます...
Josh Bleecher Snyder

回答:


2

「ベイジアンアダプティブデザイン」を検索する必要があります。基本的な考え方は次のとおりです。

  1. 対象のパラメータの事前を初期化します。

    データを収集する前に、事前分布が拡散されます。追加のデータが入ってくると、「事前+その時点までのデータ」に対応する事後になるように事前を再設定します。

  2. データを収集します。

  3. データ+事前分布に基づいて事後を計算します。その後、実際に追加のデータを収集する場合、事後はステップ1の事前として使用されます。

  4. 停止基準が満たされているかどうかを評価する

    ±ε

次に、ステップ4の停止基準が満たされるまで、ステップ1、2、3を繰り返します。


0

通常、少なくとも30で中心極限定理を呼び出す必要があります(ただし、これは多少恣意的です)。二項分布を使用してモデル化された世論調査などの場合とは異なり、ガウス過程で精度のレベルを保証するサンプルサイズを事前に決定することはできません。これは、標準誤差を決定する残差に依存します。

堅牢なサンプリング戦略がある場合、貧弱な戦略でサンプルサイズを大きくするよりもはるかに正確な結果が得られることに注意してください。


3
既知の(または想定される)ガウス分布からサンプリングするときに、なぜCLTを呼び出す必要があるのでしょうか。1つのサンプルでも平均は正規分布になります!
whuber

いい視点ね!RTQが適切に行われませんでした。
ジェームズ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.