シミュレーション研究:反復回数の選択方法?


11

「モデル1」でデータを生成し、「モデル2」でフィッティングしたい。基本的なアイデアは、「モデル2」のロバスト性のプロパティを調査することです。私は、95%信頼区間(正規近似に基づく)のカバレッジレートに特に関心があります。

  • 反復実行の数を設定するにはどうすればよいですか?
  • 必要な複製よりも大きいと偽のバイアスが発生する可能性があるのは本当ですか?もしそうなら、それはどうですか?

「95%信頼区間のカバレッジ率」とはどういう意味ですか?信頼区間が正確または適切な近似区間である場合、それは時間の約95%でパラメーターの真の値をカバーします。
Michael R. Chernick

1
モデル1で生成されたデータに対してモデル2に基づいて信頼区間を生成している場合、これは2つのモデルが関連しており、同じパラメーターのいくつかを含んでいることを示しているようです。もう少し説明してもらえますか?また、2番目の箇条書きで「スプリアス」と言った場合、それは間違っている、または単に重要でないという意味ですか?シミュレーションの数が多くてもバイアスは発生しませんが、小さい数では見られない実用的な重要性がほとんどないバイアスが明らかになる可能性があります。サンプルサイズが非常に大きい。
マクロ

@Michael Chernick:たとえば、標準エラーが小さすぎると、カバー範囲が不足する可能性があります。通常の近似に基づいて信頼区間を使用するよりも、指定するように質問を編集しました。
user7064 2012

@マクロ:「モデル1」は異分散エラー項を含む通常のデータを生成し、「モデル2」は標準線形モデルです。
user7064 2012

回答:


10

フォローアップコメントに基づいて、真の誤差分散が一定でない場合に一定の誤差分散を想定すると、信頼区間のカバレッジ確率を推定しようとしているように聞こえます。

これについて私が考える方法は、実行ごとに信頼区間が真の値をカバーするか、カバーしないかのどちらかです。インジケーター変数を定義します。

Yi={1if the interval covers0if it does not

次に、関心のあるカバレッジ確率はです。これは、提案しているものであると考えられるサンプルの比率から推定できます。E(Yi)=p

反復実行の数を設定するにはどうすればよいですか?

ベルヌーイ試行の分散はであり、シミュレーションによってIIDベルヌーイ試行が生成されることがわかっているため、シミュレーションベースの推定の分散は。ここで、はシミュレーションの数。を選択して、この分散を必要なだけ縮小することができます。それは事実であるp(1p)pp(1p)/nnn

p(1p)/n1/4n

したがって、分散を事前に指定したしきい値よりも小さくしたい場合は、選択してこれを確認できます。δn1/4δ

より一般的な設定では、推定器のサンプリング分布の特性をシミュレーションで調べようとしている場合(たとえば、平均と分散)、類似の方法で達成したい精度に基づいてシミュレーションの数を選択できます。ここに記載されているものにファッション。

また、ここにあるように、変数の平均(またはその他の瞬間)が対象のオブジェクトである場合、正規近似(つまり、中心極限定理)を使用したシミュレーションに基づいて、変数の信頼区間を構築できます。 、MansTのいい答えで議論されたように。この通常の近似は、サンプル数が増えるほど良くなります。そのため、中心極限定理にアピールして信頼区間を構築することを計画している場合は、を適用するのに十分な大きさにする必要があります。バイナリの場合は、ここにあるように、とがかなり中程度、たとえば場合でも、この近似は適切であるように見えます。nnpn(1p)20

必要な複製よりも大きいと偽のバイアスが発生する可能性があるのは本当ですか?もしそうなら、それはどうですか?

コメントで述べたように、これはあなたが偽物によって何を意味するかに依存します。シミュレーションの数が多くても統計的な意味でバイアスは発生しませんが、天文学的に大きなサンプルサイズでのみ顕著である重要でないバイアスが明らかになる場合があります。たとえば、誤って指定された信頼区間の真のカバレッジ確率がます。その場合、これは実際には問題ではありませんが、大量のシミュレーションを実行した場合にのみ、この違いを見つけることができます。94.9999%


10

私は、信頼区間の幅を、必要な反復回数を決定するための迅速で汚い方法としてよく使用します。

ましょう「モデル1」からのデータは、「モデル2」に装着された95%信頼区間の真のカバー率も。場合回数信頼区間カバーすることで真のパラメータ値である反復は、。pXnXBin(n,p)

推定量は、平均と標準偏差ます。大きな、はほぼ正常で、は、約95%の信頼区間を与えます。()がわかっている(ジェスチャーになる)ため、この間隔の幅は約ます。p^=X/npp(1p)/nnp^p^±1.96p^(1p^)/npp0.9521.960.950.05/n

幅(たとえば)の信頼区間が許容可能であると考える場合、方程式解くことにより、これに必要な反復のおよその数がわかります0.1n

0.1=21.960.950.05/n.

このようにして、探している精度を選択することにより、妥当な見つけることができます。n


(+1)非常によく似た回答をほぼ同時に提出したようですが、使用されている異なる言語が役立つ場合があると思います。
マクロ

はい、確かに、私はまだどの回答を受け入れるかわかりません!とにかく、両方に+1!
user7064

1
@マクロ:あなたにも+1。もちろん、ここでは分散と間隔の幅はほぼ同じです。偉大な心は同じように考える-そして私たちの心もそうです。;)
MånsT2012

MånsTアムI @私のCI幅が0.01であるならば、90%のカバー率のために必要な反復回数があろうと仮定する正しい用95%CI?このCIが比率の見積もり用であるとしましょう。私の二項モデルのサンプルサイズ(CIを見つけるための変位値の選択)は、カバレッジ確率にどのように影響しますか?n=(21.650.950.05/0.01)2
2016

0

Population Standard Deviationnd95%d=1.96×Pop.Std.Devnn=(1.96×Pop.Std.Dev)2d2

さらに多くのシミュレーションを実行しても(すべてのサンプルがランダムプロセスによって生成されたと想定)、精度やバイアスに関して推定を損なうことはありません。

95%np(1p)n


4
@Michaelさん、こんにちは。この答えは要点を逃していると思います。OPは、一定の分散を想定しているが真の分散が一定でない場合に、信頼区間のカバレッジプロパティがどのように変更されるかを調査しようとしています。
マクロ

@マクロ:あなたは正しいです。一定の分散を仮定するという問題に固有の回答を回避するために、意図的に質問をより広い文脈に置いています。
user7064 2012

@マクロそれは私が答えた質問の一部ではありませんでした。明らかにそれは後で明らかにされました。また、通常の近似を使用する信頼区間の精度が重要だったようです。これは、どの回答でも対処されていないようです。
Michael R. Chernick 2012

4
@マイケル、はい、知っています-私のポイントはあなた(そして私)が明確化を求めた以上のものでしたが、あなたはあなたの答えを投稿する前に明確化を待たなかったのです。Re:2つ目のコメントです。通常の近似に基づいているかどうかに関係なく、この方法で任意の区間のカバレッジプロパティを調査できます。既存の回答では見逃されている追加すべきことが何かあると思われる場合は、回答を編集して、全員が学習できるようにしてください。
マクロ

@マクロもちろん私はあなたに同意します。私はOPの利益のために私の回答を編集しました。私はあなたがまだ知らない内容には何もないと思います。
Michael R. Chernick 2012
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.