「モデル1」でデータを生成し、「モデル2」でフィッティングしたい。基本的なアイデアは、「モデル2」のロバスト性のプロパティを調査することです。私は、95%信頼区間(正規近似に基づく)のカバレッジレートに特に関心があります。
- 反復実行の数を設定するにはどうすればよいですか?
- 必要な複製よりも大きいと偽のバイアスが発生する可能性があるのは本当ですか?もしそうなら、それはどうですか?
「モデル1」でデータを生成し、「モデル2」でフィッティングしたい。基本的なアイデアは、「モデル2」のロバスト性のプロパティを調査することです。私は、95%信頼区間(正規近似に基づく)のカバレッジレートに特に関心があります。
回答:
フォローアップコメントに基づいて、真の誤差分散が一定でない場合に一定の誤差分散を想定すると、信頼区間のカバレッジ確率を推定しようとしているように聞こえます。
これについて私が考える方法は、実行ごとに信頼区間が真の値をカバーするか、カバーしないかのどちらかです。インジケーター変数を定義します。
次に、関心のあるカバレッジ確率はです。これは、提案しているものであると考えられるサンプルの比率から推定できます。
反復実行の数を設定するにはどうすればよいですか?
ベルヌーイ試行の分散はであり、シミュレーションによってIIDベルヌーイ試行が生成されることがわかっているため、シミュレーションベースの推定の分散は。ここで、はシミュレーションの数。を選択して、この分散を必要なだけ縮小することができます。それは事実である
したがって、分散を事前に指定したしきい値よりも小さくしたい場合は、選択してこれを確認できます。
より一般的な設定では、推定器のサンプリング分布の特性をシミュレーションで調べようとしている場合(たとえば、平均と分散)、類似の方法で達成したい精度に基づいてシミュレーションの数を選択できます。ここに記載されているものにファッション。
また、ここにあるように、変数の平均(またはその他の瞬間)が対象のオブジェクトである場合、正規近似(つまり、中心極限定理)を使用したシミュレーションに基づいて、変数の信頼区間を構築できます。 、MansTのいい答えで議論されたように。この通常の近似は、サンプル数が増えるほど良くなります。そのため、中心極限定理にアピールして信頼区間を構築することを計画している場合は、を適用するのに十分な大きさにする必要があります。バイナリの場合は、ここにあるように、とがかなり中程度、たとえば場合でも、この近似は適切であるように見えます。
必要な複製よりも大きいと偽のバイアスが発生する可能性があるのは本当ですか?もしそうなら、それはどうですか?
コメントで述べたように、これはあなたが偽物によって何を意味するかに依存します。シミュレーションの数が多くても統計的な意味でバイアスは発生しませんが、天文学的に大きなサンプルサイズでのみ顕著である重要でないバイアスが明らかになる場合があります。たとえば、誤って指定された信頼区間の真のカバレッジ確率がます。その場合、これは実際には問題ではありませんが、大量のシミュレーションを実行した場合にのみ、この違いを見つけることができます。
私は、信頼区間の幅を、必要な反復回数を決定するための迅速で汚い方法としてよく使用します。
ましょう「モデル1」からのデータは、「モデル2」に装着された95%信頼区間の真のカバー率も。場合回数信頼区間カバーすることで真のパラメータ値である反復は、。
推定量は、平均と標準偏差ます。大きな、はほぼ正常で、は、約95%の信頼区間を与えます。()がわかっている(ジェスチャーになる)ため、この間隔の幅は約ます。
幅(たとえば)の信頼区間が許容可能であると考える場合、方程式解くことにより、これに必要な反復のおよその数がわかります
このようにして、探している精度を選択することにより、妥当な見つけることができます。
さらに多くのシミュレーションを実行しても(すべてのサンプルがランダムプロセスによって生成されたと想定)、精度やバイアスに関して推定を損なうことはありません。