タグ付けされた質問 「sample-size」

このタグは非常にあいまいです。質問がサンプルサイズに関するもので、[小さいサンプル]、[大きいデータ]、[パワー分析]、[パワー]、[未定]、または[アンバランスクラス]のどれも適切でない場合に使用します。

2
t検定(または順列検定)では、標本サイズの大きな違いと分散の違いが重要ですか?
私の頭の中では非常に混乱する質問があります。データがあり、男性と女性の数値スコアを比較したい。 これらの2つのグループには大きな違いがあります。男性の数は34で、女性の数は310で、分散は等しくありません。 私の知る限り、分散が等しくない場合は、ウェルチ・サッタースウェイト方程式を使用できます(分散が等しくないと仮定した独立t検定)。私の質問は、2つのサンプル間でサンプルサイズに本当に大きな違いがあるにもかかわらず、この方程式を使用できますか?または、2つのサンプル間のサンプルサイズの違いに特定の制限はありますか?

2
分類と回帰の予測に関するサンプルサイズ
仮説検定に関して、サンプルサイズの推定はパワーを介して行われ、同じサイズを増やすと推定される効果の精度が上がることは直感的です。しかし、分類と回帰の両方の予測についてはどうでしょうか?予測問題のどの側面が、一般化誤差または回帰のRMSEの推定以外のサンプルサイズの影響を受けます。 要するに、仮説検定の設定で力に寄与するプロパティは、ペナルティ付き回帰/データマイニング/アルゴリズムモデリングを通じて予測を成功させるプロパティとは異なります。サンプルサイズはこれらのテクニックの成功にどのように影響しますか? この考えを説明する1つの論文がこれです。 だれでもコメントの参照を提供できますか?ありがとう。

2
結果にある程度の良さを主張するために、シミュレーションのサンプルサイズを計算するにはどうすればよいですか?
私は統計の初心者なので、頭の悪い質問をする場合は事前に謝罪してください。質問への回答を検索しましたが、トピックの多くが具体的すぎるか、現在理解しているトピックをすぐに超えてしまいます。 完全にシミュレーションすることが不可能になる大規模なデータセットを含むシミュレーション作業があります。最小のデータセットの場合、完全な実行では、合計9180900テストからの結果の次の分布が示されます。 結果/頻度: 0 7183804 1 1887089 2 105296 3 4571 4 140 数字の意味は関係ありません。重要なのは、私が持っているより大きなデータセットは何十億ものテストに拡張され、実行するには時間がかかりすぎるということです。ワークロードを制限する必要があります。 完全なテストセットからサンプリングして、サンプルの分布を導き出し、徹底的なシミュレーションの結果がほぼ同じ分布を示すと(ある程度の範囲内で)推測できるはずだと思います。実行されるテストには固有のバイアスがないため、入力を一様にランダムに選択すると、有効なサンプルが提供されます。 私がまだ理解していないのは、サンプルサイズを選択する方法です。特に、分布は奇妙な尾を示し、サンプリングが小さすぎると低い周波数が失われるのではないかと心配しています。(「4」の140回の出現は、人口の0.0015%にすぎません!) それで、私の質問は、結果である程度の良いことを主張できるサンプルサイズを計算する最良の方法は何ですか? または、私は間違った質問をしていますか?

2
ランダムなサンプルから取得したデータの精度はどのくらいですか?
私は統計の初心者なので、ここで誤った仮定をした場合は教えてください。 人の人口がありNます。(たとえば、N1,000,000にすることができます。)一部の人々は赤毛です。私nは人のサンプル(たとえば10人)を取り上げ、そのjうちの1人が赤毛であることを見つけます。 人口の赤毛の一般的な割合について何を言えますか?j/nつまり、私の最良の近似はおそらくですが、その近似の標準偏差はどうなりますか? ちなみに、これの受け入れられた用語は何ですか?

1
この動的なサンプルサイズ選択戦略をどのように呼びますか?
大きなドキュメントの圧縮率を非常に高速に評価したいとします。サブシーケンスをランダムに選択して、圧縮してみることができます。これは、ドキュメントの全体的な圧縮率の予測として役立ちます。しかし、あなたのサンプルはどのくらいの大きさにすべきですか? 私たちは次の戦略を考え出しました: 任意の(小さい)サンプルサイズを選択します。圧縮率を測定します。 次に、サンプルサイズを2倍にして、圧縮率を再度測定します。変更がほとんどない(たとえば10%未満)場合は、ドキュメントの圧縮率が確実に決定されていると結論付けます。そうでない場合は、サンプルサイズを再度2倍にします。 これは新しい戦略ではないことは明らかであり、統計学者が使用している有名な戦略に関連しているかどうか疑問に思っています。 (ここでの「圧縮」は単なる例です。基本的に、適切なサンプルサイズが何であるかを分析的に決定することができないように、既知の優れた数学的特性がないメトリックに関心があります。そのようなヒューリスティックに戻ってください。)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.