値は、値のリストと比較してどの程度重要ですか?ほとんどの場合、統計的テストには、サンプルセットと母集団の比較が含まれます。私の場合、サンプルは1つの値で作成され、母集団と比較します。
私は、おそらく最も基本的な問題に直面している統計的仮説検定のディレッタントです。1つのテストではなく、数百のテストです。パラメータースペースがあり、すべてのポイントに対して有意差検定を実行する必要があります。パラメータの組み合わせごとに、値とバックグラウンドリスト(母集団)の両方が生成されます。次に、これをp値で並べて、興味深いパラメーターの組み合わせを見つけます。実際、このp-valが高い(有意でない)パラメーターの組み合わせを見つけることも重要です。
それでは、1つのテストを行ってみましょう。選択したセットから生成された計算値と、ランダムなトレーニングセットを選択して計算された値のバックグラウンドセットがあります。計算値は0.35で、バックグラウンドセットは(おそらく?)平均0.25と非常に狭いstd(e-7)で正規分布しています。サンプルは他の何かから計算されているため、実際には分布についての知識はありません。それらはある分布からの乱数サンプルではないので、背景は正しい言葉です。
帰無仮説は、「サンプルテストの平均が計算値0.35に等しい」というものです。これをいつZ検定またはT検定と見なすべきですか?母平均よりも値を大幅に高くしたいので、片側検定です。
私はサンプルとして何を考慮するべきか少し混乱しています:1つのサンプル(観察)と母集団としてのバックグラウンドリストがあるか、私のサンプルがバックグラウンドリストであり、それを全体(非サンプリング)と比較しています帰無仮説によると同じ平均値を持つべき母集団。これが決定すると、テストは異なる方向に進むと思います。
T検定の場合、p値を計算するにはどうすればよいですか?R / Python / Excel関数を使用するのではなく、自分で計算したいと思います(その方法は既に知っています)。したがって、最初に正しい式を確立する必要があります。
まず、私は私の場合にはT検定はサンプルサイズに連結される、フォームなければならないので、T検定は、少しも一般的であると思われる:ここでZ = ˉ X
- p値を計算するにはどうすればよいですか?(つまり、R / Python / Excel関数またはp値テーブルのルックアップを使用せず、実際に数式に基づいて計算します。何をしているかを知りたいので)
- サンプルサイズに基づいて有意しきい値を決定するにはどうすればよいですか?(式がいいでしょう)