タグ付けされた質問 「power」

仮説検定法の特性です。偽の場合の帰無仮説を棄却する確率、つまりタイプIIエラーを発生させない確率です。検定の検出力は、標本サイズ、効果サイズ、および検定の有意性()レベルに依存します。 α

2
テストでのマンホイットニーテストの能力
したがって、Mann Whitney U検定は、正規性と均一分散のt検定の仮定が満たされている場合、t検定と比較して約95%強力です。これらの仮定が満たされていない場合、Mann Whitney U検定はt検定よりも強力であることも知っています。私の質問は、仮定が満たされていないデータでのマンホイットニー検定は、仮定が満たされているデータでのt検定と同じくらい、またはほとんど強力ですか? テストで実行するという仮定に基づいて電力計算をしている人をよく目にするので、私は尋ねています。彼らはデータを収集した後、データを探索し、代わりにマンホイットニー検定を使用することを決定します。テストの変更が電力にどのように影響するかを再訪しません。 ありがとう!

1
フィッシャーの正確確率検定(順列検定)の意外な動作
いわゆる「厳密検定」または「順列検定」の逆説的な振る舞いに出会いました。その原型はフィッシャー検定です。ここにあります。 400人の個人の2つのグループ(例:対照400例と例400)があり、2つのモダリティ(例:曝露/非曝露)の共変量があるとします。露出した個人は5人だけで、すべて2番目のグループです。フィッシャーテストは次のようになります。 > x <- matrix( c(400, 395, 0, 5) , ncol = 2) > x [,1] [,2] [1,] 400 0 [2,] 395 5 > fisher.test(x) Fisher's Exact Test for Count Data data: x p-value = 0.06172 (...) しかし今、2番目のグループ(症例)には、疾患の形態や求人センターなど、いくつかの不均一性があります。それは100人の4グループに分けることができます。このようなことが起こりそうです: > x <- matrix( c(400, 99, 99 , 99, 98, 0, …

2
お茶を味わう女性の力
有名なフィッシャーの実験では、観測可能なのは、2種類のカップAとBを持つ修正された推測カップ数です。通常、テストαのサイズを前提として、臨界領域を計算して帰無仮説(女性がランダムに推測している)を拒否することは興味深いことです。これは、超幾何分布を使用して簡単に実行できます。同じ方法で、クリティカル領域を指定してテストのサイズを計算できます。kkkAAABBBαα\alpha 別の質問は、対立仮説が与えられた場合の検定の検出力の計算方法ですか?たとえば、女性がシングルカップの確率で正しく推測できると仮定します(P (guess A | true A )= P (guess B | true B )= 0.9)。N = 8に等しいカップの総数と1種類のカップの総数n = N / 2 = 4と仮定して、テストの力は何ですかp=90%p=90%p=90\%P(guessA|trueA)=P(guess B|true B)=0.9P(guessA|trueA)=P(guess B|true B)=0.9P(\text{guess} A|\text{true} A)=P(\text{guess } B|\text{true } B)=0.9N=8N=8N=8n=N/2=4n=N/2=4n=N/2=4?(残念ながら)女性は知っています。nnn 言い換えれば、女性が1種類のカップがn個あることを知っている場合、(対立仮説での正しいカップの数)の分布は何ですか?k=k=k=nnn

1
非心度パラメータ-それは何ですか、それは何をしますか、推奨される値は何ですか?
特にサンプルサイズの決定と統計的検出力の分析に関して、統計の知識を磨くように努めています。でも、もっと読めば読むほど読まなければならないようです。 とにかく、私は必要なすべてを行うように見えるG * Powerと呼ばれるツールを見つけましたが、非中心性パラメーター、それは何ですか、それは何をするのか、何が推奨値になるのかなどを理解するのに問題がありますか? ウィキペディアなどの情報が不完全であるか、それを理解するのがあまり上手ではありません。 それが何らかの助けになれば、私は一連の2つの尾のあるz検定を実施しています。 PS誰もがこの質問にもっと良いタグを追加できますか?

1
小さなサンプルでのWilcoxon符号付きランクの相対効率
ウィルコクソンの符号付き順位検定の漸近相対効率は、t検定と比較すると少なくとも0.864であることを、公開された文献(およびここに掲載)で見ました。これは大きなサンプルにのみ当てはまると聞いたことがありますが、これについて言及していない本もあります(これについてはどうですか)。 とにかく、私の質問は、上記の段落が適用されなくなる前に物事がどれほど小さくなければならないのですか? 私の場合、4組のデータがあります。すべての仮定が当てはまる場合、0.1のアルファを使用し、適度に相関するデータがあれば、対応のあるt検定で2SDの効果サイズを検出する能力が少なくとも90%あることがわかります。ただし、サンプルサイズが小さく、仮定をチェックできないため、ウィルコクソンの符号付き順位検定を使用したいと思いますが、そうすると、検定の能力が小さすぎるのではないかと心配しています。ありがとう!

3
H0が既に拒否されている場合、t検定パワーが比較的小さいことを気にする必要がありますか?
2つの非常に小さなサンプル(それぞれ)があり、それらの2つのサンプルのt検定検出力は0.49です。これは比較的小さい(Rで計算)。ただし、ウェルチ2標本のt検定ではp値が0.032であるため、帰無仮説を棄却できます。0.032n=7n=7n=7power.t.test()0.0320.0320.032 さて、私は力が小さいことを気にする必要がありますか? 私の理解は、power = 1−β1−β1 - \betaここで、ββ\betaはタイプIIエラーの確率です。ここで、それは私のテストがH0を拒否する必要がある場合の約50%でH0を拒否できないことを意味するので、特定のサンプルがH0を拒否できない場合は特に心配する必要があります。しかし、私の特定のサンプルの場合、私は幸運であるように見え、私のいくらかパワーが不足しているt検定は拒否に成功したので、ベータについて気にする必要はなく、サンプルで大きな違いを示すことができるのを楽しむことができます手段。 私の解釈は正しいですか?それとも、何か重要なことを見逃していますか?

1
通常、タイプ1とタイプ2のエラーの許容確率が異なるのはなぜですか?
この質問は上司から出されたもので、説明方法がわかりません。 通常、許容される信頼レベルは0.95です。これは、タイプ1エラーの確率が5%であることを意味します。しかし、通常受け入れられる検出力は0.8(Cohen、1988)です。これは、タイプ2エラーの確率が20%であることを意味します。タイプ1エラーよりもタイプ2エラーの確率が高いのはなぜですか?その背後に統計的な理由はありますか? 彼はまた、力の物理的な意味= 0.8(なぜそれが基準として選択されているのか)を尋ねましたが、これについても説明できません。 また、電力分析を使用して実験を設計する場合、小、中、大の効果を表す有効サイズ0.3、0.5または0.8を選択できます。そして、私の監督者は、これらの数値が選択される理由を尋ねました。私の理解では、これらの数値は経験に基づいて提案されています。彼はすぐに私に経験は何であるか尋ねました。私はそのような質問に本当にイライラしています。私の専攻は統計学ではないので、そのような質問に多くの時間を費やす必要があります。そのような質問が本当に意味があるかどうか誰でも提案できますか?はいの場合、どのように答えを見つけますか。

1
尤度比検定の検出力計算
2つの独立したポアソン確率変数があります。 バツ1バツ1X_1 そして バツ2バツ2X_2、 バツ1〜のPOI (λ1)バツ1〜ポワ(λ1)X_1 \sim \text{Pois}(\lambda_1) そして バツ2〜のPOI (λ2)バツ2〜ポワ(λ2)X_2 \sim \text{Pois}(\lambda_2)。テストしたいH0:λ1=λ2H0:λ1=λ2H_0:\, \lambda_1 = \lambda_2 代替対 H1:λ1≠λ2H1:λ1≠λ2H_1:\, \lambda_1 \neq \lambda_2。 私はすでにnullと対立仮説(モデル)の下で最尤推定値を導出し、それらに基づいて尤度比検定(LRT)統計(以下に示すRコード)を計算しました。 ここで、以下に基づいてテストの検出力を計算することに興味があります。 固定アルファ(タイプ1エラー)= 0.05。 さまざまなサンプルサイズ(n)を使用します(n = 5、10、20、50、100など)。 の異なる組み合わせ λ1λ1\lambda_1 そして λ2λ2\lambda_2、LRT統計を変更します(LRTstat以下のように計算されます)。 ここに私のRコードがあります: X1 = rpois(λ1); X2 = rpois(λ2) Xbar = (X1+X2)/2 LLRNum = dpois(X1, X1) * dpois(X2, X2) LLRDenom …

1
代表的なサンプルをブートストラップしてnを無限に近づけることができるのに、なぜ仮説検定の威力が問題になるのですか?
コンピューターが遅い時代にもう生きていなくて、ノンパラメトリックなものに対して順列検定をブートストラップ/実行するのにコストがかかりすぎるのに、なぜ仮説検定の力を気にするのですか? ブートストラップ/置換仮説検定を実行できる場合、電力分析は関係ありませんか? 「サンプルサイズ」をブートストラップで無限大にできるので、ブートストラップの結果として電力が増加しますか?

1
多くのメタ分析の結果を組み合わせた後の神経科学における低出力の意味(Button et al 2013)
Nature Neuroscienceの2013年のレビュー記事で、Button et al。停電:小さなサンプルサイズは、神経科学の信頼性を損なう理由は、それがあると述べました。 神経科学の研究の平均統計力は非常に低い 彼らはメタ分析を検索し、それぞれのポストホックパワーを計算し、中央値のポストホックパワーを取ることによって結果を組み合わせました。中央値は20%でした。わかりません。事後電力は、常に本質的に達成されたp値に関連付けられています。中央値のp値が〜0.3のようなもので、ポストホックパワーが20%であることを記述するのと同じではないでしょうか。 では、基本的に、この結果はどのように神経科学の研究の質を損なうのでしょうか?彼らは多くの有意でないp値を用いた研究を発表しているようです。 このレビューは非常に有名な著者によるNature Neuroscienceの研究なので、私の解釈には欠陥がある可能性が高いと思います。 編集:名目上の有意性のある研究のみが含まれているとしたら、ある点がわかるでしょう。その場合、中央値パワーは、重要な発見の中央値複製確率を示します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.