タグ付けされた質問 「power-analysis」

特定の状況下で、検出力(偽であると仮定して帰無仮説を棄却する確率)を計算することによる、統計的検定の質の調査。電力分析は、通常、電力の公称レベルを達成するために必要なサンプルサイズを決定するための調査を計画するときに使用されます(たとえば、80)特定の効果サイズ。多くの場合、理論計算は扱いにくいので、電力分析はシミュレーションによって行われます。

7
重回帰の最小サンプルサイズの経験則
社会科学の研究提案の文脈の中で、私は次の質問をされました。 重回帰の最小サンプルサイズを決定するときは、常に100 + m(mは予測子の数)になりました。これは適切ですか? 同様の質問が頻繁に出ますが、多くの場合、経験則が異なります。また、さまざまな教科書でそのような経験則をかなり読みました。引用に関するルールの人気は、基準がどれだけ低く設定されているかに基づいているのかと疑問に思うことがあります。ただし、意思決定を簡素化する上での優れたヒューリスティックの価値も認識しています。 質問: 調査研究を設計する応用研究者の文脈の中で、最小サンプルサイズの単純な経験則の有用性は何ですか? 重回帰の最小サンプルサイズの代替経験則を提案しますか? あるいは、重回帰の最小サンプルサイズを決定するために、どのような代替戦略を提案しますか?特に、非統計学者が戦略を容易に適用できる程度に値が割り当てられるとよいでしょう。

2
ロジスティック回帰検出力解析のシミュレーション-設計実験
この質問は、ロジスティック回帰とSASを使用した電力分析に関して私が尋ねた質問に関する@Greg Snowの回答に対応していますProc GLMPOWER。 実験を計画しており、要因ロジスティック回帰で結果を分析する場合、シミュレーション(およびここ)を使用して電力分析を実行するにはどうすればよいですか? 以下に2つの変数がある簡単な例を示します。最初の変数は3つの可能な値{0.03、0.06、0.09}を取り、2番目はダミーのインジケーター{0,1}です。それぞれについて、各組み合わせの応答率を推定します(レスポンダーの数/マーケティングされる人々の数)。さらに、因子の最初の組み合わせは他の因子の3倍(同等と見なすことができます)にしたいと考えています。これは、この最初の組み合わせが試行された真のバージョンだからです。これは、リンクされた質問で言及されたSASコースで与えられたようなセットアップです。 結果の分析に使用されるモデルは、主な効果と相互作用を伴うロジスティック回帰です(応答は0または1です)。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) このモデルで使用するデータセットをシミュレートして電力解析を実行するにはどうすればよいですか? 私はSASを介してこれを実行するとProc GLMPOWER(使用STDDEV =0.05486016 に対応するsqrt(p(1-p))pが示す応答率の加重平均です)。 data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …

5
なぜ政治世論調査のサンプル数がこれほど多いのですか?
ニュースを見ると、大統領選挙などのギャラップの世論調査のサンプルサイズが1,000を大きく上回っていることがわかりました。大学の統計から私が覚えていることは、サンプルサイズ30が「かなり大きい」サンプルだったことです。30を超えるサンプルサイズは、収益の減少により無意味であるように思われました。

1
先験的な消費電力解析は本質的に役に立たないのですか?
先週パーソナリティと社会心理学会の会議に出席しました。そこでは、先験的な検出力分析を使用してサンプルサイズを決定することは、結果が仮定に非常に敏感であるため本質的に役に立たないという前提でUri Simonsohnの講演を見ました。 もちろん、この主張は、私のメソッドクラスで教えられたものと、多くの著名な方法論者の推薦(特にCohen、1992)に反するため、ウリは彼の主張に関連するいくつかの証拠を提示しました。この証拠のいくつかを以下で再現しようとしました。 簡単にするために、2つのグループの観測値がある状況を想像して、(標準化された平均差で測定される)効果サイズがと推測します。標準的な電力計算(以下のパッケージを使用して行われます)では、この設計で80%の電力を得るには観測値が必要であることがわかります。.5.5.5Rpwr128128128 require(pwr) size <- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") ただし、通常、予想される効果の大きさについての推測は(少なくとも私の研究分野である社会科学では)まさにそれです-非常に大まかな推測です。エフェクトのサイズについての推測が少しずれている場合はどうなりますか?迅速な電力計算は、効果の大きさがある場合ことを示していますの代わりに、あなたが必要とする -観測あなたはの効果の大きさのために十分な力を持っている必要があると倍の数。同様に、エフェクトのサイズが場合、必要な観測値はだけです。これはエフェクトサイズを検出するのに十分なパワーが必要なものの70%です。.4.4.4.5.5.52002002001.561.561.56.5.5.5.6.6.6909090.50.50.50。事実上、推定観測の範囲が非常に大きいです-に。909090200200200 この問題に対する応答の1つは、効果のサイズを純粋に推測する代わりに、過去の文献またはパイロットテストを通じて、効果のサイズに関する証拠を収集することです。もちろん、パイロットテストを実行している場合は、パイロットテストを十分に小さくして、スタディの実行に必要なサンプルサイズを決定するためだけにスタディのバージョンを実行するのではなく(たとえば、パイロットテストで使用するサンプルサイズを調査のサンプルサイズよりも小さくする必要があります)。 Uri Simonsohnは、電力分析で使用される効果の大きさを決定するためのパイロットテストは役に立たないと主張しました。私が実行した次のシミュレーションを検討してくださいR。このシミュレーションでは、母集団効果のサイズがと想定しています。次に、サイズ40の1000回の「パイロットテスト」を実行し、10000個のパイロットテストのそれぞれから推奨されるNを集計します。.5.5.5100010001000NNN …


1
統計的検出力の計算
私が理解しているように、電力分析を行うには、提案された研究の少なくとも3つの側面(4つのうち)を知る必要があります。 テストの種類-ピアソンのrおよびANCOVA /回帰を使用する予定-GLM 有意水準(アルファ)-0.05を使用する予定 予想される効果サイズ-中程度の効果サイズ(0.5)を使用する予定 サンプルサイズ 事前に消費電力を計算するために使用できる、優れたオンライン消費電力計算機をお勧めできますか。(SPSSは先験的な電力計算を実行できますか?) GPowerに出くわしましたが、よりシンプルなツールを探しています!

4
ベイジアン統計でパワー解析は必要ですか?
私は最近、ベイジアンの古典統計に関する見解を研究しています。ベイズ因子について読んだ後、この統計の観点で電力分析が必要かどうか疑問に思っていました。これを疑問に思う主な理由は、ベイズ因子が実際に尤度比であるように見えることです。25:1になったら、夜と呼べるように思えます。 私は遠いですか?さらに学ぶために私ができる他の読書はありますか?現在この本を読んでいます: WM BolstadによるBayesian Statisticsの紹介(Wiley-Interscience; 2nd ed。、2007)。


4
2つの独立した比率の検出力解析で停止ルールを作成するにはどうすればよいですか?
私は、A / Bテストシステムに取り組んでいるソフトウェア開発者です。安定した統計情報の背景はありませんが、過去数か月にわたって知識を集めてきました。 一般的なテストシナリオでは、Webサイト上の2つのURLを比較します。訪問者が訪問LANDING_URLし、URL_CONTROLまたはのいずれかにランダムに転送されますURL_EXPERIMENTAL。訪問者はサンプルを構成し、訪問者がそのサイトで望ましいアクションを実行すると勝利条件が達成されます。これはコンバージョンを構成し、コンバージョン率はコンバージョン率です(通常はパーセンテージで表されます)。特定のURLの一般的なコンバージョン率は、0.01%から0.08%の範囲です。テストを実行して、新しいURLと古いURLを比較する方法を決定します。場合はURL_EXPERIMENTALアウトパフォームに表示されURL_CONTROL、我々は交換してくださいURL_CONTROLとURL_EXPERIMENTAL。 単純な仮説検定手法を使用したシステムを開発しました。このシステムを開発するために、ここで別のCrossValidatedの質問に対する回答を使用しました。 テストは次のように設定されます。 のコンバージョン率の見積もりCRE_CONTROLは、URL_CONTROL履歴データを使用して計算されます。 所望の目標転化率CRE_EXPERIMENTALのがURL_EXPERIMENTAL設定されています。 通常、有意水準0.95が使用されます。 通常、0.8の累乗が使用されます。 一緒に、これらの値はすべて、目的のサンプルサイズを計算するために使用されます。power.prop.testこのサンプルサイズを取得するためにR関数を使用しています。 すべてのサンプルが収集されるまでテストが実行されます。この時点で、の信頼区間 CR_CONTROLとがCR_EXPERIMENTAL計算されます。それらが重ならない場合、勝者は0.95の有意水準と0.8の検出力で宣言できます。 ただし、テストのユーザーには2つの大きな懸念があります。 1.テスト中のある時点で、明確な勝者を示すのに十分なサンプルが収集された場合、テストを停止できませんか? 2.テストの終了時に勝者が宣言されていない場合、勝者を見つけるのに十分なサンプルを収集できるかどうかを確認するためにテストをさらに実行できますか? ユーザーが私たち自身のユーザーが望むことを正確に行えるようにする市販ツールが数多く存在することに注意してください。上記には多くの誤fallがあることを読みましたが、停止ルールのアイデアに出くわしたので、独自のシステムでそのようなルールを使用する可能性を調査したいと思います。 検討したい2つのアプローチを次に示します。 1.を使用power.prop.testして、現在の測定変換率を現在のサンプル数と比較し、勝者を宣言するのに十分なサンプルが収集されているかどうかを確認します。 例:次の動作がシステムに存在するかどうかを確認するテストが設定されています。 CRE_CONTROL:0.1 CRE_EXPERIMENTAL:0.1 * 1.3 これらのパラメーターでは、サンプルサイズNは1774です。 ただし、テストが進んで325サンプルに達すると、CRM_CONTROL(コントロールの測定された変換率)は0.08およびCRM_EXPERIMENTAL0.15です。power.prop.testこれらの変換率で実行Nされ、325であることがわかりました。正確CRM_EXPERIMENTALに、勝者であると宣言するために必要なサンプルの数です。この時点で、テストを終了できることを願っています。同様に、テストが1774サンプルに達しても勝者が見つからない場合、2122サンプルに達しCRM_CONTROL、0.1 CRM_EXPERIMENTALの結果と0.128が勝者を宣言できる結果であることを示すのに十分です。 関連する質問のユーザ少ないサンプルを有し、またに対して脆弱であることを停止し、このようなテストは、早期奨励のためにあまり信憑性であることをお勧め推定バイアスとタイプIとタイプIIエラーの数が増加。この停止ルールを機能させる方法はありますか?これは、プログラミング時間の短縮を意味するため、推奨されるアプローチです。おそらく、この停止ルールは、テストを早期に停止する必要がある場合、テストの信頼性を測定する何らかの数値スコアを提供することで機能するでしょうか? 2. 順次分析またはSPRTを使用します。 これらのテスト方法は、私たちが見つけた状況に合わせて設計されています。ユーザーがテストを開始し、テストで余分な時間を無駄にしないようにテストを終了するにはどうすればよいですか。テストの実行が長すぎるか、異なるパラメーターでテストをやり直す必要があります。 上記の2つの方法のうち、数学が少し理解しやすく、プログラミングが簡単なように見えるため、SPRTを好みます。ただし、このコンテキストで尤度関数を使用する方法がわかりません。誰かが尤度比、尤度比の累積和を計算する方法の例を構築し、モニタリングを続行する状況、帰無仮説と対立仮説を受け入れる状況を示す例を続けることができる場合、 SPRTが正しい方法であるかどうかを判断するのに役立ちます。

2
ロジスティック回帰とt検定の力はどのように比較されますか?
ロジスティック回帰とt検定の力は同等ですか?その場合、それらは「データ密度が同等」である必要があります。つまり、固定されたアルファが.05の場合、同じ数の基礎となる観測値が同じパワーを生成します。次の2つのケースを検討してください。 [パラメトリックt検定]:二項観測から30の引き分けが行われ、結果の値が平均化されます。これは、グループA(発生の二項分布Prが.70である)に対して30回、グループB(発生の二項分布Prが.75である)で30回行われます。これにより、グループごとに30の平均が得られ、2項分布からの1,800の描画の要約を表します。58df t検定を実行して、平均を比較します。 [ロジスティック回帰]:ロジスティック回帰は、グループメンバーシップと1,800の各ドローを表すダミーのコード化された勾配で実行されます。 私の質問には2つの部分があります。 アルファ値が.05の場合、これらの方法論の力は同じですか、それとも異なりますか?どうして?どうすればそれを証明できますか? 質問1の答えは、t検定に入るサンプルサイズ、t検定の各グループのサンプルサイズ、基礎となる二項確率、またはその他の要因に敏感ですか?もしそうなら、どのようにパワーが実際に異なり、どのような変化がパワーのどのような変化を引き起こすかを(シミュレーションなしで)知ることができますか?または、シミュレーションを使用して問題を解決するRコードを作成します。

2
サンプルサイズが等しくない:呼び出すタイミングが終了する
私は学術雑誌の記事を査読していますが、著者は推論統計を報告しないことの正当性として次のように書いています(2つのグループの性質を明確にしました)。 合計で、2,349人中25人(1.1%)がXを報告しました。グループXとグループY(他の2,324人の参加者)を統計的に比較する分析を提示することは適切に控えます。これらの結果は偶然によって大きく引き起こされる可能性があるためです。 私の質問は、この研究の著者は、グループの比較に関してタオルを投げ入れることを正当化するのか?そうでない場合、私は彼らに何をお勧めしますか?


3
事前に述べられている場合、サンプルサイズを動的に増やしても大丈夫ですか?
私は、被験者内設計で、ある刺激のメリットと別の刺激のメリットに関する研究をしようとしています。研究の一部の順序効果(タスクタイプの順序、刺激の順序、タスクセットの順序)を減らすように設計された順列スキームがあります。置換スキームは、サンプルサイズを8で割り切れるように指定します。 サンプルサイズを決定するには、野心的な推測(私の分野では伝統的)を行うか、希望する検出力のサンプルサイズを計算する必要があります。問題は、私が観察しようとしているエフェクトサイズの大きさの手掛かりがほとんどないことです(これも私の分野では良い伝統です)。これは、電力計算が少し難しいことを意味します。一方で、サンプルサイズが小さすぎるか、参加者に多額のお金を払ってラボで時間を費やしすぎる可能性があるため、ワイルドな推測をするのも悪いかもしれません。 2つのp値のコリドーを残すまで、8人のバッチで参加者を追加することを前もって述べても大丈夫ですか?例:0,05 <p <0,30?または、他にどのようにお勧めしますか?

3
lmモデルのカスタム消費電力解析をシミュレートする方法(Rを使用)
ここにあった最近の質問に従って。 線形モデルのシミュレーションに基づいてカスタム消費電力解析を実行するために、誰かがRコードを見つけた、または共有できるかどうかを知りたいと思いましたか? 後で、より複雑なモデルに拡張したいのは明らかですが、lmは開始するのに適した場所のようです。ありがとう。

3
ベルヌーイ試験で「成功」の確率を推定するために必要なサンプルサイズ
ゲームが、完了時に報酬を与えるか、何も与えないイベントを提供するとします。報酬が与えられるかどうかを決定する正確なメカニズムは不明ですが、乱数ジェネレーターが使用されていると想定しています。結果がハードコードされた値よりも大きい場合は、報酬が得られます。 報酬が与えられる頻度を決定するためにプログラマーが使用した値(推定15-30%)を基本的にリバースエンジニアリングする場合、必要なサンプル数をどのように計算しますか? 私はここの「真の確率の推定」セクションから始めました:Checking_whether_a_coin_is_fair、しかし私が正しい道を進んでいるかどうか確信がありません。95%の信頼度で最大3%のエラーが発生するために必要な〜1000サンプルの結果が得られました。 最終的に、私が解決しようとしているのは次のとおりです。 イベント#1は1.0Rの報酬を与え、時間のX% イベント#2は、時間のY%で報酬1.4Rを提供します XとYを正確に見積もり、どのイベントがより効率的かを判断したいと思います。最大で20分ごとに1つのサンプルしか取得できないため、サンプルサイズが大きいと問題になります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.