タグ付けされた質問 「power」

仮説検定法の特性です。偽の場合の帰無仮説を棄却する確率、つまりタイプIIエラーを発生させない確率です。検定の検出力は、標本サイズ、効果サイズ、および検定の有意性()レベルに依存します。 α

10
t検定を有効にするために必要な最小サンプルサイズはありますか?
現在、準実験的な研究論文に取り組んでいます。選択したエリア内の人口が少ないため、サンプルサイズは15のみで、基準に適合するのは15のみです。15は、t検定とF検定で計算する最小サンプルサイズですか?もしそうなら、この小さなサンプルサイズをサポートする記事や本はどこで入手できますか? この論文は先週の月曜日にすでに弁護されており、パネルの1人は、私のサンプルサイズが小さすぎるため、支持する参考文献を求めました。彼は、少なくとも40人の回答者がいるべきだったと言った。

4
2番目のIVを追加すると、1番目のIVが重要になります。
おそらく簡単な質問がありますが、今私を困惑させているので、あなたが私を助けてくれることを望んでいます。 1つの独立変数と1つの従属変数を持つ最小二乗回帰モデルがあります。関係は重要ではありません。次に、2番目の独立変数を追加します。これで、最初の独立変数と従属変数の関係が重要になります。 これはどのように作動しますか?これはおそらく私の理解に何らかの問題を示していますが、私にとっては、この2番目の独立変数を追加することで最初の重要性がどのようになるかわかりません。

4
Cumming(2008)は、複製で得られたp値の分布は元のp値にのみ依存すると主張しています。どうしてそれが本当ですか?
私はGeoff Cummingの2008年の論文Replication and Intervalsをpppppp p p読んでいます:値は漠然と未来を予測しますが、信頼区間ははるかに優れています[Google Scholarでの200回の引用] -そしてその中心的な主張の1つに混乱しています。これは、カミングが値に反対し、信頼区間を支持する一連の論文の1つです。しかし、私の質問はこの議論に関するものではなく、値に関する特定の主張にのみ関係します。pppppp 要約から引用させてください: この記事は、最初の実験の結果が両側である場合、複製からの 片側値が間隔に可能性があることを示しています。確率その、完全に確率その。注目すべきことに、間隔(間隔と呼ばれる)は、サンプルサイズが大きくてもこの幅です。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp カミングは、この「間隔」、および実際に元の実験(同じ固定サンプルサイズ)を複製するときに取得する値の全体分布は、元の値のみに依存するとそして、真のエフェクトサイズ、パワー、サンプルサイズなどに依存しません。pppp p o b tpppppppobtpobtp_\mathrm{obt} [...]の確率分布は、(またはpower)の値を知らない、または仮定せずに導出できます。[...]についての事前知識を前提とせず、 [グループ間差異の観測]がについて与える情報のみを、特定の計算の基礎として使用します。および間隔の分布の 。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 私はこれに混乱しています。なぜなら、値の分布はパワーに強く依存しているように見えますが、元の自体はそれに関する情報を何も与えていないからです。真の効果サイズはあり、分布は均一である可能性があります。または、本当の効果のサイズが巨大である場合、ほとんどの場合、非常に小さい値を期待する必要があります。もちろん、可能性のある効果の大きさよりも事前にいくつかを仮定して開始することができますが、カミングはこれが彼がやっていることではないと主張しているようです。P O のB T δ = 0 Pppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 質問:ここで何が起こっているのでしょうか? このトピックはこの質問に関連していることに注意してください。最初の実験の95%信頼区間内で、繰り返し実験のどの部分が効果サイズを持ちますか?@whuberによる優れた答えがあります。Cummingには、このトピックに関する次のような論文があります:Cumming&Maillardet、2006、Confidence Intervals and Replication:Where the Next Mean Fall?-しかし、それは明確で問題ありません。 私もカミングの請求が2015年の自然法論文で数回繰り返されることに注意してください気まぐれ値は再現不可能な結果を生成し、PPPあなた方のうちの何人かは全体来ているかもしれない(それは既にGoogle Scholarの中で〜100の引用を持っています): [...] 繰り返される実験の値にはかなりのばらつきがあります。実際には、実験はめったに繰り返されません。次のがどの程度異なるかはわかりません。しかし、非常に異なる可能性があります。単一の複製が返された場合、例えば、にかかわらず、実験の統計的検出力の、値、存在する反復実験が戻ってくる可能性間の値をと(及び変化が[原文のまま]はさらに大きくなります)。P P 0.05 80 …

5
サンプルサイズを大きくすると(サンプリング)分散が小さくなるのはなぜですか?
大局: サンプルサイズを増やすと実験の力がどのように増加するかを理解しようとしています。私の講師のスライドは、2つの正規分布の図で説明します。1つは帰無仮説、もう1つは対立仮説とその間の決定しきい値cです。彼らは、サンプルサイズを大きくすると分散が低下し、それにより尖度が高くなり、曲線下の共有領域が減少し、タイプIIエラーの確率が低下すると主張しています。 小さい画像: サンプルサイズを大きくすると分散がどのように低下​​するかわかりません。 サンプルの分散を計算し、正規分布のパラメーターとして使用することを想定しています。 私は試した: グーグル、しかし、ほとんどの受け入れられた答えは0の賛成票を持っているか、単なる例 思考:大きい数の法則により、すべての値は最終的に、想定される正規分布に従ってその推定値を中心に安定するはずです。したがって、分散は、想定した正規分布の分散に収束するはずです。しかし、その正規分布の分散とは何ですか?それは最小値ですか?つまり、サンプル分散がその値まで減少することを確認できますか?

6
ロジスティック回帰のサンプルサイズは?
調査データからロジスティックモデルを作成します。これは、154人の回答者のみがインタビューされた4つの居住コロニーの小規模な調査です。私の従属変数は「仕事への十分な移行」です。154人の回答者のうち、73人は仕事に十分に移行したが、残りはそうではないと答えたことがわかりました。したがって、従属変数は本質的にバイナリであるため、ロジスティック回帰を使用することにしました。7つの独立変数(3つの連続変数と4つの名義変数)があります。1つのガイドラインでは、各予測変数/独立変数について10のケースが必要であることを示唆しています(Agresti、2007)。このガイドラインに基づいて、ロジスティック回帰を実行しても問題ないと思います。 私は正しいですか?そうでない場合は、独立変数の数を決定する方法を教えてください?

3
非常に小さなサンプルサイズ(n = 6など)で正規性をテストすることは意味がありますか?
サンプルサイズは6です。このような場合、Kolmogorov-Smirnov検定を使用して正規性を検定するのは理にかなっていますか?SPSSを使用しました。それぞれの取得に時間がかかるため、サンプルサイズは非常に小さくなっています。それが意味をなさない場合、テストするのに意味のある最小数はいくつのサンプルですか? 注: ソースコードに関連するいくつかの実験を行いました。サンプルは、ソフトウェアのバージョン(バージョンA)でのコーディングに費やされた時間です。 実際には、別のバージョンのソフトウェア(バージョンB)でのコーディングに費やされたサンプルサイズ6があります。 コードバージョンAで費やされた時間がコードバージョンBで費やされた時間と異なるかどうかをテストするために、1サンプルt検定を使用して仮説テストを行いたいと思います(これは私のH1です)。1サンプルのt検定の前提条件は、テストするデータを正規分布する必要があることです。そのため、正常性をテストする必要があります。

3
健全性チェック:p値はどのくらい低くできますか?
2つのサンプル()の中央値を比較するためにランクサムテストを使用しており、それらが以下と大きく異なることがわかりました。このような小さな値を疑うべきですか、それとも非常に大きなサンプルを持つことに関連する高い統計的検出力に起因するのでしょうか?疑わしいほど低い値などはありますか?n = 120000n=120000n=120000p = 1.12E-207pppppp

4
能力不足の研究では、誤検知の可能性が増加していますか?
この質問はこことここで以前に尋ねられましたが、答えが質問に直接対処するとは思いません。 能力不足の研究では、誤検知の可能性が増加していますか?いくつかのニュース記事がこの主張をしています。以下の場合の例: 低い統計的検出力は悪いニュースです。能力不足の研究は、本物の効果を見逃す可能性が高く、グループとしては、偽陽性の割合が高い可能性が高くなります。つまり、現実ではなくても統計的有意性に達する効果です。 私が理解しているように、テストの力は次のように高めることができます。 サンプルサイズを増やす エフェクトサイズが大きい 有意水準を上げる 有意水準を変更したくないと仮定すると、上記の引用はサンプルサイズの変更に言及していると思います。ただし、サンプルを減らすことで誤検出の数がどのように増えるかはわかりません。簡単に言えば、研究の力を弱めると、質問に答える偽陰性の可能性が高まります。 P(Hを拒否できない 0| H0 偽です)P(拒否しない H0|H0 間違っている)P(\text{failure to reject }H_{0}|H_{0}\text{ is false}) それどころか、誤検知は質問に応答します。 P( Hを拒否 0|H0 本当です)P(拒絶する H0|H0 本当です)P(\text{reject }H_{0}|H_{0}\text{ is true}) 条件が異なるため、両方とも異なる質問です。パワーは、(逆に)偽陰性に関連していますが、偽陽性には関連していません。何か不足していますか?

1
先験的な消費電力解析は本質的に役に立たないのですか?
先週パーソナリティと社会心理学会の会議に出席しました。そこでは、先験的な検出力分析を使用してサンプルサイズを決定することは、結果が仮定に非常に敏感であるため本質的に役に立たないという前提でUri Simonsohnの講演を見ました。 もちろん、この主張は、私のメソッドクラスで教えられたものと、多くの著名な方法論者の推薦(特にCohen、1992)に反するため、ウリは彼の主張に関連するいくつかの証拠を提示しました。この証拠のいくつかを以下で再現しようとしました。 簡単にするために、2つのグループの観測値がある状況を想像して、(標準化された平均差で測定される)効果サイズがと推測します。標準的な電力計算(以下のパッケージを使用して行われます)では、この設計で80%の電力を得るには観測値が必要であることがわかります。.5.5.5Rpwr128128128 require(pwr) size &lt;- .5 # Note that the output from this function tells you the required observations per group # rather than the total observations required pwr.t.test(d = size, sig.level = .05, power = .80, type = "two.sample", alternative = "two.sided") ただし、通常、予想される効果の大きさについての推測は(少なくとも私の研究分野である社会科学では)まさにそれです-非常に大まかな推測です。エフェクトのサイズについての推測が少しずれている場合はどうなりますか?迅速な電力計算は、効果の大きさがある場合ことを示していますの代わりに、あなたが必要とする -観測あなたはの効果の大きさのために十分な力を持っている必要があると倍の数。同様に、エフェクトのサイズが場合、必要な観測値はだけです。これはエフェクトサイズを検出するのに十分なパワーが必要なものの70%です。.4.4.4.5.5.52002002001.561.561.56.5.5.5.6.6.6909090.50.50.50。事実上、推定観測の範囲が非常に大きいです-に。909090200200200 この問題に対する応答の1つは、効果のサイズを純粋に推測する代わりに、過去の文献またはパイロットテストを通じて、効果のサイズに関する証拠を収集することです。もちろん、パイロットテストを実行している場合は、パイロットテストを十分に小さくして、スタディの実行に必要なサンプルサイズを決定するためだけにスタディのバージョンを実行するのではなく(たとえば、パイロットテストで使用するサンプルサイズを調査のサンプルサイズよりも小さくする必要があります)。 Uri Simonsohnは、電力分析で使用される効果の大きさを決定するためのパイロットテストは役に立たないと主張しました。私が実行した次のシミュレーションを検討してくださいR。このシミュレーションでは、母集団効果のサイズがと想定しています。次に、サイズ40の1000回の「パイロットテスト」を実行し、10000個のパイロットテストのそれぞれから推奨されるNを集計します。.5.5.5100010001000NNN …

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
ベイジアン統計は、行動研究の従来の(頻度主義)統計よりも本当に改善されていますか?
この質問は、クロス検証で回答できるため、Skeptics Stack Exchangeから移行されました。 8年前に移行され ました。 会議に参加している間、実験の結果を評価するためのベイジアン統計の支持者によるプッシュが少しありました。頻繁な統計よりも、本物の発見に対してより敏感で、適切で、選択的である(誤検出が少ない)ことで自慢されています。 私はこのトピックをいくぶん検討しましたが、ベイジアン統計を使用することの利点についてはこれまで納得できませんでした。しかし、ベイジアン分析は予知をサポートするダリル・ベムの研究に反論するために使用されたので、ベイジアン分析が私自身の研究でさえもどのように利益を得るかについて、私は慎重に興味を持ち続けています。 だから私は次のことに興味があります: ベイジアン分析と頻度分析のパワー 分析の各タイプのタイプ1エラーに対する感受性 分析の複雑さのトレードオフ(ベイジアンはより複雑に思われる)対得られた利点。従来の統計分析は簡単で、結論を出すための十分に確立されたガイドラインがあります。シンプルさは利点と見なすことができます。あきらめる価値はありますか? 洞察力をありがとう!

2
ロジスティック回帰とt検定の力はどのように比較されますか?
ロジスティック回帰とt検定の力は同等ですか?その場合、それらは「データ密度が同等」である必要があります。つまり、固定されたアルファが.05の場合、同じ数の基礎となる観測値が同じパワーを生成します。次の2つのケースを検討してください。 [パラメトリックt検定]:二項観測から30の引き分けが行われ、結果の値が平均化されます。これは、グループA(発生の二項分布Prが.70である)に対して30回、グループB(発生の二項分布Prが.75である)で30回行われます。これにより、グループごとに30の平均が得られ、2項分布からの1,800の描画の要約を表します。58df t検定を実行して、平均を比較します。 [ロジスティック回帰]:ロジスティック回帰は、グループメンバーシップと1,800の各ドローを表すダミーのコード化された勾配で実行されます。 私の質問には2つの部分があります。 アルファ値が.05の場合、これらの方法論の力は同じですか、それとも異なりますか?どうして?どうすればそれを証明できますか? 質問1の答えは、t検定に入るサンプルサイズ、t検定の各グループのサンプルサイズ、基礎となる二項確率、またはその他の要因に敏感ですか?もしそうなら、どのようにパワーが実際に異なり、どのような変化がパワーのどのような変化を引き起こすかを(シミュレーションなしで)知ることができますか?または、シミュレーションを使用して問題を解決するRコードを作成します。

1
Cox比例ハザードモデルのロジスティック回帰よりもp値が高いことが多いのはなぜですか?
コックス比例ハザードモデルについて学んでいます。私は、ロジスティック回帰モデルを当てはめる多くの経験を持っており、そのビルド直感に私がモデルを比較してきた使用してフィットcoxphロジスティック回帰モデルを使用してフィットとR「生存」からglmとfamily="binomial"。 コードを実行した場合: library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 年齢がそれぞれ0.0419と0.0254のp値を取得します。同様に、年齢を問わず性別を予測因子として使用する場合。 モデルをフィッティングする際に経過時間を考慮すると、単に死亡をバイナリの結果として扱うよりも統計的な力が得られるのに対し、p値は統計的な力の低い人と一致すると思われるため、この不可解なことに気付きます。ここで何が起こっていますか?

3
タイプII(ベータ)エラー、検出力、サンプルサイズをグラフィカルに表示するにはどうすればよいですか?
統計の概要を書くように求められ、p値と検出力の関係をグラフィカルに示す方法に苦労しています。私はこのグラフを思いつきました: 私の質問:これを表示するより良い方法はありますか? ここに私のRコードがあります x &lt;- seq(-4, 4, length=1000) hx &lt;- dnorm(x, mean=0, sd=1) plot(x, hx, type="n", xlim=c(-4, 8), ylim=c(0, 0.5), ylab = "", xlab = "", main= expression(paste("Type II (", beta, ") error")), axes=FALSE) axis(1, at = c(-qnorm(.025), 0, -4), labels = expression("p-value", 0, -infinity )) shift = qnorm(1-0.025, mean=0, …
16 r  teaching  power 

2
堅牢な統計検定とは何ですか?強力な統計検定とは何ですか?
堅牢な統計テストとそうでない統計テストがあります。堅牢性とはどういう意味ですか?驚いたことに、私はこのサイトでそのような質問を見つけることができませんでした。 さらに、テストの堅牢性と強力性が一緒に議論されることもあります。直感的には、2つの概念を区別できませんでした。強力なテストとは何ですか?堅牢な統計的検定とはどう違いますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.