タグ付けされた質問 「effect-size」

効果の大きさは、「現象の強さの尺度またはその量のサンプルベースの推定」[ウィキペディア]です。

2
標本がANOVAまたはt検定には大きすぎることはありますか?
100万近くのデータセットがあり、平均比較検定(ANOVAまたはt検定)を実行するたびに、SPSSで.0001未満の有意水準が得られます。私のサンプルが非常に大きいので、もちろん、平均を比較すると、大幅に異なるものとして表示されることを心配しています。標本がANOVAまたはt検定には大きすぎることはありますか?

1
電力分析でサンプルを決定した後のサンプルサイズの超過の結果
チャレンジ 私たちのオフィスでは、サンプルサイズとそのエフェクトサイズへの影響について話し合いました。私を助けてさらに説明してもらえますか? ベース 電力分析を実行するとき、特定の設計における特定の効果サイズのサンプルサイズを決定できます。 問題/ディスカッション どうなり先験的にはサンプルサイズを超えた決定(電力解析では例えば、決定サンプルだった、我々は得ることができた)?N = 1000N=100N=100N=100N=1000N=1000N=1000 ポジション1: 大きなサンプルサイズは、エフェクトサイズを切り刻む/破壊します。電力分析で決定されたよりも大きいサンプルを使用すると、「すべてが重要になる」という危険が発生します(軽微で、実際には無関係な影響も)。したがって、電力分析から決定されたサンプルに依存する必要があります。そうすることで、「実際の/関連する」効果を明らかにすることができます。 または ポジション2: サンプルサイズの決定は、所定の効果を明らかにするために必要な最小サンプルサイズを指します。大きなサンプルサイズは、たとえば測定誤差が減少するため、有益です。したがって、実際の効果をより簡単に明らかにすることができます。事後効果サイズの計算は、効果の関連性に関する情報を提供します。 または 位置3: 位置1と位置2はスタディデザインによって異なります(たとえば、「関連性のある影響」を求めるためt検定では位置1ですが、CFA / SEMでは位置2でより安定した信頼できる結果が得られます)。 または 位置4: 別の説明として考えられる別の位置。

3
ロジスティック回帰におけるカテゴリー変数のランキング
私はロジスティック回帰を使用していくつかの研究をしています。10個の変数が従属変数に影響を与えます。前述の1つは、カテゴリー(例:速達、標準配達など)です。ここで、従属変数への影響の「強さ」に基づいてそれらのカテゴリーをランク付けしたいと思います。 それらはすべて有意(小さいp値)ですが、オッズの値をランキングの目的で使用することはできないと思います。各カテゴリが他のカテゴリとも大幅に異なる場合、どういうわけか理解する必要があります。これは正しいです? 変数を中央揃えにする可能性について読みました。これは本当にオプションですか?モデルの残りの部分に影響を与えたくありません。 @subraの投稿への私のコメントをサポートするためのStata出力: Average marginal effects Number of obs = 124773 Model VCE : OIM Expression : Pr(return), predict() dy/dx w.r.t. : ExpDel ------------------------------------------------------------------------------ | Delta-method | dy/dx Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- ExpDel | .1054605 .0147972 7.36 0.000 .0798584 .1378626 ------------------------------------------------------------------------------

5
大規模なサンプルで無関係なリグレッサが統計的に有意になるのはなぜですか?
統計的有意性、効果の大きさなどをよりよく理解しようとしています。 大規模なサンプルでは、​​無関係なリグレッサでさえ統計的に有意になることがよくあるという認識があります(おそらく間違っています)。無関係な私回帰は、従属変数に関連しなければならない理由は何の主題の説明がないことを意味します。したがって、この投稿の無関係性は純粋な主題概念であり、統計的概念ではありません。 (ここで説明するように)母集団の影響が正確にゼロでない限り、十分に大きなサンプルが与えられれば、リグレッサは統計的に有意であることを知っています。したがって、大きなサンプルで統計的に有意であると思われる無関係なリグレッサは、母集団でゼロ以外の効果サイズを持っています。 質問: 無関係なリグレッサが統計的に有意であることが判明するのはなぜですか? 主題の説明を探す必要がありますか(つまり、関連性を否定しようとします)、これは統計的な現象ですか? これは、私がこの効果をどのように治すかを明確にしようとしていた投稿の続きです。一方、ここで、なぜそもそもそれが起こるのかを尋ねています。

1
通常、タイプ1とタイプ2のエラーの許容確率が異なるのはなぜですか?
この質問は上司から出されたもので、説明方法がわかりません。 通常、許容される信頼レベルは0.95です。これは、タイプ1エラーの確率が5%であることを意味します。しかし、通常受け入れられる検出力は0.8(Cohen、1988)です。これは、タイプ2エラーの確率が20%であることを意味します。タイプ1エラーよりもタイプ2エラーの確率が高いのはなぜですか?その背後に統計的な理由はありますか? 彼はまた、力の物理的な意味= 0.8(なぜそれが基準として選択されているのか)を尋ねましたが、これについても説明できません。 また、電力分析を使用して実験を設計する場合、小、中、大の効果を表す有効サイズ0.3、0.5または0.8を選択できます。そして、私の監督者は、これらの数値が選択される理由を尋ねました。私の理解では、これらの数値は経験に基づいて提案されています。彼はすぐに私に経験は何であるか尋ねました。私はそのような質問に本当にイライラしています。私の専攻は統計学ではないので、そのような質問に多くの時間を費やす必要があります。そのような質問が本当に意味があるかどうか誰でも提案できますか?はいの場合、どのように答えを見つけますか。

3
2つの標準化された平均差の差に対する効果サイズと標準誤差の計算
関連する質問が2つあります。どちらも、私が行っているメタ分析に関連しています。ここで、主要な結果は標準化された平均差で表されます。 私の研究には、標準化された平均差を計算するために使用できる複数の変数があります。1つの変数で計算された標準化された平均差が、他の変数の標準化された平均差とどの程度一致しているかを知りたいのですが。私の考えでは、この質問は、2組の標準化された平均差の違いに関するメタ分析として表現できます。ただし、同じ研究内の2つの標準化された平均差の差の効果サイズとサンプリング誤差を決定するのに問題があります。 別の方法で私の問題を表現するために、グループとと結果変数とた2条件の検討を考えてみ。これら2つの結果変数は、として相関しています。とにわたると標準化された平均差を計算して、、、およびそれらのサンプリング分散とます。以下の状況の非常に単純な図を含めました。g1g1g_1g2g2g_2v a r1var1var_1v a r2var2var_2c o r (v a r1、V Rを2)cor(var1,var2)cor(var_1, var_2)v a r1var1var_1v a r2var2var_2g1g1g_1g2g2g_2dv a r 1dvar1d_{var1}dv a r2dvar2d_{var_2}vdv a r1vdvar1v_{d_{var_1}}vdv a r2vdvar2v_{d_{var_2}} とをとして計算するとします。との標準化された平均差をとして計算できます。これにはサンプリング分散ます。 v a r 2 d i f f g 1 g 2 d d i f f v d d i f …

1
リサンプリングシミュレーションの中心的な傾向が観測値と著しく異なるのはなぜ/なぜですか?
ブートストラップされたサンプルの中心傾向(つまり、平均値および/または中央値)が観測値に類似していることを常に期待する必要がありますか? この特定のケースでは、被験者の2つの条件に指数関数的に分布する応答があります(私は実験を実行せず、データしかありません)。私は効果サイズをブートストラップするタスクを課されました(コーエンのdの観点から、1サンプルの式、つまりは、母標準偏差のサンプル推定です。これのフォーラムはRosenthal&Rosnow(2008)のpg 398、式13.27で提供されています。これらは分母にを使用しています。これは歴史的に正しいためですが、標準的な実務ではdをを使用するように誤って定義しているため、上記の計算でそのエラーを続けています。MD¯sDMD¯sD\bar{M_D}\over{s_D}σσ\sigmasss 参加者内(つまり、参加者のRTが複数回サンプリングされる場合がある)と被験者全体(参加者が複数回サンプリングされる場合がある)の両方をランダム化したため、参加者1が2回サンプリングされても、両方のサンプルの平均RTはありそうにありません完全に等しい。ランダム化/リサンプリングされたデータセットごとに、dを再計算します。この場合、です。私が観察しているのは、コーエンのdの観測値が、シミュレートされた観測値の2.5パーセンタイルよりも通常97.5パーセンタイルに近い傾向です。また、ブートストラップの中央値よりも0に近い傾向があります(シミュレートされた分布の密度の5%〜10%)。Nsim=10000Nsim=10000N_{sim} = 10000 これを説明できるものは何ですか(私が観察している効果の大きさを覚えておいてください)?それは、リサンプリングの際の平均値の端部と比較して観察されたものよりも極端な分散を取得するほうが、リサンプリングの際に「簡単」であるためですか?これは、過度にマッサージ/選択的にトリミングされたデータを反映しているのでしょうか?このリサンプリングアプローチはブートストラップと同じですか?そうでない場合、CIを作成するために他に何をする必要がありますか?

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

2
Rのウィルコクソン順位和検定の効果サイズを決定する方法は?
2つのグループ間で平均p値に差があるかどうかを確認したいと思います。これを行うために、ウィルコクソンの順位和検定を実行します(データは通常は分散されません)。ここまでは順調ですね。最後に、対応するエフェクトサイズを計算します。残念ながら、Rはこれを提供していません。また、次を使用して効果サイズを簡単に計算できるz値も提供しません。効果サイズ= z / sqrt(N) ここにいくつかのサンプルRコードがあります: a=rep(0:1,each=20) #grouping variable b=c(rnorm(20, .03,.01), rnorm(20, .02, .009)) #vector of p-values d=cbind(a,b) test = wilcox.test(b ~ a, data = d) #perform Wilcoxon rank-sum test test 誰かがエフェクトサイズを取得する方法を知っていますか?

3
クラス内の相関と集約
想像してみろ: それぞれに10メンバーの1000チームのサンプルがあります。 信頼できる複数項目の数値スケールを使用して、チームが機能していると各チームメンバーにどれだけ考えているかを尋ねて、チームの機能を測定しました。 チームの有効性の測定が、チームメンバーの特異な信念の特性であるか、またはチームに関する共有された信念の特性である範囲を説明する必要があります。 この状況および関連する状況(組織への集計など)では、多くの研究者がクラス内相関を報告します(たとえば、Campion&Medskerの表1、1993)。したがって、私の質問は次のとおりです。 クラス内相関のさまざまな値にどの説明ラベルを付けますか?つまり、クラス内相関の値を次のような定性的な言語に実際に関連付けることを目的としています。 クラス内相関は適切な統計だと思いますか、それとも別の戦略を使用しますか?

1
シャピロウィルクテストWは効果サイズですか?
十分に大きなサンプルサイズがわずかな非正規性を強調する正規性テストの誤用を避けたいです。分布は「十分に正常」であると言えるようにしたいと思います。 母集団が非正規の場合、サンプルサイズが増加するにつれて、Shapiro-Wilk検定のp値は0になる傾向があります。p値は、分布が「十分に正規」であるかどうかを判断するのに役立ちません。 解決策は、非正規性の効果サイズを測定し、しきい値よりも非正規性であるものはすべて拒否することだと思います。 Shapiro Wilk検定は検定統計量生成し。これは非正規性の効果サイズを測定する方法ですか?WWW これをRでテストするには、均一な分布から抽出されたサンプルに対してシャピロウィルクテストを行います。サンプル数は10から5000の範囲で、結果は下にプロットされています。Wの値は定数に収束し、向かう傾向はありません。小さなサンプルに対してがバイアスされているかどうかはわかりませんが、小さなサンプルサイズに対しては低くなるようです。場合、私は下の何かを受け入れるようにしたい場合は問題になる可能性効果の大きさの偏った推定値である「通常は十分」と。111WWWWWWW=0.1W=0.1W=0.1 私の2つの質問は次のとおりです。 ある非正規の効果の大きさの尺度?WWW さ小さなサンプルサイズのバイアス?WWW
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.