タグ付けされた質問 「statistical-significance」

統計的有意性とは、このサンプルが引き出された母集団において、真の効果が0(またはいくつかの仮説値)であった場合、サンプルで得られたものよりも極端または極端なテスト統計が発生した確率を指します。

3
すべてが「統計的に有意ではない」研究のメタ分析は、「有意な」結論に導くことができますか?
メタ分析には多数の研究が含まれており、そのすべてで0.05を超えるP値が報告されています。全体的なメタ分析で0.05未満のP値を報告することは可能ですか?どんな状況で? (答えはイエスだと確信していますが、参照または説明が欲しいです。)

3
ペアワイズt検定のいずれも重要でない場合、ANOVAは重要ですか?
一方向(グループ、または「レベル」)ANOVAは、ペアワイズt検定のいずれも実行しない場合に有意差を報告することは可能ですか?N (N − 1 )/ 2N> 2N>2N>2N(N− 1 )/ 2N(N−1)/2N(N-1)/2 で、この答え @whuberは書きました: グローバルANOVA F検定は、平均のペアのいずれの個々の[未調整ペアワイズ] t検定も有意な結果をもたらさない場合でも、平均の差を検出できることはよく知られています。 どうやらそれは可能ですが、方法はわかりません。それはいつ起こり、そのようなケースの背後にある直感は何でしょうか?たぶん誰かがそのような状況の簡単なおもちゃの例を提供できますか? さらなるコメント: 明らかに反対の可能性があります:全体的なANOVAは有意ではない場合がありますが、ペアワイズt検定のいくつかは誤って有意差を報告します(つまり、それらは偽陽性です)。 私の質問は、多重比較t検定の非調整標準に関するものです。調整されたテスト(たとえば、TukeyのHSD手順)が使用される場合、全体のANOVAが重要であっても、それらのどれも重要でないことが判明する可能性があります。ここでは、いくつかの質問で説明します。たとえば、全体的な有意なANOVAを得ることができますが、Tukeyの手順との有意なペアワイズ差はありません。および有意なANOVA相互作用、ただし有意でないペアワイズ比較。 更新。私の質問はもともと、通常の2標本ペアワイズt検定に言及していました。ただし、@ whuberがコメントで指摘したように、ANOVAのコンテキストでは、t検定は通常、グループ内分散のANOVA推定値を使用して、すべてのグループにプールされた事後の対比として理解されます(2 -サンプルt検定)。したがって、実際には私の質問には2つの異なるバージョンがあり、両方の答えは肯定的であることがわかりました。下記参照。

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

8
仮説がない場合のP値の豊富さ
私は疫学に興味があります。私は統計学者ではありませんが、分析を自分で実行しようと試みますが、しばしば困難に直面します。約2年前に最初の分析を行いました。P値は、記述表から回帰分析まで、私の分析のどこにでも含まれていました(他の研究者が行っていたことを単純に行いました)。少しずつ、私のアパートで働いている統計学者は、私が本当に仮説を持っている場合を除いて、すべての(!)p値をスキップするように説得しました。 問題は、医学研究の出版物にp値が豊富にあることです。p値を非常に多くの行に含めるのが一般的です。平均、中央値、または通常p値に沿ったもの(t検定、カイ2乗など)の記述データ。 私は最近、ジャーナルに論文を提出しましたが、「ベースライン」の説明表にp値を追加することを(丁寧に)拒否しました。論文は最終的に拒否されました。 例を示すには、次の図を参照してください。これは、尊敬される内科のジャーナルに掲載された最新の記事の説明表です。 統計学者は、ほとんどの場合(常にではないにしても)これらの原稿のレビューに関与しています。したがって、私のような素人は、仮説が存在しない場合、p値が見つからないことを期待しています。しかし、それらは豊富ですが、この理由は私にはとらえどころのないままです。無知だとは信じがたい。 これは統計的な問題の境界線であることを理解しています。しかし、私はこの現象の背後にある理論的根拠を探しています。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
p <.05での公開されたp値の分布の不連続の原因は何ですか?
最近の論文で、Masicampo and Lalande(ML)は、多くの異なる研究で発表された多数のp値を収集しました。彼らは、正準臨界レベル5%でp値のヒストグラムに奇妙なジャンプを観察しました。 Wasserman教授のブログで、このML現象についての素晴らしい議論があります。 http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ 彼のブログには、ヒストグラムがあります。 5%レベルは自然法則であり、自然法則ではないため、公開されたp値の経験的分布のこの動作の原因は何ですか? 選択バイアス、正準臨界レベルのすぐ上のp値の体系的な「調整」、または何?

1
Mantelテストを非対称行列に拡張できますか?
マンテル検定は通常、対称距離/差分行列に適用されます。私が理解している限り、テストの前提は、差を定義するために使用される尺度が少なくとも半メトリックでなければならないということです(メトリックの標準要件を満たしますが、三角形の不等式は満たしません)。 対称性の仮定を緩和することができますか(事前測定基準を与える)?この場合、完全行列を使用して置換テストを適用することはできますか?

4
Ziliak(2011)は、p値の使用に反対し、いくつかの代替案に言及しています。彼らは何ですか?
「Matrixx v。SiracusanoおよびStudent v。Fisher 統計的有意性」(DOI:10.1111 / j.1740-9713.2011.00511.x)と呼ばれる、統計的推論のためにp値に依存するデメリットを議論する最近の記事では、 Stephen T. Ziliakは、p値の使用に反対しています。最後の段落で彼は言う: データは、私たちがすでに知っていることの1つであり、確かです。私たちが実際に知りたいのは、まったく異なるものです。データが与えられた場合、仮説が真である(または少なくとも実用的に有用である)確率です。入手可能な証拠があれば、2つの薬物が異なる確率、およびその程度を知りたいと思います。転置された条件の誤fall、フィッシャーが陥ったtrapに基づいた有意性テストは、その確率を教えてくれません。パワー関数、予想損失関数、およびスチューデントとジェフリーズから派生した多くの意思決定理論およびベイジアン手法は、現在広く利用可能でオンラインで無料です。 べき関数、予想損失関数、および「その他の決定理論およびベイズ法」とは何ですか?これらの方法は広く使用されていますか?Rで利用できますか?これらの新しい推奨方法はどのように実装されますか?たとえば、これらの方法を使用して、従来の2標本のt検定とp値を使用するデータセットで仮説をテストする方法を教えてください。

3
Kolmogorov-Smirnovテストが機能するのはなぜですか?
2標本KS検定について読んで、私は正確に理解し、それが何をしているのかが、私は理解していないそれが動作する理由。 つまり、すべての手順に従って経験分布関数を計算し、2つの間の最大差を見つけてD統計値を見つけ、臨界値を計算し、D統計値をp値に変換することができます。 しかし、なぜこの2つが実際に2つのディストリビューションについて何かを教えてくれるのか、私にはわかりません。 誰かがロバを飛び越えてどれだけ速く逃げるかを数える必要があることを簡単に教えてくれるかもしれません。速度が2 km / hr未満の場合は、帰無仮説を拒否します。確かに私はあなたが私に言ったことをすることができますが、そのどれが帰無仮説と関係がありますか? 2サンプルKSテストが機能するのはなぜですか?ECDF間の最大差の計算は、2つの分布の違いと何の関係がありますか? どんな助けも大歓迎です。私は統計学者ではないので、可能であれば私は馬鹿だと仮定します。

4
テストが相関する複数のテストのp値の修正(遺伝学)
私は多くのテストからp値を取得しており、複数のテストを修正した後に実際に重要なものがあるかどうかを知りたいと思っています。複雑さ:私のテストは独立していません。私が考えている方法(FisherのProduct Methodの変形、Zaykin et al。、Genet Epidemiol、2002年)では、p値間の相関が必要です。 この相関を推定するために、現在、ケースのブートストラップ、分析の実行、およびp値の結果ベクトルの相関について考えています。誰かがより良いアイデアを持っていますか?または、元の問題のより良いアイデア(相関テストでの複数のテストの修正)ですか? 背景:遺伝子型(AA、Aaまたはaa)と共変量との相互作用により、被験者が特定の病気にかかっているかどうかをロジスティックに回帰しています。ただし、遺伝子型は実際には大量(30〜250)の一塩基多型(SNP)であり、これらは確かに独立ではなく、連鎖不平衡にあります。

4
Rの正確な2つのサンプル比率の二項検定(およびいくつかの奇妙なp値)
私は次の質問を解決しようとしています: プレーヤーAは25ゲーム中17勝、プレーヤーBは20ゲーム中8勝-両方の比率に大きな違いはありますか? Rで頭に浮かぶことは次のとおりです。 &gt; prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 したがって、このテストでは、95%の信頼レベルでは差は有意ではないと述べています。 prop.test()近似のみを使用していることがわかっているので、正確な二項検定を使用してより正確にしたい-と私は両方の方法でそれを行う: &gt; …

3
A / Bテストのサンプルサイズを安全に決定する
私は、A / Bテストツールの構築を検討しているソフトウェアエンジニアです。統計のバックグラウンドはしっかりしていませんが、ここ数日間はかなりの読書をしています。 ここで説明する方法論に従い、関連するポイントを以下にまとめます。 このツールにより、デザイナーとドメインエキスパートは、特定のURLで受信したトラフィックを2つ以上のURLに分割するようにWebサイトを構成できます。たとえば、http://example.com/hello1に到着するトラフィックは、http://example.com/hello1とhttp://example.com/hello2に分割できます。トラフィックはターゲットURL間で均等に分割され、各ターゲットURLでのマーケティングプロセスのパフォーマンスが比較されます。 この実験では、サンプルサイズNは訪問者に対応します。このテストでは、訪問者がマーケティングプロセスで特定のアクションをいつ実行するかを表す用語である「コンバージョン」を測定します。コンバージョンはパーセンテージで表され、より高いコンバージョン率が望まれます。これにより、テストは独立した比率の比較になります。このツールは、安全な結果のテストを作成するために簡単に使用できる必要があります。の適切な値を選択することNが重要です。 上記のリンクされた記事では、2つの独立した比率の検出力分析を使用してを見つけていますN。この方法では、コントロールの変換率を事前に把握し、目標とする変換改善を指定する必要があります。また、有意水準95%および統計的検出力80%を指定します。 質問: N音を決定するこの方法はありますか?その場合、テストを開始する前にコントロールの変換率を決定する最も安全な方法は何ですか? Nコントロールの変換率を事前に知る必要のない適切な判断方法はありますか? リンクされた記事の方法論は適切ですか?そうでない場合、私にリンクできるアクセス可能な簡単に消化できる方法はありますか?

4
変数間の相互作用を考慮する場合、線形回帰とANOVAが異なる値を与えるのはなぜですか?
回帰モデルを使用して、1つの時系列データ(複製なし)を近似しようとしました。データは次のようになります。 &gt; xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 8.118308 24 1 …

3
比較および対比、p値、有意水準およびタイプIエラー
p値、有意水準、タイプIエラーの定義と使用に関して、だれかが簡潔に要約できるかどうか疑問に思っていました。 p値は「少なくとも実際に観測したものと同じくらい極端な検定統計量を取得する確率」として定義され、p値が有意であるかどうかを測定するための有意水準は単なる任意のカットオフ値です。タイプIエラーは、真である帰無仮説を棄却したエラーです。ただし、有意水準とタイプIエラーの違いについては不明ですが、それらは同じ概念ではありませんか? たとえば、コインを1000回裏返し、「頭」に着弾した回数を数える非常に単純な実験を想定します。私の帰無仮説、H0は、heads = 500(不偏コイン)です。次に、有意水準をalpha = 0.05に設定します。 コインを1000回反転し、p値を計算します。p値が0.05より大きい場合、帰無仮説を棄却できず、p値が0.05未満の場合、帰無仮説を棄却します。 今、この実験を繰り返して、p値を計算し、帰無仮説を拒否または拒否し、拒否した/拒否しなかった回数を数えるたびに、帰無仮説の5%を拒否することになります実際にはどれが本当でしたか、それは正しいですか?これがタイプIエラーの定義です。したがって、フィッシャー有意性検定の有意水準は、繰り返し実験を実行した場合の本質的に、ネイマンピアソン仮説検定からのタイプIエラーです。 p値については、最後の実験から0.06のp値を得て、複数の実験を行い、0から0.06のp値を取得したすべての実験を数えた場合、真の帰無仮説を棄却する確率は6%ですか?

5
分類結果の重要性をテストする正しい方法は何ですか
いくつかの異なる分類器をトレーニングしたり、いくつかの異なる特徴抽出方法を使用したりする多くの状況があります。文献では、著者はしばしば、データのランダムな分割のセット(つまり、二重にネストされた交差検証の後)で平均分類誤差を与え、時には分割での誤差にも分散を与えます。しかし、これだけでは、ある分類器が別の分類器よりもはるかに優れていると言うには不十分です。これに対する多くの異なるアプローチを見てきました-カイ2乗検定、t検定、事後検定付きANOVAなどを使用します。 統計的有意性を判断するには、どの方法を使用する必要がありますか?その疑問の根底にあるのは、分類スコアの分布についてどのような仮定を立てるべきかということです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.