タグ付けされた質問 「normality-assumption」

多くの統計手法では、データが正規分布していると想定しています。このタグは、正常性の仮定とテストに関する質問、または*プロパティ*としての正常性に関する質問に使用します。正規分布自体に関する質問には、[正規分布]を使用してください。


5
なぜ正規分布に従う非常に多くの自然現象があるのか​​についての説明はありますか?
これは魅力的なトピックだと思いますが、完全には理解していません。非常に多くの自然現象が正規分布を持つように物理学の法則はどのようになっていますか?それらが均一に分布していると、より直感的に見えるでしょう。 これを理解するのは私にとって非常に難しく、いくつかの情報が欠けていると感じています。誰かが良い説明で私を助けたり、本/ビデオ/記事にリンクできますか?

6
シャピロウィルクテストの解釈
私は統計が初めてなので、あなたの助けが必要です。 次のような小さなサンプルがあります。 H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Rを使用してShapiro-Wilkテストを実行しました。 shapiro.test(precisionH4U$H4U) そして、私は次の結果を得ました: W = 0.9502, p-value = 0.6921 ここで、p値よりも0.05の有意水準がalpha(0.6921> 0.05)よりも大きいと仮定すると、正規分布に関する帰無仮説を拒否できませんが、サンプルに正規分布があると言えますか? ありがとう!

1
仮定が満たされない場合、回帰モデルはどの程度間違っていますか?
回帰モデルをフィッティングするとき、出力の仮定が満たされない場合、具体的にはどうなりますか: 残差が等分散でない場合はどうなりますか?残差対残差対適合プロットでパターンが増加または減少する場合。 残差が正規分布されず、Shapiro-Wilkテストに失敗するとどうなりますか?Shapiro-Wilkの正規性のテストは非常に厳密なテストであり、Normal-QQプロットがある程度合理的である場合でも、データはテストに失敗します。 1つ以上の予測変数が正規分布していない場合、Normal-QQプロットで正しく表示されない場合、またはデータがShapiro-Wilkテストに失敗した場合はどうなりますか? 私は、ハードな白黒の分割がないこと、0.94が正しいこと、0.95が間違っていることを理解しています。質問では、私は知りたいです: 正規性に失敗するとは、R-Squaredの値に応じて適切に適合するモデルを意味します。信頼性が低下したり、まったく役に立たなくなったりしませんか? 偏差はどの程度許容されますか、それともまったく許容されますか? 正規性の基準を満たすためにデータに変換を適用する場合、データがより正常な場合(Shapiro-Wilk検定のP値が高く、通常のQQプロットの方が良い場合)、または役に立たない場合(同等に良好またはデータが正規性テストに合格するまで、元のものと比べて悪いですか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
生データまたは残差の正常性を確認する必要がありますか?
生データではなく、その残差で正規性をテストする必要があることを学びました。残差を計算してからShapiro–WilkのW検定を実行する必要がありますか? 残差はとして計算されますか?バツ私− 平均バツ私−平均X_i - \text{mean} 私のデータと設計については、この前の質問をご覧ください。

3
非常に小さなサンプルサイズ(n = 6など)で正規性をテストすることは意味がありますか?
サンプルサイズは6です。このような場合、Kolmogorov-Smirnov検定を使用して正規性を検定するのは理にかなっていますか?SPSSを使用しました。それぞれの取得に時間がかかるため、サンプルサイズは非常に小さくなっています。それが意味をなさない場合、テストするのに意味のある最小数はいくつのサンプルですか? 注: ソースコードに関連するいくつかの実験を行いました。サンプルは、ソフトウェアのバージョン(バージョンA)でのコーディングに費やされた時間です。 実際には、別のバージョンのソフトウェア(バージョンB)でのコーディングに費やされたサンプルサイズ6があります。 コードバージョンAで費やされた時間がコードバージョンBで費やされた時間と異なるかどうかをテストするために、1サンプルt検定を使用して仮説テストを行いたいと思います(これは私のH1です)。1サンプルのt検定の前提条件は、テストするデータを正規分布する必要があることです。そのため、正常性をテストする必要があります。

4
Shapiro–Wilkは最高の正規性テストですか?Anderson-Darlingのような他のテストよりも優れているのはなぜですか?
私は与えられた有意水準、のためので、シャピロ-ウィルク検定は、最高の正規のテストと見なされることが文献でどこかで読んだ、帰無仮説を棄却する確率は、それの偽は他の場合よりも高い場合正常性テスト。αα\alpha 可能であれば数学的な議論を使用して、他の正常性テスト(アンダーソン-ダーリングテストなど)と比較してどのように機能するかを説明してください。

5
サンプルの分布が非正規の場合、独立したサンプルのt検定はどの程度堅牢ですか?
サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています(一方のグループではn = 33、もう一方のグループでは45)。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか?

5
非正規分散DVのANOVA結果を信頼できますか?
反復測定ANOVAを使用した実験を分析しました。ANOVAは、被験者間要因が2つ、3つ以内(N = 189)の3x2x2x2x3です。エラー率は従属変数です。エラー率の分布は、スキューが3.64、尖度が15.75です。スキューと尖度は、エラー率の90%が0であることの結果です。ここで、正規性テストで以前のスレッドの一部を読むと、少し混乱します。正規に配布されていないデータがある場合は、可能であれば変換するのが最善であると考えましたが、多くの人が、ANOVAまたはT検定で非正規データを分析することは受け入れられると考えているようです。ANOVAの結果を信頼できますか? (FYI、将来的には、二項分布の混合モデルを使用してRのこのタイプのデータを分析する予定です)

9
ping応答時間に関するこのデータがどのような分布を表しているのかを知るにはどうすればよいですか?
ネットワークping時間の実世界のプロセスをサンプリングしました。「往復時間」はミリ秒単位で測定されます。結果はヒストグラムにプロットされます。 ping時間には最小値がありますが、長い上側の尾があります。 これがどのような統計分布であり、そのパラメーターを推定する方法を知りたいです。 ディストリビューションは通常のディストリビューションではありませんが、達成しようとしていることを示すことができます。 正規分布は次の関数を使用します。 2つのパラメーター μ(平均) σ 2 (分散) パラメータ推定 2つのパラメーターを推定する式は次のとおりです。 Excelにあるデータに対してこれらの式を適用すると、次のようになります。 μ= 10.9558(平均) σ 2 = 67.4578(分散) これらのパラメーターを使用すると、サンプリングしたデータの上に「正規」分布をプロットできます。 明らかに正規分布ではありません。正規分布は、無限の上部および下部テールを持ち、対称です。この分布は対称ではありません。 どの原則を適用しますか。これがどのような分布であるかを判断するために、どのフローチャートを適用しますか? 分布に負のテールがなく、長い正のテールがある場合、どの分布がそれに一致しますか? あなたが取っている観測値に分布を一致させる参照はありますか? そして、簡単に言えば、この分布の式は何ですか?また、そのパラメーターを推定する式は何ですか? 「平均」値と「スプレッド」を取得できるように、分布を取得したい: 私は実際にソフトウェアでヒストグラムをプロットしており、理論的な分布をオーバーレイしたい: 注:math.stackexchange.comからクロスポスト 更新:160,000サンプル: 月と月、および無数のサンプリングセッションは、すべて同じ分布を提供します。数学的表現が必要です。 Harveyは、データをログスケールにすることを提案しました。対数スケールでの確率密度は次のとおりです。 タグ:サンプリング、統計、パラメーター推定、正規分布 それは答えではなく、質問の補遺です。これが配布バケットです。もっと冒険好きな人は、Excel(またはあなたが知っているプログラム)にそれらを貼り付けて、分布を見つけることができると思います。 値は正規化されます Time Value 53.5 1.86885613545469E-5 54.5 0.00396197500716395 55.5 0.0299702228922418 56.5 0.0506460012708222 57.5 0.0625879919763777 58.5 0.069683415770654 59.5 0.0729476844872482 …

5
線形モデルの仮定と残差が正規分布していない場合の対処
私は、線形回帰の仮定が少し混乱しています。 これまでのところ、次のことを確認しました。 すべての説明変数は応答変数と線形に相関していました。(これが事実でした) 説明変数間に共線性がありました。(共線性はほとんどありませんでした)。 私のモデルのデータポイントのクックの距離は1未満です(これは、すべての距離が0.4未満であるため、影響ポイントがないためです)。 残差は正規分布します。(これはそうではないかもしれません) しかし、私は次を読みました: (a)従属変数および/または独立変数の分布自体が著しく非正規である、および/または(b)線形性の仮定に違反しているため、正規性の違反がしばしば発生します。 質問1 これにより、独立変数と従属変数を正規分布する必要があるかのように聞こえますが、私が知る限り、そうではありません。私の従属変数は、独立変数の1つと同様に正規分布していません。彼らはすべきですか? 質問2 残差のQQnormalプロットは次のようになります。 これは正規分布とわずかに異なりshapiro.test、残差が正規分布からのものであるという帰無仮説も棄却します。 > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差と近似値は次のようになります。 残差が正規分布していない場合はどうすればよいですか?線形モデルはまったく役に立たないということですか?


4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.