タグ付けされた質問 「assumptions」

統計手順が有効な推定値および/または推論を生成する条件を指します。たとえば、多くの統計手法では、データが何らかの方法でランダムにサンプリングされるという仮定が必要です。推定量に関する理論的な結果には、通常、データ生成メカニズムに関する仮定が必要です。

2
「無料昼食定理」は一般的な統計検定に適用されますか?
私が働いていた女性が、いくつかのデータに対して一元配置分散分析を行うように頼みました。私は、データは反復測定(時系列)データであり、独立性の仮定に違反していると思いました。彼女は、私が仮定を心配するべきではなく、ただテストを行うべきであると答え、彼女は仮定が満たされなかったかもしれないことを考慮に入れるでしょう。 それは私には正しくないようでした。いくつかの調査を行ったところ、K-meansクラスタリングは無料の昼食ではないというデビッド・ロビンソンによるこの素晴らしいブログ投稿が見つかりました。私は元の論文を見て、いくつかのものをフォローしていますが、率直に言って、数学は頭の上に少しあります。 デビッド・ロビンソンによると、その要点は、統計的検定の力はその仮定に由来するようです。そして、彼は2つの素晴らしい例を挙げています。他の記事やブログの記事を読み進めていくと、教師付き学習または検索の観点から常に参照されているようです。 私の質問は、この定理は一般に統計的検定に適用されるのでしょうか?言い換えれば、t検定またはANOVAの威力はその仮定の順守から来ていると言うことができ、自由な昼食の定理を引用できますか? 私は前上司に、私がやった仕事に関する最終文書を借りています。そして、統計的検定の仮定を無視することはできないと述べて、無料昼食定理を参照できるかどうか知りたいです。結果を評価するときに説明します。

2
正規分布のXとYは、正規分布の残差になる可能性が高いですか?
ここでは、線形回帰における正規性の仮定の誤解について説明し(「正規性」は残差ではなくXおよび/またはYを参照する)、ポスターは非正規分布のXおよびYを持つことが可能かどうかを尋ねますまだ正規分布の残差があります。 私の質問は、正規分布のXとY は正規分布の残差をもたらす可能性が高いですか?多くの関連する投稿がありましたが、この質問を具体的に尋ねられた人は誰もいないと思います。 回帰が1つしかない場合、これはおそらく些細な点ですが、複数のテストがある場合はそれほど重要ではないことを理解しています。だから、100個のX変数があり、それらはすべて同じスキューを持っているので、すべてをテストしたいとします。それらをすべて正規分布に変換した場合、非正規分布の残差のために再検査が必要なX変数が少なくなります(異なる/変換なし)か、または回帰前の変換は完全に任意ですか?

2
分散共分散行列の解釈
線形モデルがModel1ありvcov(Model1)、次の行列を与えると仮定します。 (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 この例では、このマトリックスは実際に何を表示しますか?モデルとその独立変数に対して安全に行える仮定は何ですか?

2
一般化線形モデルでの正規性の残差の確認
このホワイトペーパーでは、一般化線形モデル(二項および負の二項誤差分布の両方)を使用してデータを分析します。しかし、メソッドの統計分析セクションには、次のステートメントがあります。 ... 2つ目は、ロジスティック回帰モデルを使用してプレゼンスデータをモデリングし、一般化線形モデル(GLM)を使用して採餌時間データをモデリングすることです。対数リンク関数を伴う負の二項分布を使用して、採餌時間データをモデル化し(Welsh et al。1996)、モデルの妥当性を残基の検査により検証しました(McCullagh&Nelder 1989)。Shapiro–WilkまたはKolmogorov–Smirnov検定を使用して、標本サイズに応じて正規性を検定しました。データは分析の前にログ変換され、正常に準拠しました。 彼らが二項および負の二項誤差分布を仮定する場合、確実に残差の正規性をチェックするべきではありませんか?

4
回帰残差分布の仮定
誤差に分布の仮定を置く必要があるのはなぜですか、すなわち yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}と、ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2})。 書いてみませんか yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i}とyi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2})、 ここで、いずれの場合にϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y}。 分布に関する仮定は、データではなくエラーに置かれていることを強調していますが、説明はありません。 私はこれら2つの処方の違いを本当に理解していません。私は、データに分布の仮定が置かれている場所をいくつか見ています(ベイジアンのように見えますが、ほとんどそうです)が、ほとんどの場合、仮定はエラーに置かれています。 モデル化するとき、なぜどちらか一方の仮定から始めることを選択するのはなぜですか?

2
生データで回帰的なモデ​​ルの仮定をテストする人と、残差でテストする人がいるのはなぜですか?
私は実験心理学の博士課程の学生であり、データの分析方法に関するスキルと知識の向上に努めています。 心理学の5年目まで、私は回帰的モデル(ANOVAなど)が次のことを想定していると考えていました。 データの正常性 データの分散均一性など 私の学部課程では、仮定はデータに関するものであると信じるようになりました。しかし、私の5年目に、私のインストラクターの何人かは、仮定が生データではなく誤差(残差によって推定される)についてであるという事実を強調しました。 最近、私の同僚の何人かと仮定の質問について話していました。同僚も、大学の最後の年にのみ残差の仮定をチェックすることの重要性を発見したことを認めました。 私がよく理解していれば、回帰的なモデ​​ルはエラーを仮定しています。したがって、残差の仮定を確認することは理にかなっています。もしそうなら、なぜ一部の人々は生データの仮定を確認しますか?そのようなチェック手順は、残差をチェックすることで得られるものに近いためでしょうか? 私はこの問題について、同僚や私よりも正確な知識を持っている人たちと議論することに非常に興味を持っています。あなたの答えを前もって感謝します。

2
対応のないt検定にはどのような正規性の仮定が必要ですか?そして、いつ彼らは会いますか?
対応のあるt検定を実施したい場合、要件は(正確に理解していれば)一致した測定単位間の平均差が正常に分布することです。 対応のあるt検定では、一致した測定単位間の差が正常に分布するという要求で明確にされます(2つの比較されたグループのそれぞれの分布が正常でない場合でも)。 ただし、対応のないt検定では、一致した単位の違いについて話すことはできません。そのため、2つのグループの観測値が正常であり、平均の差が正常になるようにする必要があります。それは私の質問に私を導きます: 2つの非正規分布が可能であるため、それらの平均の差が正規分布になりますか?(したがって、私が理解する限り、それらに対してペアのないt検定を実行するために必要な要件を満たしてください) 更新:(答えてくれてありがとう)私たちが探している一般的なルールは、平均の差は実際に正常であるということです。これは私にとって驚くべきことです(驚くことではなく、ただ驚くべきことです)、これがペアになっていないt検定でどのように機能するかについてですが、単一サンプルのt検定ではうまくいきません。以下に、いくつかのRコードを示します。 n1 <- 10 n2 <- 10 mean1 <- 50 mean2 <- 50 R <- 10000 # diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2))) # hist(diffs) P <- numeric(R) MEAN <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) y2 <- runif(n2, 0, …

1
条件付き同分散性と異分散性
以下からの計量経済学、林文夫(Chpt 1)によって: 無条件の同相性: 誤差項E(εᵢ²)の2番目の瞬間は、観測全体で一定です 関数形式E(εᵢ²| xi)は観測全体で一定です 条件付き同相性: 誤差項E(εᵢ²)の2次モーメントが観測全体で一定であるという制限が解除されます。 したがって、条件付き二次モーメントE(εᵢ²| xi)は、xᵢに依存する可能性があるため、観測全体で異なる可能性があります。 それで、私の質問: 条件付き同相性は、異相性とどのように異なりますか? 私の理解では、2番目の瞬間が観測(xᵢ)で異なる場合、不均一分散性があるということです。

1
正規性違反の程度の良い指標とは何ですか?また、その指標にどんな説明ラベルを付けることができますか?
環境: 以前の質問で、@ Robbieは約600のケースを対象とした調査で、正規性の検定が有意な非正規性を示唆しているにもかかわらず、プロットが正規分布を示唆している理由を尋ねました。何人かの人々は、正規性の有意性検定はあまり有用ではないと主張しました。小さなサンプルの場合、このようなテストは正常性の軽度の違反を検出する能力があまりなく、大きなサンプルの場合、問題にならないほど十分に小さい正常性の違反を検出します。 この問題は、有意性検定と効果サイズに関する議論に似ているように思えます。有意性検定のみに焦点を当てると、大きなサンプルがある場合、実際的な目的には関係のない小さな影響を検出でき、小さなサンプルでは十分なパワーがありません。 いくつかの例では、小さな影響は統計的に有意であるため、サンプルが「大きすぎる」可能性があることを人々に助言するテキストを見たこともあります。 有意性検定と効果サイズのコンテキストでは、1つの簡単な解決策は、効果があるかどうかのバイナリー決定ルールに取り付かれるのではなく、関心のある効果のサイズの推定に焦点を当てることです。効果サイズの信頼区間はそのようなアプローチの1つですが、ベイジアンアプローチの何らかの形を採用することもできます。さらに、さまざまな研究領域は、「小さい」、「中」、「大きい効果」などのヒューリスティックラベルを適用して、特定の効果サイズが実際的な意味で何を意味するかについてのアイデアを構築します。これは、対象となる特定のパラメーターを推定する際の精度を最大化するために、サンプルサイズを最大化するというインテリジェントな推奨にもつながります。 これにより、効果サイズの信頼区間に基づく同様のアプローチが、仮定テスト、特に正規性テストに関してそれほど広く採用されないのはなぜでしょうか。 質問: データが正常性に違反している程度の最良の単一インデックスは何ですか? それとも、正規性違反の複数の指標(たとえば、歪度、尖度、異常値の有病率)について話した方が良いですか? インデックスの信頼区間はどのように計算できますか(またはおそらくベイジアンアプローチ)? 正常性の違反の程度を示すために、そのインデックスのポイントにどのような種類の口頭ラベルを割り当てることができますか(軽度、中程度、強い、極端など)?このようなラベルの目的は、正規性の違反が問題となる場合の直感を訓練する経験の少ないアナリストを支援することです。

3
因子分析の前提条件は何ですか?
[クラシック、線形] 因子分析(FA)、特にFAの前(および場合によっては後で)に行われる仮定を本当に理解しているかどうかを確認したいと思います。 一部のデータは最初に相関する必要があり、それらの間には可能な線形関係があります。因子分析を行った後、データは通常分布され(各ペアの2変量分布)、因子(共通と詳細)の間に相関はなく、1つの因子の変数と他の因子の変数の間に相関はありません。 それが正しいか?

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
線形回帰における正規性の仮定
線形回帰の仮定として、エラーの分布の正規性は、誤って「拡張」されるか、yまたはxの正規性の必要性として解釈されることがあります。 XとYが非正規であるが、エラー項があり、したがって得られた線形回帰推定が有効であるシナリオ/データセットを構築することは可能ですか?

2
回帰:なぜ条件とする残差ではなく、全体の残差の正規性をテストするのですか?
線形回帰では、エラーはyの予測値を条件として、正規分布であると想定されていることを理解しています。次に、残差をエラーの一種のプロキシと見なします。 多くの場合、次のような出力を生成することをお勧めします。ただし、各データポイントの残差を取得し、それを1つのプロットにまとめるポイントが何であるかは理解できません。 yの各予測値に通常の残差があるかどうかを適切に評価するのに十分なデータポイントがありそうにないことを理解しています。 ただし、通常の残差が全体として別個のものであるかどうか、およびyの各予測値での通常の残差のモデル仮定に明確に関連しない問題ではないですか?yの予測値ごとに通常の残差があり、全体として残差が非常に非正規であるのではないでしょうか。

3
反復測定ANOVAが球形性を仮定するのはなぜですか?
反復測定ANOVAが球形性を仮定するのはなぜですか? 球形性とは、グループ間のすべてのペアごとの差異の分散が同じであるという仮定を意味します。 特に、これがなぜ仮定である必要があるのか​​、また観察されたグループスコアの分散自体が同じであるのではないのか、私にはわかりません。

1
非正規分布のエラーが重要性ステートメントの有効性を損なうのはなぜですか
OLSモデルを検討する場合、正規性の仮定があり、エラーは正規分布します。私はCross Validatedを閲覧してきましたが、エラーが正常であるために、YとXが通常である必要はないようです。私の質問は、非正規分布エラーがある場合、なぜ重要性ステートメントの有効性が損なわれるのかということです。信頼区間が広すぎたり狭すぎたりするのはなぜですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.