タグ付けされた質問 「assumptions」

統計手順が有効な推定値および/または推論を生成する条件を指します。たとえば、多くの統計手法では、データが何らかの方法でランダムにサンプリングされるという仮定が必要です。推定量に関する理論的な結果には、通常、データ生成メカニズムに関する仮定が必要です。

2
比例オッズの仮定の確認は、polr関数を使用した順序ロジスティック回帰で保持されます
MASSパッケージの 'polr'関数を使用して、15の連続的な説明変数を持つ順序カテゴリカル応答変数の順序ロジスティック回帰を実行しました。 コード(以下に表示)を使用して、モデルがUCLAのガイドで提供されているアドバイスに従ってプロポーショナルオッズの仮定を満たしていることを確認しました。ただし、さまざまなカットポイントの係数が類似しているだけでなく、まったく同じであることを示す出力について少し心配しています(下の図を参照)。 FGV1b <- data.frame(FG1_val_cat=factor(FGV1b[,"FG1_val_cat"]), scale(FGV1[,c("X","Y","Slope","Ele","Aspect","Prox_to_for_FG", "Prox_to_for_mL", "Prox_to_nat_border", "Prox_to_village", "Prox_to_roads", "Prox_to_rivers", "Prox_to_waterFG", "Prox_to_watermL", "Prox_to_core", "Prox_to_NR", "PCA1", "PCA2", "PCA3")])) b <- polr(FG1_val_cat ~ X + Y + Slope + Ele + Aspect + Prox_to_for_FG + Prox_to_for_mL + Prox_to_nat_border + Prox_to_village + Prox_to_roads + Prox_to_rivers + Prox_to_waterFG + Prox_to_watermL + Prox_to_core …

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
SPSS出力を正しく解釈するための反復測定ANOVA仮定の理解
さまざまな報酬条件がタスクのパフォーマンスに影響を与える可能性があるかどうかを調査しています。それぞれn = 20の2つのグループによる小規模な研究のデータがあります。3つの異なる「報酬」条件でのパフォーマンスに関連するタスクのデータを収集しました。タスクには、3つの条件のそれぞれにおけるパフォーマンスが2回、ランダムな順序で含まれていました。異なる「報酬」条件のそれぞれで、各グループのタスクパフォ​​ーマンスに平均差があるかどうかを確認したいと思います。 IV =グループタイプ DV = 3つの条件にわたるタスクパフォ​​ーマンスの平均測定値 反復測定ANOVAからの出力とSPSSの生データセットへのアクセスがありますが、続行方法がわかりません。Pallantのテキストは多少制限されているため、この解釈の段階的なガイドを見つけることができませんでした。私の特定の問題は次の分野にあります: 各変数の正常性を個別に、またはIVの各レベルの組み合わせ内でチェックしますか?それが組み合わせ内にある場合、それをどのようにチェックしますか? 最初にモークリーのテストをチェックしますか?違反している場合、それはどういう意味ですか?違反していない場合、それはどういう意味ですか? 多変量テストの表、または被験者内効果のテストをいつ見ても大丈夫ですか?どちらか(または両方?)を使用するのが適切かどうかはわかりません。 ペアワイズ比較を見ても大丈夫ですか?多変量または被験者内効果が有意性を示さない場合(つまり、P <0.05)、そうすることは直観に反するように見えますが、私は再び確信が持てません。

1
ANOVA、t検定、ノンパラメトリック検定の独立性仮定に関する質問
私は統計学の初心者であり、統計的検定の独立性の仮定について多少の混乱があります。 インターネットを検索したところ、t検定の場合、2つのグループの観測値は独立しているはずです(つまり、サンプル1の測定値とサンプル2の測定値は異なるはずです)。他のいくつかの情報によれば、(同じグループ内であっても)すべての観測値は独立しているはずです。どちらが正しいか? ANOVAの独立性の仮定とt検定の独立性の仮定は同じですか? Wilcoxonの符号付き順位検定などのノンパラメトリック検定でも、独立性の仮定を満たす必要がありますか?

4
Tobit回帰モデルを適用するための前提条件は何ですか?
Tobit回帰モデルに関する私の(非常に基本的な)知識は、私が好むようなクラスからのものではありません。代わりに、私はいくつかのインターネット検索を通じてあちこちの情報を拾い上げました。切り捨てられた回帰の仮定での私の最良の推測は、それらが通常の最小二乗(OLS)の仮定に非常に類似していることです。それが正しいかどうかはわかりませんが。 したがって、私の質問:Tobit回帰を実行するときに確認すべき前提条件は何ですか? 注: この質問の元の形式は切り捨てられた回帰を指していましたが、これは私が使用したり質問したりするモデルではありませんでした。質問を修正しました。

1
ロジスティック回帰のまれなイベントの結果は何ですか?
サンプルサイズは、あらゆる統計的手法で検出力に影響することを知っています。各予測子に対して回帰が必要とするサンプル数の目安があります。 また、ロジスティック回帰の従属変数の各カテゴリのサンプル数が重要であるとよく耳にします。どうしてこれなの? カテゴリの1つのサンプル数が少ない(まれなイベント)場合、ロジスティック回帰モデルに実際にどのような影響がありますか? 従属変数の各レベルの予測子の数とサンプル数の両方を組み込んだ経験則はありますか?


2
実際のケースで、テストの前提をテストせずに、どのように検証するか
テストの結果に基づいて使用するテストを選択した場合、結果の複合テストには未知のプロパティ(タイプIおよびIIのエラー率)があるため、正式にはテストの仮定をテストすることはできません。これが、統計への「シックスシグマ」のようなアプローチ(テスト結果に基づく決定木を使用して、使用するテストを選択する)がプロの統計学者の間で悪いラップを得る理由の1つだと思います。 ただし、実際のデータでは、多くの場合、古典的な仮定が適用されない可能性があるサンプルを取得するため、何らかの方法で確認する必要があります。では、実際に仕事や研究で何をしているのですか?非公式チェックを実行します。たとえば、データの分布を見て、tを使用します-経験的分布が歪んでいないように見えるときのテスト?これは私がほとんどの場合行われていると思うものです。ただし、この「非公式テスト」の結果に基づいて決定を行う限り、テストのプロパティに影響を与えます。もちろん、チェックを使用して決定を行わない場合、チェックは役に立たないため、貴重な時間を無駄にしてはいけません。もちろん、正式なテストプロパティは過大評価されており、実際にはそれを信仰する必要はないと私に答えることができます。これが、理論的な背景だけでなく、実際にあなたが何をしているかに興味がある理由です。 別のアプローチは、より少ない仮定で常にテストを使用することです。通常、私が好むよう額装されたこのアプローチを見てきたノンパラメトリック上でテストをパラメトリック以下の前提条件(前者は検定統計量は、パラメータのベクトルでインデックスさ分布の家族から来て、これより堅牢であることを前提としないので、テスト)。これは一般的に正しいですか?このアプローチでは、場合によっては、パワー不足のテストを使用するリスクがありませんか?よく分かりません。適用される統計の有用な(おそらく単純な)参照はありますか?これは、使用するテスト/モデルのリストを、古典的なテスト(t検定、カイ2乗など)のより良い代替として、いつ使用するかを示していますか?

3
ANOVAで等分散性の仮定に違反したときに発生する可能性がある最悪の事態は何ですか?
これは、この投稿を確認した後のフォローアップの質問です。違いは、非正規の異分散データの統計的検定を意味しますか? 明確にするために、私は実用的な観点から質問しています(理論的な応答が歓迎されないことを示唆するものではありません)。グループ間に正常性は存在しますが(上記の質問のタイトルとは異なります)、グループの差異が実質的に異なる場合、研究者が観察する可能性のある最悪の事態は何ですか? 私の経験では、このシナリオで最も発生する問題は、事後比較の「奇妙な」パターンです。(これは私の公開された作品と教育環境の両方で観察されています...以下のコメントでこれの詳細を提供してうれしいです。)私が観察したのはこれに似たものです: 3つのグループがあります。(オムニバス)ANOVAはを与え、ペアワイズ検定はが他の2つのグループと統計的に有意に異なることを示唆しています...しかしとM1&lt; M2&lt; M3M1&lt;M2&lt;M3M_1 < M_2 < M_3p &lt; αp&lt;αp<\alphatttM2M2M_2M1M1M_1M3M3M_3統計的に有意差はありません。私の質問の一部は、これが他の人が観察したものであるかどうかですが、比較可能なシナリオで他にどのような問題を観察しましたか? 私の参照テキストを簡単に確認すると、ANOVAは、等分散性の仮定の軽度から中程度の違反に対してかなり堅牢であり、サンプルサイズが大きい場合はさらに強固であることがわかります。ただし、これらのリファレンスでは、(1)何が問題になるか、または(2)多数のグループで何が発生するかを具体的に述べていません。

1
素人が自分のデータについて不正確な結論を出すのを防ぐ方法は?
私は主にSQLのデータアナリストとして、内部顧客に運用データを提供しています。統計分析はめったに行いません。 最近、内部顧客が不適切に設計されたプロジェクト(制御グループなし、計画された方法論なしなど)のデータを使用して来て、ビジネスプラクティスを形作るためにそれを使用できるように、結果のデータ分析を行うように求めています。 「研究」は非常に初歩的であり、研究方法や統計の知識がなく、重要なビジネス慣行に影響を与えようとする人々によって実行されます。最初から設計されていなかったため、統計分析はできません。 関係する人口を超えて彼らの「研究」を一般化することができないことを彼らに知らせるために彼らにどんな資源を向けることができますか?これにはどの言語を使用しますか?

2
正規分布されていないデータに対して回帰は機能しますか?
変数xとyが一緒にまたは個別にQ_7(上記のヒストグラム)に大きく影響するかどうかを確認しようとしています。Shapiro-Wilk正規性テストを実行し、以下を取得しました shapiro.test(Q_7) ## data: Q_7 ## W = 0.68439, p-value &lt; 2.2e-16 このディストリビューションでは、次の回帰は機能しますか?または、私がしなければならない別のテストはありますか? lm(Q_7 ~ x*y)

1
連続変数の比例ハザード仮定を評価する方法
比例ハザードモデルで連続変数の仮定を確認するときに問題が発生します。変数が多くのレベルを持つ因子である場合、ログランク検定を使用するか、生存曲線のlog(-log)変換が平行かどうかを確認できます。しかし、変数が連続的である場合はどうでしょうか?その方法はまだ有効ですか?シェーンフェルトのテストは解決策ですか?

2
残差の非正規性
残差の正規分布の重要性に疑問を呈するように見えるこの投稿を参照します。これは、不均一分散とともに、ロバストな標準誤差を使用することで回避できる可能性があると主張しています。 私はさまざまな変換(ルート、ログなど)を検討しましたが、すべて問題を完全に解決するのに役に立たないことがわかりました。 これが私の残差のQQプロットです。 データ 従属変数:すでに対数変換を使用(このデータの外れ値の問題と歪度の問題を修正) 独立変数:会社の年齢、およびいくつかのバイナリ変数(指標)(後で、独立変数として別の回帰のためにいくつかのカウントがあります) iqrStata のコマンド(Hamilton)は、正規性を除外する重大な外れ値を特定しませんが、下のグラフはそうでないことを示唆しており、Shapiro-Wilkテストもそうです。

1
一般化線形モデルは一般線形モデルをどのように一般化しますか?
ウィキペディアから 一般線形モデル(GLM)は統計線形モデルです。これは1 と書くことができます。Y = X B + U、Y=XB+U, \mathbf{Y} = \mathbf{X}\mathbf{B} + \mathbf{U}, ここで、YYYは一連の多変量測定の行列、バツXXは設計行列の可能性がある行列、BBBは通常推定されるパラメーターを含む行列であり、UUUはエラーまたはノイズを含む行列。エラーは通常、多変量正規分布に従うと想定されます。 それは言う エラーが多変量正規分布に従わない場合は、一般化線形モデルを使用して、YYYおよびに関する仮定を緩和できUUUます。 一般化線形モデルが一般線形モデルのYYYとに関する仮定をどのように緩和するのかと思っていましたかUUU? 私は彼らの別の関係を反対方向に理解できることに注意してください: 一般的な線形モデルは、アイデンティティリンクを持つ一般化された線形モデルの場合と見なすことができます。 しかし、これが私の質問に役立つとは思えません。

1
線形回帰における変数バイアスの省略
変数バイアスの省略について、哲学的な質問があります。 我々は、一般的な回帰モデル(母集団モデル)は サンプルが由来である(Y 、X 1、。。。、X N)、次いで、及びOLS推定値は非常にうまく挙動する条件の束。Y=β0+β1X1+...+βnXn+υ,Y=β0+β1X1+...+βnXn+υ, Y= \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \upsilon, (Y,X1,...,Xn)(Y,X1,...,Xn)(Y,X_1,...,X_n) 私たちは主な変数の1を省略した場合、我々は、それを知って、、このかもしれないバイアスの推定値β 0、β 1、。。。、β K - 1、β 、K + 1、。。。、β nは。これは、少なくとも、推定上の変数の残りの効果影響を与えるY、そしてまたについて仮説検定β 1、β 2、。。。、予測値は信頼できないため。XkXkX_kβ0,β1,...,βk−1,βk+1,...,βnβ0,β1,...,βk−1,βk+1,...,βn\beta_0, \beta_1, ..., \beta_{k-1}, \beta_{k+1}, ..., \beta_nYYYβ1,β2,...β1,β2,...\beta_1, \beta_2, ... 実は、どの変数が真の母集団モデルにあるのかわかりません。代わりに、候補者が多数あり、そこから分析して最も適切なサブセットを見つける必要があります。この変数選択のプロセスでは、OLS推定と仮説検定を再度使用します。これに基づいて、さまざまな変数を拒否または含めます。しかし、各候補モデルは関連する変数を省略しているため(真のモデルを見つけることはできません)、これらの決定は偏った結果に基づいているのではないでしょうか。では、なぜ彼らを信頼すべきなのでしょうか。 (たとえば、1つの変数を選択してから残りを追加するフォワードステップワイズ法を考えています。推論を行うモデルを比較し、省略された変数がすべてを妨害している可能性があると考えています。) 私はそれを考え始めるまでこのトピックについて心配しすぎたことは一度もありませんでしたし、どこか間違っていると確信しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.