タグ付けされた質問 「assumptions」

統計手順が有効な推定値および/または推論を生成する条件を指します。たとえば、多くの統計手法では、データが何らかの方法でランダムにサンプリングされるという仮定が必要です。推定量に関する理論的な結果には、通常、データ生成メカニズムに関する仮定が必要です。

6
ロジスティック回帰のサンプルサイズは?
調査データからロジスティックモデルを作成します。これは、154人の回答者のみがインタビューされた4つの居住コロニーの小規模な調査です。私の従属変数は「仕事への十分な移行」です。154人の回答者のうち、73人は仕事に十分に移行したが、残りはそうではないと答えたことがわかりました。したがって、従属変数は本質的にバイナリであるため、ロジスティック回帰を使用することにしました。7つの独立変数(3つの連続変数と4つの名義変数)があります。1つのガイドラインでは、各予測変数/独立変数について10のケースが必要であることを示唆しています(Agresti、2007)。このガイドラインに基づいて、ロジスティック回帰を実行しても問題ないと思います。 私は正しいですか?そうでない場合は、独立変数の数を決定する方法を教えてください?

4
Rでのlmer / lme混合モデルの仮定の確認
3つの異なるタスクで30人の男性と30人の女性をテストする繰り返しデザインを実行しました。男性と女性の行動がどのように異なり、それがタスクにどのように依存するかを理解したいと思います。これを調査するためにlmerとlme4の両方のパッケージを使用しましたが、いずれかの方法の仮定を確認しようとしています。私が実行するコードは lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) 相互作用のない単純なモデルと比較し、anovaを実行して、相互作用が最良のモデルであるかどうかを確認しました。 lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) anova(lm.base1, lm.full) anova(lm.base2, lm.full2) Q1:これらのカテゴリカル予測子を線形混合モデルで使用しても大丈夫ですか? Q2:結果変数(「振る舞い」)がそれ自体(性別/タスク間)自体に正規分布する必要はないことを正しく理解していますか? Q3:分散の均一性を確認するにはどうすればよいですか?単純な線形モデルでは、を使用しますplot(LM$fitted.values,rstandard(LM))。plot(reside(lm.base1))十分に使用していますか? Q4:正常性を確認するには、次のコードを使用しますか? hist((resid(lm.base1) - mean(resid(lm.base1))) / sd(resid(lm.base1)), …

5
サンプルの分布が非正規の場合、独立したサンプルのt検定はどの程度堅牢ですか?
サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています(一方のグループではn = 33、もう一方のグループでは45)。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか?

5
線形モデルの仮定と残差が正規分布していない場合の対処
私は、線形回帰の仮定が少し混乱しています。 これまでのところ、次のことを確認しました。 すべての説明変数は応答変数と線形に相関していました。(これが事実でした) 説明変数間に共線性がありました。(共線性はほとんどありませんでした)。 私のモデルのデータポイントのクックの距離は1未満です(これは、すべての距離が0.4未満であるため、影響ポイントがないためです)。 残差は正規分布します。(これはそうではないかもしれません) しかし、私は次を読みました: (a)従属変数および/または独立変数の分布自体が著しく非正規である、および/または(b)線形性の仮定に違反しているため、正規性の違反がしばしば発生します。 質問1 これにより、独立変数と従属変数を正規分布する必要があるかのように聞こえますが、私が知る限り、そうではありません。私の従属変数は、独立変数の1つと同様に正規分布していません。彼らはすべきですか? 質問2 残差のQQnormalプロットは次のようになります。 これは正規分布とわずかに異なりshapiro.test、残差が正規分布からのものであるという帰無仮説も棄却します。 > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差と近似値は次のようになります。 残差が正規分布していない場合はどうすればよいですか?線形モデルはまったく役に立たないということですか?

4
相関の基礎となる仮定と有意性の回帰勾配検定の違い
私の質問は、別の質問のコメントでの@whuberとの議論から生まれました。 具体的には、@ whuberのコメントは次のとおりです。 驚くかもしれない理由の1つは、相関テストと回帰スロープテストの基礎となる仮定が異なることです。そのため、相関とスロープが実際に同じものを測定していることを理解したとしても、なぜそれらのp値は同じである必要があるのでしょうか?これは、これらの問題が単にとが数値的に等しいかどうかよりも深くなることを示しています。rrrββ\beta これは私の考えを得て、私はさまざまな興味深い答えに出くわしました。たとえば、「相関係数の仮定」という質問を見つけましたが、上記のコメントがどのように明確になるかわかりません。 ピアソンのと傾きの関係について、単純な線形回帰でもっと面白い答えを見つけました(こことここを例に参照)私に)。rrrββ\beta 質問1:相関テストと回帰スロープテストの基礎となる仮定は何ですか? 2番目の質問では、次の出力を検討してRください。 model <- lm(Employed ~ Population, data = longley) summary(model) Call: lm(formula = Employed ~ Population, data = longley) Residuals: Min 1Q Median 3Q Max -1.4362 -0.9740 0.2021 0.5531 1.9048 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.3807 4.4224 1.895 0.0789 . …

2
なぜ残差の正規性は、回帰直線を推定するために「非常に重要」なのですか?
Gelman and Hill(2006)はp46に次のように書いています。 一般的に最も重要でない回帰の仮定は、エラーが正規分布しているということです。実際、(個々のデータポイントの予測と比較して)回帰直線を推定する目的では、正規性の仮定はほとんど重要ではありません。したがって、多くの回帰テキストとは対照的に、回帰残差の正常性の診断はお勧めしません。 ゲルマンとヒルはこの点についてこれ以上説明していないようです。 ゲルマンとヒルは正しいですか?その場合、次に: なぜ「まったく重要」なのですか?なぜ重要でもまったく無関係でもないのですか? 個々のデータポイントを予測するときに残差の正規性が重要なのはなぜですか? ゲルマン、A。、&ヒル、J。(2006)。回帰およびマルチレベル/階層モデルを使用したデータ分析。ケンブリッジ大学出版局

2
リッジ回帰の仮定とそれらをテストする方法は何ですか?
多重回帰のための標準的なモデル検討、全ての保留正常、等分散性及びエラーのuncorrelatednessので。ε 〜N(0 、σ 2 I N)Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε 〜N(0 、σ2私n)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) の対角のすべての要素に同じ少量を追加することにより、リッジ回帰を実行するとします。バツXX βr i d g e= [ X′バツ+ k I]− 1バツ′Yβridge=[X′X+kI]−1X′Y\beta_\mathrm{ridge}=[X'X+kI]^{-1}X'Y はバイアス推定器ですが、リッジ係数の平均二乗誤差がOLSによって得られる値よりも小さい値がいくつかあります。実際には、は相互検証によって取得されます。β R I D G E β Kkkkβr i d g eβridge\beta_\mathrm{ridge}ββ\betakkk ここに私の質問があります:リッジモデルの基礎となる仮定は何ですか?具体的には、 リッジ回帰では、通常の最小二乗(OLS)の仮定はすべて有効ですか? 質問1が「はい」の場合、偏った推定量して、等分散性と自己相関の欠如をどのようにテストしますか?ββ\beta リッジ回帰の下で他のOLS仮定(同相性と自己相関の欠如)をテストする作業はありますか?

5
重回帰の仮定:正規性の仮定は定数分散の仮定とどのように異なりますか?
私はこれらが重回帰モデルを使用するための条件であることを読みました: モデルの残差はほぼ正常です。 残差の変動性はほぼ一定です 残差は独立しており、 各変数は結果に直線的に関連しています。 1と2はどう違うのですか? ここにあります。 したがって、上記のグラフは、2標準偏差離れた残差がYハットから10離れていることを示しています。これは、残差が正規分布に従うことを意味します。これから2を推測できませんか?残差の変動性はほぼ一定であること?


2
-testと
背景:私は仮説テストの仕事をしている同僚にプレゼンテーションを行っており、そのほとんどをうまく理解していますが、他の人に説明するだけでなく、理解しようとする結び目で自分を縛っている側面があります。 これは私が知っていると思うことです(間違っている場合は修正してください!) 分散がわかっている場合は正常な統計、分散が不明な場合はttt分布に従う CLT(中央極限定理):サンプル平均のサンプリング分布は、十分に大きいに対してほぼ正規ですnnn(303030になる可能性があり、大きく歪んだ分布の場合は最大300300300になる可能性があります) ttt -distributionは、自由度のために通常考慮することができる&gt;30&gt;30> 30 次の場合に -testを使用します。zzz 母集団の正規分布と分散が既知(任意のサンプルサイズ) 集団正常、分散不明、(CLTによる)n&gt;30n&gt;30n>30 人口二項、、n q &gt; 10np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 次の場合に -testを使用します。ttt 母集団は正常、分散は不明、n&lt;30n&lt;30n<30 母集団または分散に関する知識はなく、ですが、サンプルデータは正常に見える/テストなどに合格しているため、母集団は正常であると見なすことができますn&lt;30n&lt;30n<30 だから私は残っています: サンプルについてと&lt; ≈ 300(?)、人口と知られている分散/不明についての知識がありません。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 だから私の質問は: サンプリング分布が非正規に見える場合、平均のサンプリング分布が正常である(つまり、CLTが作動している)と仮定できるのは(母集団の分布または分散に関する知識がない場合)です。一部のディストリビューションにはが必要であることは知っていますが、n &gt; 30の場合は常にzテストを使用すると言うリソースがあるようです...n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 よくわからない場合は、データが正常かどうかを調べます。サンプルデータが正常に見える場合、検定を使用します(母集団が正常であり、n &gt; 30であるため)。zzzn&gt;30n&gt;30n>30 不明なケースのサンプルデータが正常に見えない場合はどうですか?まだ -testまたはz -testを使用する状況がありますか、または常にノンパラメトリックテストを変換/使用することを検討していますか?CLTにより、nの値によって平均のサンプリング分布は正規に近似することがわかりますが、サンプルデータはそのnの値が何であるかを教えてくれません。サンプルデータは非正規であり、サンプル平均はnormal / tに従います。実際に平均のサンプリング分布が正規/ tであったが、それがわからなかったときに、ノンパラメトリック検定を変換/使用する場合がありますか? tttzzznnnnnntttttt

4
実際には、データが仮定を完全に満たしていない場合、人々はどのように分散分析を処理しますか?
これは厳密な統計問題ではありません。ANOVAの仮定に関するすべての教科書を読むことができます。実際の作業アナリストが仮定を完全に満たさないデータをどのように処理するかを考えています。私はこのサイトで多くの質問に答えを探しましたが、ANOVAを使用しないとき(抽象的で理想的な数学的コンテキストで)またはRで以下に説明するいくつかの方法を行う方法についての投稿を探し続けています。人々が実際にどのような決定を下し、なぜそれを決定しようとしているのか。 4つのグループのツリー(統計ツリーではなく実際のツリー)からグループ化されたデータの分析を実行しています。各ツリーには約35の属性のデータがあり、各属性を調べて、その属性でグループが大きく異なるかどうかを判断します。ただし、いくつかのケースでは、分散が等しくないため、ANOVAの仮定にわずかに違反します(Leveneのテストによると、alpha = .05を使用)。 私が見るように、私のオプションは次のとおりです。1.データをパワー変換し、Levene p-valを変更するかどうかを確認します。2.ウィルコクソンのようなノンパラメトリック検定を使用します(もしそうなら、どれですか?)。3.ボンフェローニのように、ANOVAの結果に対して何らかの修正を行います(実際にこのようなものが存在するかどうかはわかりませんか?)。最初の2つのオプションを試したところ、わずかに異なる結果が得られました。場合によっては、一方のアプローチが重要で、もう一方のアプローチは重要ではありません。私はp値の釣りのtrapに陥ることを恐れており、どのアプローチを使用するのかを正当化するのに役立つアドバイスを探しています。 また、平均と分散が相関しない限り(つまり、両者が一緒に増加する)ANOVAの場合、不均一分散性はそれほど大きな問題ではないことを示唆するものも読んでいます。そのようなパターン?もしそうなら、これのテストはありますか? 最後に、ピアレビューされたジャーナルへの掲載のためにこの分析を行っていることを付け加える必要があります。そのため、私が決めようとするアプローチはすべて、レビューアーと一緒に合格しなければなりません。だから、もし誰かが同様の公開された例へのリンクを提供できれば素晴らしいでしょう。

1
予測モデリング-混合モデリングを気にする必要がありますか?
予測モデリングの場合、ランダム効果や観測の非独立性(反復測定)などの統計概念に関心を持つ必要がありますか?例えば.... 5つのダイレクトメールキャンペーン(1年間で発生)のさまざまな属性と購入フラグ付きのデータがあります。理想的には、これらすべてのデータを組み合わせて使用​​し、キャンペーンの時点で顧客の属性を考慮した購入モデルを構築します。その理由は、購入のイベントがまれであり、できるだけ多くの情報を使用したいからです。特定の顧客が1〜5個のキャンペーンに参加する可能性があります。つまり、レコード間に独立性がないことを意味します。 以下を使用する場合、これは重要ですか? 1)機械学習アプローチ(例、ツリー、MLP、SVM) 2)統計的アプローチ(ロジスティック回帰)? **ADD:** 予測モデリングに関する私の考えは、モデルが機能する場合、それを使用することです。そのため、仮定の重要性を本当に考えたことはありません。上記のケースについて考えると、私は不思議に思いました。 などの機械学習アルゴリズムを使用しMLP and SVMます。これらは、上記の例のようなバイナリイベントのモデル化に使用されますが、時系列データも明確に相関しています。ただし、多くの場合、尤度であり、エラーがiidであると仮定して導出される損失関数を使用します。たとえば、Rの勾配ブーストされたツリーはgbm、二項(ページ10)から派生した逸脱損失関数を使用します。

2
ロジスティック回帰にiidの仮定はありますか?
ロジスティック回帰の応答変数にiidの仮定はありますか? たとえば、データポイントがあるとします。応答は、ベルヌーイ分布から来ているようです。したがって、異なるパラメーター持つベルヌーイ分布を持つ必要があります。100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp したがって、それらは「独立」していますが、「同一」ではありません。 私は正しいですか? PS。「機械学習」の文献からロジスティック回帰を学びました。そこでは、目的関数を最適化し、仮定についてあまり語ることなく、データのテストに適しているかどうかを確認します。 私の質問は、この投稿で始まりました。一般化線形モデルのリンク関数の理解ここで、統計的仮定の詳細を調べます。

1
LASSOの前提
LASSO回帰シナリオで y= Xβ+ ϵy=Xβ+ϵy= X \beta + \epsilon、 LASSOの推定値は、次の最適化問題によって与えられます 分β| | y− Xβ| | +τ| | β| |1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 \ epsilonに関する分布の仮定はありϵϵ\epsilonますか? OLSシナリオでは、ϵϵ\epsilonは独立しており、正規分布していると予想されます。 LASSO回帰で残差を分析することは意味がありますか? LASSO推定値は、\ beta_jの独立した二重指数事前分布の下で事後モードとして取得できることを知っていますβjβj\beta_j。しかし、標準の「仮定検査フェーズ」は見つかりませんでした。 前もって感謝します (:

4
クラスター分析の前提
初歩的な質問をおologiesび申し上げますが、私はこの形式の分析は初めてであり、これまでのところ原則の理解は非常に限られています。 多変量/単変量テストのパラメトリックな仮定の多くがクラスター分析に適用されるかどうか疑問に思っていましたか?私がクラスター分析に関して読んだ情報源の多くは、仮定を特定できていません。 観測の独立性の仮定に特に興味があります。私の理解では、この仮定の違反は(たとえば、ANOVAやMAVOVAで)誤差の推定に影響を与えるため、重大であるということです。私のこれまでの読書から、クラスター分析は大部分が記述的な手法であるように思われます(特定の特定のケースでの統計的推論のみを含む)。したがって、独立性や通常の分散データなどの仮定は必要ですか? この問題を説明するテキストの推奨事項は大歓迎です。どうもありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.