タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。


2
Rのlmで調整されたR-2乗式とは何ですか?
調整済みRの2乗のR で使用される正確な式は何lm() ですか?どうすれば解釈できますか? 調整されたr-2乗式 調整されたR-2乗を計算するためのいくつかの式が存在するようです。 ウェリーの式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} マクネマーの式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 主の公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} スタインの式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科書の説明 Fieldの教科書によると、Rを使用した統計の発見(2012、p。273)Rは、Wherryの方程式を使用します。彼は、Wherryの公式を示していません。彼は、Steinの式を(手で)使用して、モデルがどのように交差検証されるかを確認することを推奨します。 Kleiber / Zeileis、Applied Econometrics with R(2008、p。59)は、「Theilの調整済みR 2乗」であると主張し、その解釈が複数のR 2乗からどのように変化するかを正確に述べていません。 Dalgaard、Introductory Statistics with R(2008、p。113)は、「[調整されたRの2乗]を100%掛けると、「%分散の減少」と解釈できる」と書いています。彼は、これがどの式に対応するかについては述べていません。 私は以前、R乗がモデルに追加の変数を追加するとペナルティを与えると考え、広く読んでいました。現在、これらの異なる式の使用は、異なる解釈を必要とするようです。また、スタックオーバーフロー(単一変量最小二乗回帰における複数R 2乗と調整R 2乗の違いは何ですか?)、およびUPennにあるウォートンスクールの統計辞書に関する関連する質問も調べました。 ご質問 Rによって調整されたr平方に使用される式はどれ lm()ですか? どうすれば解釈できますか?

5
相互作用の影響を識別するベストプラクティスは何ですか?
モデル内の変数の可能な組み合わせを文字通りテストする(x1:x2またはx1*x2 ... xn-1 * xn)以外。独立変数(できれば)の間に相互作用が存在するべきか、そうでないのかをどのように識別しますか? 相互作用を特定しようとする際のベストプラクティスは何ですか?使用できる、または使用できるグラフィカルな手法はありますか?

7
重回帰モデルに含める変数の選択
現在、多重線形回帰を使用してモデルを構築しています。私のモデルをいじくり回した後、どの変数を保持し、どの変数を削除するかをどのように決定するのが最善かわからない。 私のモデルは、DVの10個の予測子から始まりました。10個すべての予測変数を使用した場合、4つが有意と見なされました。明らかに正しくない予測子の一部のみを削除すると、最初は重要ではなかった予測子の一部が重要になります。私の質問に私を導きます:どの予測子をモデルに含めるかをどのように決定するのですか?すべての予測変数を使用してモデルを一度実行し、重要でない予測変数を削除してから再実行する必要があるように思えました。しかし、それらの予測子の一部のみを削除すると他の予測子が重要になる場合、このすべてに対して間違ったアプローチを取っているのではないかと疑問に思われます。 私はと信じて、このスレッドは私の質問に似ていますが、私は私が正しく議論を解釈していますが不明です。おそらくこれはより実験的なデザインのトピックですが、誰かが共有できる経験があるかもしれません。

1
ロジスティック回帰:anovaカイ2乗検定対係数の有意性(anova()vs summary()in R)
8つの変数を持つロジスティックGLMモデルがあります。Rでカイ2乗検定を実行しましたanova(glm.model,test='Chisq')が、変数の2つは、テストの一番上で注文したときに予測的であり、一番下で注文したときにはそれほど予測されませんでした。summary(glm.model)それらの係数は有意でない(高いp値)であることを示唆しています。この場合、変数は重要ではないようです。 変数の有意性のより良い検定-モデルの要約の係数の有意性またはからのカイ2乗検定のどちらがよいかを尋ねたかったのanova()です。また、どちらが一方よりも優れているのはいつですか? 私はそれは広範な質問だと思いますが、何を考慮すべきかについてのポインタは評価されるでしょう。

3
線形回帰における有意性の矛盾:係数の有意なt検定対有意でない全体的なF統計量
4つのカテゴリ変数(それぞれ4レベル)と数値出力の間に多重線形回帰モデルを当てはめています。データセットには43個の観測値があります。 回帰により、すべての勾配係数のから次の値が得られます:.15、.67、.27、.02。したがって、4番目の予測子の係数は、\ alpha = .05信頼レベルで有意です。pppttt.15 、.67 、.27 、.02.15、.67、.27、.02.15, .67, .27, .02α =0.05α=.05\alpha = .05 一方、回帰では、すべての勾配係数がゼロに等しいという帰無仮説の全体的なF検定からppp値が得られます。私のデータセットでは、このp値は.11です。FFFppp.11.11.11 私の質問:これらの結果をどのように解釈すればよいですか?どのppp値を使用する必要があり、その理由は何ですか?4番目の変数の係数は、\ alpha = .05信頼レベルで000と大きく異なりますか?α = 0.05α=.05\alpha = .05 私は、関連する質問、見てきたFFFとttt回帰で統計を、しかし逆の状況があった:高ttt検定ppp -値と低FFF検定ppp -値が。正直なところ、線形回帰係数がゼロと有意に異なるかどうかを確認するために、tテストに加えてFFFテストが必要になる理由はよくわかりません。ttt

3
残留標準誤差とは何ですか?
Rで重回帰モデルを実行する場合、出力の1つは自由度95,161で0.0589の残留標準誤差です。95,161の自由度は、サンプルの観測数とモデルの変数の数の差によって与えられることを知っています。残留標準誤差とは何ですか?


5
線形回帰データに複数の混合線形関係が含まれている場合はどうなりますか?
水仙がさまざまな土壌条件にどのように反応するかを研究しているとしましょう。土壌のpHと水仙の成熟した高さに関するデータを収集しました。私は線形関係を期待しているので、線形回帰を実行します。 しかし、私が研究を始めたとき、個体群には実際に2種類のスイセンが含まれており、それぞれが土壌のpHに対して非常に異なる反応を示すことを知りませんでした。したがって、グラフには2つの異なる線形関係が含まれます。 もちろん、目で見て、手動で分離できます。しかし、もっと厳密なアプローチがあるのだろうか。 質問: データセットが1行またはN行のどちらに適しているかを判断する統計的テストはありますか? N行に適合する線形回帰を実行するにはどうすればよいですか?言い換えれば、混合データのもつれを解くにはどうすればよいですか? いくつかの組み合わせアプローチを考えることができますが、それらは計算量が多いようです。 明確化: 2つの品種の存在は、データ収集の時点では不明でした。各水仙の多様性は観察も記録もされていません。 この情報を回復することは不可能です。水仙はデータ収集の時から死んでいます。 私は、この問題はクラスタリングアルゴリズムの適用に似たもので、開始する前にクラスターの数をほとんど知る必要があるという印象を持っています。どのデータセットでも、行数を増やすとrmsエラーの合計が減ると思います。極端な場合、データセットを任意のペアに分割し、各ペアに線を引くだけです。(たとえば、1000個のデータポイントがある場合、それらを500個の任意のペアに分割し、各ペアに線を引くことができます。)近似は正確で、rmsエラーは正確にゼロになります。しかし、それは私たちが望むものではありません。「正しい」行数が必要です。

3
R-残りの用語で混乱
二乗平均平方根誤差 残差平方和 残留標準誤差 平均二乗誤差 テストエラー 私はこれらの用語を理解していたと思っていましたが、統計的な問題を多くすればするほど、私が自分自身を再考する場所を混乱させました。安心と具体的な例をお願いします 方程式はオンラインで簡単に見つけることができますが、これらの用語の「5のような説明」を得るのに苦労しています。 誰もがこのコードを下に取り、これらの用語のそれぞれをどのように計算するかを指摘できるなら、感謝します。Rコードは素晴らしいでしょう。 以下の例を使用します。 summary(lm(mpg~hp, data=mtcars)) 見つける方法をRコードで教えてください: rmse = ____ rss = ____ residual_standard_error = ______ # i know its there but need understanding mean_squared_error = _______ test_error = ________ これらの違い/類似点を5のように説明するためのボーナスポイント。例: rmse = squareroot(mss)

2
線形モデルの仮定を検証するための残差対適合値プロットの解釈
Rを使用したFarawayの線形モデル(2005年、59ページ)の次の図を検討してください。 最初のプロットは、残差と適合値が無相関であることを示しているようです。これらは、正規分布誤差のあるホモセダスティック線形モデルにあるはずです。したがって、2番目と3番目のプロットは、残差と近似値の間の依存関係を示しているように見えますが、異なるモデルを示唆しています。 しかし、Farawayが指摘しているように、なぜ2番目のプロットは異分散線形モデルを示唆し、3番目のプロットは非線形モデルを示唆しているのでしょうか? 2番目のプロットは、残差の絶対値が近似値と強く正の相関があることを示しているようですが、3番目のプロットではそのような傾向は明らかではありません。そのため、理論的に言えば、正規分布誤差を持つ不均一線形モデルである場合 Cor(e,y^)=⎡⎣⎢⎢1⋮1⋯⋱⋯1⋮1⎤⎦⎥⎥Cor(e,y^)=[1⋯1⋮⋱⋮1⋯1] \mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right] (左の式は残差と近似値の間の分散共分散行列です)、これは2番目と3番目のプロットがFarawayの解釈と一致する理由を説明します。 しかし、これは事実ですか?そうでない場合、2番目と3番目のプロットに対するFarawayの解釈は他にどのように正当化できますか?また、なぜ3番目のプロットが必ずしも非線形性を示しているのですか?線形である可能性はありますが、エラーが正規分布していないか、または正規分布しているがゼロを中心にしない可能性がありますか?


4
XとYは相関していませんが、Xは重回帰におけるYの重要な予測因子です。どういう意味ですか?
XとYは相関していません(-.01)。ただし、Yを予測する重回帰にXを配置すると、3つの(A、B、C)他の(関連する)変数とともに、Xと2つの他の変数(A、B)がYの有意な予測子になります。 A、B)変数は回帰の外側でYと有意に相関しています。 これらの調査結果をどのように解釈すればよいですか?XはYの一意の分散を予測しますが、これらは相関関係がないため(ピアソン)、解釈が多少困難です。 私は反対のケースを知っています(つまり、2つの変数は相関していますが、回帰は重要ではありません)。それらは理論的および統計的観点から理解するのが比較的簡単です。予測子の一部は完全に相関しています(たとえば、.70)が、実質的な多重共線性が期待される程度ではないことに注意してください。たぶん私は間違っています。 注:以前にこの質問をしましたが、終了しました。合理的なのは、この質問が「どのように回帰が有意であるが、すべての予測変数が有意でない可能性があるのか​​」という質問と重複しているということでした。「おそらく、私は他の質問を理解していないが、これらは数学的にも理論的にも完全に別個の質問だと思う。私の回帰は「回帰が重要」かどうかから完全に独立している。これらの質問が理解できない理由で冗長な場合は、この質問を閉じる前にコメントを挿入してください。また、もう一方を閉じたモデレーターにメッセージを送りたいと思っていました同一の質問を回避するための質問ですが、そうするオプションを見つけることができませんでした。

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

6
データマイニング:機能フォームを見つけるにはどうすればよいですか?
私は、関数の関数形を発見するために使用することができ、再現手順について興味がy = f(A, B, C) + error_term私の唯一の入力は、観測値の集合である場合(y、A、BおよびC)。の機能形式fは不明であることに注意してください。 次のデータセットを検討してください。 AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.