タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

2
多重線形回帰シミュレーション
R言語は初めてです。回帰の4つの仮定すべてを満たす多重線形回帰モデルからシミュレーションする方法を知りたい。 わかりました。ありがとう。 このデータセットに基づいてデータをシミュレートしたいとしましょう: y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) 次に、出力を取得します: Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 0.33188 2.41657 …

2
変数選択に対する矛盾するアプローチ:AIC、p値、またはその両方?
私が理解していることから、(少なくとも回帰コンテキストでは)p値に基づいた変数選択には大きな欠陥があります。AIC(または同様の)に基づく変数の選択も、同様の理由でいくつかの欠陥があると考えられますが、これは少し不明瞭に見えます(たとえば、このトピックに関する私の質問といくつかのリンクを参照してください。)。 ただし、これら2つの方法のいずれかを使用して、モデル内の最適な予測子のセットを選択するとします。 Burnham and Anderson 2002(モデル選択およびマルチモデル推論:実用的な情報理論的アプローチ、83ページ)では、AICに基づく変数選択と仮説検定に基づく変数選択を混在させないでください:「帰無仮説および情報理論的アプローチのテスト一緒に使用しないでください。これらは非常に異なる分析パラダイムです。」 一方、Zuur et al。2009(R、ページ541とエコロジーで拡張子を持つ混合効果モデル)の使用を提唱するように見える最初の最適なモデルを見つけ、その後、仮説検定を使用して「微調整」を実行するAICを:「欠点はAICが保守的であることができるということです、AICが最適なモデルを選択したら、(アプローチ1からの仮説検定を使用して)微調整を適用する必要がある場合があります。」 これにより、どちらのアプローチに従うべきかについて、両方の本の読者が混乱していることがわかります。 1)これらは、統計的思考の異なる「キャンプ」であり、統計学者の間の不一致のトピックですか?これらのアプローチの1つは、単に「時代遅れ」になっていますが、執筆時点では適切と考えられていましたか?または、最初から単純に間違っているのでしょうか? 2)このアプローチが適切となるシナリオはありますか?たとえば、私は生物学的背景から来ています。そこでは、どの変数が応答に影響を与えているか、またはそれを推進しているように見えるかを判断しようとしています。多くの場合、説明変数の候補がいくつかありますが、どちらが「重要」かを(相対的な観点から)見つけようとしています。また、候補予測変数のセットは、生物学的関連性があると考えられるものに既に削減されていますが、これには5-20の候補予測変数が含まれている場合があります。

4
2つの変数の合計は、個々の変数よりも多くの分散をどのように説明できますか?
2つの予測子が負の相関関係にある場合、合計と3番目の変数との相関関係について、困惑する結果が得られます。これらの困惑する結果の原因は何ですか? 例1:2つの変数の合計と3番目の変数の相関 以下に示すギルドフォードの1965年のテキストの427ページの式16.23を検討してください。 複雑な結果:両方の変数が.2を3番目の変数と相関させ、-。7を相互に相関させる場合、式の値は.52になります。2つの変数がそれぞれ.2だけを3番目の変数と相関させる場合、合計と3番目の変数との相関関係を.52にするにはどうすればよいですか? 例2:2つの変数と3番目の変数の間の多重相関とは何ですか? ギルフォードの1965年のテキストの404ページの式16.1を検討してください(以下を参照)。 困惑する発見:同じ状況。両方の変数が.2を3番目の変数と相関させ、-。7を互いに相関させる場合、式の値は.52になります。2つの変数がそれぞれ.2だけを3番目の変数と相関させる場合、合計と3番目の変数との相関関係を.52にするにはどうすればよいですか? ちょっとしたモンテカルロシミュレーションを試したところ、ギルフォードの公式の結果が確認できました。 しかし、2つの予測子がそれぞれ3番目の変数の分散の4%を予測する場合、それらの合計は分散の1/4をどのように予測できますか? 出典:心理学と教育の基礎統計、第4版、1965年。 明確化 私が対処している状況には、現在の能力の測定に基づいて、個々の人々の将来のパフォーマンスを予測することが含まれます。 以下の2つのベン図は、状況に対する私の理解を示しており、私の困惑を明確にするためのものです。 このベン図(図1)は、x1とCの間のゼロ次r = .2を反映しています。私の分野では、基準を適度に予測するこのような予測変数が多数あります。 このベン図(図2)は、それぞれr = .2でCを予測する2つの予測子x1とx2と、負の相関がある2つの予測子r =-。7を反映しています。 Cの分散の25%を一緒に予測する2つのr = .2予測子間の関係を想像するのに途方に暮れています。 x1、x2、およびCの関係を理解するのに役立ちます。 (私の質問に対する回答で示唆されたように)x2がx1のサプレッサー変数として機能する場合、2番目のベン図のどの領域が抑制されますか? 具体的な例が役立つ場合、x1とx2は2人の人間の能力であり、Cは4年後の4年制大学GPAであると考えることができます。 サプレッサー変数が、2つのr = .2ゼロ次rの8%の説明された分散を引き起こし、Cの分散の25%を拡大して説明する方法を想像するのに問題があります。具体的な例は非常に役立つ答えです。

1
部分F統計とは何ですか?
部分F統計とは何ですか?それは部分的なF検定と同じですか?いつ部分F統計量を計算しますか?私はこれが回帰モデルの比較と関係があると仮定していますが、私は何かを追っていません(?)

1
比率を分析するための手法
比率とレートの分析に関するアドバイスとコメントを探しています。私が仕事をしている分野では、特に比率の分析が広まっていますが、これが問題になる可能性があることを示唆するいくつかの論文を読みました。 Kronmal、Richard A.1993。スプリアス相関と比率標準の誤りを再検討。Journal of the Royal Statistical SocietyシリーズA 156(3):379-392 および関連論文。私がこれまでに読んだことから、比率は偽の相関を生成し、原点を通る回帰直線を強制し(これは常に適切ではない)、それらをモデリングすると正しく行われないと限界の原則に違反する可能性があります(リチャード・ゴールドスタインによる比率の使用))。ただし、比率の使用が正当化される機会がなければならず、このトピックに関して統計学者からの意見が必要でした。

2
Stataでプロビットモデルを解釈するにはどうすればよいですか?
Stataで実行したこのプロビット回帰の解釈方法がわかりません。データはローンの承認に関するもので、白はダミー変数で、人が白人の場合は= 1、人が白人でない場合は= 0です。これを読む方法についてのヘルプは大歓迎です。私が主に探しているのは、白人と非白人の両方のローン承認の推定確率を見つける方法です。誰かがここのテキストとそれを正常にする方法で私を助けることができますか?申し訳ありませんが、これを行う方法がわかりません。 . probit approve white Iteration 0: log likelihood = -740.34659 Iteration 1: log likelihood = -701.33221 Iteration 2: log likelihood = -700.87747 Iteration 3: log likelihood = -700.87744 Probit regression Number of obs = 1989 LR chi2(1) = 78.94 Prob > chi2 = 0.0000 Log likelihood = …

1
線形回帰と空間的自己相関
リモートセンシングで取得したいくつかの変数を使用して、特定のエリアのツリーの高さを予測したい。おおよそのバイオマスなどと同様に、まず線形回帰を使用します(最良のアイデアではないことはわかっていますが、これは私のプロジェクトの必須ステップです)。私は空間的自己相関がどれほどひどく影響するか、それが可能な場合にこれを修正する最も簡単な方法は何かを知りたかった。ちなみに私はRですべてをやっています。

2
の値を使用して、重回帰分析で線形性の仮定をテストするにはどうすればよいですか?
以下のグラフは、「正常性」、「同相性」、「独立性」の仮定が確実に満たされている回帰テストの残差散布図です。「線形性」の仮定をテストする場合、グラフを見ると関係が曲線であると推測できますが、問題は次のとおりです。「R2線形」の値を使用して線形性の仮定をテストできますか?関係が線形であるかどうかを判断するための「R2 Linear」の値の許容範囲はどのくらいですか?線形性の仮定が満たされておらず、IVの変換も役に立たない場合はどうすればよいですか?!! テストの全結果へのリンクはこちらです。 散布図:

6
個々の回帰が重要だが、VIFが低い場合の多重共線性
を予測するために使用している6つの変数()があります。データ分析を実行するとき、最初に多重線形回帰を試しました。このことから、2つの変数のみが重要でした。ただし、各変数を個々にと比較する線形回帰を実行した場合、1つを除くすべてが有意でした(が0.01未満から0.001未満のいずれか)。これは多重共線性によることが示唆されました。x1...x6x1...x6x_{1}...x_{6}yyyyyyppp これに関する私の最初の研究は、VIFを使用して多重共線性をチェックすることを示唆しています。Rから適切なパッケージをダウンロードすると、結果のVIFが3.35、3.59、2.64、2.24、および5.56になりました。オンラインのさまざまな情報源によると、VIFとの多重共線性について心配すべき点は4または5です。 これが私のデータにとって何を意味するのか困惑しています。多重共線性の問題はありますか?もしそうなら、どうすればいいですか?(これ以上データを収集できず、変数は明らかに関連していないモデルの一部です)この問題がない場合、データから何を取得する必要がありますか、特にこれらの変数が非常に重要であるという事実個々に、しかし結合されたときに全く重要ではありません。 編集:データセットに関していくつかの質問がありましたので、拡張したいと思います... この特定のケースでは、特定の社会的キュー(ジェスチャー、視線など)が他のキューを生成する可能性にどのように影響するかを理解しようとしています。モデルにすべての重要な属性を含めるようにしたいので、冗長と思われるものを削除するのは不快です。 現在、これに関する仮説はありません。むしろ、問題は研究されておらず、どの属性が重要であるかをよりよく理解することを目指しています。私の知る限り、これらの属性は互いに比較的独立している必要があります(視線とジェスチャが同じである、または別のサブセットであると言うことはできません)。他の研究者に何が見られているかを理解してもらいたいので、すべてのp値を報告できると便利です。 編集2:それはどこかに以下思い付いたので、私のnnn 24です。

2
段階的回帰を使用する必要がある状況はありますか?
過去に多くの生物医学論文で段階的回帰が多用されていましたが、これは多くの問題のより良い教育により改善しているようです。ただし、多くの古いレビュアーはまだそれを求めています。ステップワイズ回帰に​​役割があり、使用する必要がある場合、どのような状況ですか?

4
ラグと時系列のある多重線形回帰の「機械的な」違いは何ですか?
私は現在、データ工学の修士号を取得するために勉強しているビジネスと経済学を卒業しています。線形回帰(LR)を研究してから、時系列分析(TS)を研究しているときに、疑問が浮かびました。多重線形回帰を使用し、それにラグ変数を追加するのではなく、時系列(ARIMA)などのまったく新しいメソッドを作成する理由(ラグの順序はACFとPACFを使用して決定)?そこで、先生は私がこの問題について少しエッセイを書くことを提案しました。私は手ぶらで助けを求めに来ませんでしたので、私はこのトピックに関する研究を行いました。 LRを使用する場合、ガウスマルコフの仮定に違反すると、OLS回帰は正しくないこと、そしてこれは時系列データ(自己相関など)を使用するときに発生することを既に知っていました。(これに関する別の質問、GMの仮定の1つは、独立変数を正規分布させるべきか、それとも独立変数の条件付き従属変数だけかということです。) また、ここで提案している分散ラグ回帰を使用し、OLSを使用してパラメーターを推定すると、変数間の多重共線性が(明らかに)発生する可能性があるため、推定が間違っていることもわかっています。 でTSとLRについて同様のポストここで、@IrishStatは言いました: ...回帰モデルは、動的回帰モデルまたはXARMAXモデルとも呼ばれる伝達関数モデルの特定のケースです。際立ったポイントは、時系列でのモデルの識別、つまり、適切な違い、Xの適切なラグ、適切なARIMA構造、パルスなどの不特定の決定論的構造の適切な識別、レベルシフト、ローカル時間傾向、季節的パルス、および組み込みです。パラメータの変化またはエラー分散を考慮する必要があります。 (私はBox JenkinsとLRについてのAutoboxの彼の論文も読んでいます。)しかし、これでも私の疑問は解決しません(または、少なくとも私にとってRLとTSの異なるメカニズムを明確にしません)。 遅れた変数でもOLS問題が発生し、効率的でも正確でもないことは明らかですが、最尤法を使用する場合、これらの問題は持続しますか?ARIMAは最尤法で推定されることを読んだので、遅れのあるLRがOLSではなくMLで推定される場合、「正しい」係数が得られます(順序のMAのように、遅延誤差項も含めると仮定します) q)。 要するに、問題はOLSですか?MLを適用して問題は解決しましたか?


2
日次データの重回帰で季節性をキャプチャする
季節性の高い製品の毎日の販売データがあります。回帰モデルで季節性をキャプチャしたい。四半期または毎月のデータがある場合、それぞれ3と11のダミー変数を作成できますが、毎日のデータを処理できますか? 3年間の毎日のデータがあります。独立変数は、価格、販促フラグ(yes / no)、および温度です。従属変数は、その製品の販売です。重回帰モデルを使用しているため、時系列モデルを探していません。


1
係数パス–リッジ、なげなわおよびエラスティックネット回帰の比較
リッジ、なげなわ、エラスティックネットで選択したモデルを比較したいと思います。以下の図は、3つの方法すべてを使用した係数パスを示しています。リッジ(図A、アルファ= 0)、投げ縄(図B、アルファ= 1)、弾性ネット(図C、アルファ= 0.5)。最適なソリューションは、クロス検証に基づいて選択されたラムダの選択値に依存します。 これらのプロットを見ると、エラスティックネット(図C)がグループ化効果を示すことが予想されます。ただし、提示されたケースでは明確ではありません。投げ縄とエラスティックネットの係数パスは非常に似ています。この理由は何でしょうか?それは単なるコーディングミスですか?Rで次のコードを使用しました。 library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net plot(ans3$glmnet.fit, "lambda", label=FALSE) text (0, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.