タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

4
分散分析対多重線形回帰?ANOVAが実験研究でよく使用されるのはなぜですか?
分散分析対多重線形回帰? これらの方法はどちらも同じ統計モデルを使用しているように見えることを理解しています。しかし、どのような状況でどの方法を使用する必要がありますか? これらの方法を比較した場合の利点と欠点は何ですか? ANOVAが実験研究で非常に一般的に使用されているのはなぜですか?回帰研究はほとんど見つかりません

1
多重相関係数
Iは、複数の相関の幾何学的な意味に興味RRR決意するのと係数R2R2R^2回帰におけるyi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i 、またはベクトル表記で、 y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} ここで、設計行列XX\mathbf{X}有するnnn行およびkkk列を、そのうちの最初のものであるx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_n、切片に相当するが、その1Sのベクトルβ1β1\beta_1。 ジオメトリは、k次元の可変空間ではなく、nnn次元の対象空間でより興味深いものです。帽子行列を定義します。kkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top これは、の列空間への正射影ですXX\mathbf{X}。つまり、各変数x iを表すk個のベクトルが 広がる原点を通る平面です。その最初は1 nです。次いで、Hは観測された応答のベクトル突出Yを平坦にその「影」に、近似値のベクトルY = H yは、と我々は残差のベクトルを参照投影経路に沿って見た場合に、E = yと- ykkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}三角形の3番目の辺を形成します。これにより、幾何学的な解釈への2つのルートが提供されR2R2R^2ます。 複数の相関係数の二乗RRRとの間の相関として定義され、yy\mathbf{y}およびY。これは、角度の余弦として幾何学的に表示されます。y^y^\mathbf{\hat{y}} ベクトルの長さの点で:例えば、SSresidual=∑ni=1e2i=∥e∥2SSresidual=∑i=1nei2=‖e‖2SS_\text{residual} = …


3
回帰係数を計算するとき、説明変数の順序は重要ですか?
最初は順序は関係ないと思っていましたが、重回帰係数を計算するためのグラムシュミットの直交化プロセスについて読みましたが、今は考え直しています。 gram-schmidtプロセスによれば、説明変数が他の変数の中で後でインデックス付けされると、その前の変数の残差ベクトルが減算されるため、その残差ベクトルは小さくなります。その結果、説明変数の回帰係数も小さくなります。 それが本当である場合、問題の変数の残差ベクトルは、より少ない残差ベクトルが減算されるため、より早くインデックス付けされた場合、より大きくなります。これは、回帰係数も大きくなることを意味します。 わかりましたので、質問を明確にするように求められました。だから私は最初に私を混乱させたテキストからスクリーンショットを投稿しました。はい、ここに行きます。 私の理解では、回帰係数を計算するには少なくとも 2つのオプションがあります。最初のオプションは、下のスクリーンショットで(3.6)と示されています。 次に、2番目のオプションを示します(複数のスクリーンショットを使用する必要がありました)。 私が何かを誤解していない限り(これは間違いなく可能です)、2番目のオプションでは順序が重要なようです。最初のオプションでは重要ですか?なぜですか?または、私の参照フレームがめちゃくちゃになっていて、これが有効な質問でさえないのですか?また、これは何らかの形で平方Iの合計とタイプIIの平方和に関連していますか? 事前に感謝します、私はとても混乱しています!


6
高度な回帰モデリングの例
GLMまたはOLSを使用して複雑な複数の非線形関係をモデル化するために必要な手順を示す、高度な線形回帰のケーススタディを探しています。基本的な学校の例を超えてリソースを見つけることは驚くほど困難です:私が読んだ本のほとんどは、1つの予測子のBoxCox、または最良の場合の自然なスプラインと組み合わせた応答のログ変換よりも先に進むことはありません。また、これまでに見てきたすべての例は、個別のモデル、多くの場合単一の予測モデルで各データ変換の問題に取り組みます。 BoxCoxまたはYeoJohnson変換とは何かを知っています。私が探しているのは、応答/関係が明確ではない、詳細で実際のケーススタディです。たとえば、応答は厳密に肯定的ではないため(logまたはBoxCoxは使用できません)、予測子は応答間で応答に対して非線形の関係を持ち、最尤データ変換は標準の0.33を暗示していないようです。または0.5指数。また、残差分散は一定ではない(決して変わらない)ため、応答も変換する必要があり、非標準のGLMファミリー回帰または応答変換の間で選択を行う必要があります。研究者は、おそらくデータの過剰適合を避けるための選択をします。 編集 これまでのところ、次のリソースを収集しました。 回帰モデリング戦略、F。ハレル 適用された計量経済時系列、W。エンダーズ R、G。Petrisを使用した動的線形モデル 応用回帰分析、D。クラインバウム 統計学習入門、G。ジェームズ/ D。ウィッテン 私は最後の(ISLR)のみを読んでおり、非常に良いテキスト(私の時計では5つ星5つ)ですが、高度な回帰モデリングよりもMLを重視しています。 また、CVには、リグレッションの難しいケースを提示するこの優れた投稿があります。

3
重回帰において「その他はすべて等しい」とはどういう意味ですか?
重回帰を行って、変数の変化について変数の平均変化を調べて、他のすべての変数を一定に保持している場合、他の変数を一定に保持しているのはどの値ですか?彼らの平均?ゼロ?値はありますか?yyyxバツx 私はそれが価値があると思う傾向があります。明確化を探しています。誰かが証拠を持っているなら、それも素晴らしいでしょう。

4
複数の代入とモデルの選択
推定するアプリオリ線形モデルがある場合、複数代入はかなり簡単です。ただし、実際にモデル選択を行いたい場合は少し難しいようです(たとえば、より大きな候補変数セットから予測変数の「最適な」セットを見つける-私は特にLASSOとRを使用する分数多項式を考えています)。 1つのアイデアは、欠損値を含む元のデータにモデルを適合させてから、このモデルをMIデータセットで再推定し、通常と同様に推定値を結合することです。しかし、バイアスを期待しているため(または、そもそもなぜMIを行うのか?)、最初から「間違った」モデルを選択することにつながる可能性があるため、これは問題のようです。 別のアイデアは、各MIデータセットで使用しているモデル選択プロセスを実行することですが、異なる変数のセットが含まれている場合、結果をどのように組み合わせますか? 私が考えていたのは、MIデータセットを積み重ねて1つの大きなデータセットとして分析し、それを使用して単一の「最適な」モデルに適合し、反復測定を使用している事実を説明するランダム効果を含めることでした各観測。 これは理にかなっていますか?または、おそらく信じられないほど素朴ですか?この問題(複数の代入を使用したモデル選択)についてのポインタは大歓迎です。

4
重回帰における予測変数の重要性:部分対標準化係数
部分モデルと線形モデルの係数との正確な関係と、因子の重要性と影響を説明するためにどちらか一方のみを使用すべきかどうか疑問に思っています。R2R2R^2 私が知る限りsummary、係数の推定値を取得しanova、各因子の平方和を取得します-1つの因子の平方和を平方和と残差の合計で割った割合は部分(次のコードはにあります)。R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 *** young 8.173e-01 …

2
多重線形回帰モデルを記述または視覚化する方法
いくつかの入力パラメーター、たとえば3を使用して、多重線形回帰モデルをデータに適合させようとしています。 F(x )F(x )= A x1+ B x2+ Cバツ3+ dまたは= (A B C )T(x1 バツ2 バツ3)+ d(私)(ii)(私)F(バツ)=Aバツ1+Bバツ2+Cバツ3+dまたは(ii)F(バツ)=(A B C)T(バツ1 バツ2 バツ3)+d\begin{align} F(x) &= Ax_1 + Bx_2 + Cx_3 + d \tag{i} \\ &\text{or} \\ F(x) &= (A\ B\ C)^T (x_1\ x_2\ x_3) + d \tag{ii} \end{align} このモデルを説明して視覚化するにはどうすればよいですか?次のオプションが考えられます。 このモデルの精度を示すために、標準偏差と(係数、定数)で説明されているように回帰方程式に言及し、次に残差プロットに言及します。 (i )(私)(i) …

5
重回帰の仮定:正規性の仮定は定数分散の仮定とどのように異なりますか?
私はこれらが重回帰モデルを使用するための条件であることを読みました: モデルの残差はほぼ正常です。 残差の変動性はほぼ一定です 残差は独立しており、 各変数は結果に直線的に関連しています。 1と2はどう違うのですか? ここにあります。 したがって、上記のグラフは、2標準偏差離れた残差がYハットから10離れていることを示しています。これは、残差が正規分布に従うことを意味します。これから2を推測できませんか?残差の変動性はほぼ一定であること?

1
「スペクトル分解」によるリッジ回帰を使用した収縮係数の証明
リッジ回帰により、係数が幾何学的にゼロに縮小する方法を理解しました。さらに、特別な「正規直交ケース」でそれを証明する方法を知っていますが、「スペクトル分解」を介して一般的なケースでそれがどのように機能するか混乱しています。

2
多変量線形モデルを重回帰としてキャストする
多変量線形回帰モデルを多重線形回帰として再キャストすることは完全に同等ですか?私は、個別の回帰を実行するだけではありません。ttt 多変量線形モデルは重回帰として簡単に再パラメーター化できることを、いくつかの場所(ベイジアンデータ分析-ゲルマンら、および多変量オールドスクール-マーデン)で読みました。ただし、どちらのソースもこれについて詳しく説明していません。彼らは本質的にそれについて言及し、その後多変量モデルの使用を続けます。数学的には、最初に多変量バージョンを作成し、 Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 太字の変数は、その下のサイズの行列です。いつものように、はデータ、は設計行列、は正規分布の残差、\ mathbf {B}は推論の対象です。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} これを使い慣れた多重線形回帰として再パラメーター化するには、変数を次のように単純に書き換えます。 ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, ここで使用される再パラメーター化は、y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) 、β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})、およびD=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()は、行列の行が端から端まで長いベクトルに配置されることを意味し、⊗⊗\otimesはクロネッカー、つまり外積です。 …

1
サンドイッチ推定器の直観
ウィキペディアとRサンドイッチパッケージビネットは、OLS係数の標準誤差をサポートする仮定とサンドイッチ推定量の数学的背景に関する優れた情報を提供します。おそらく、最初の段階で標準のOLS係数の分散推定を完全に理解していないためと思われますが、残差の不均一分散の問題にどのように対処するのかはまだわかりません。 サンドイッチ推定器の背後にある直感は何ですか?

2
回帰に平方変数を含めるとどうなりますか?
OLS回帰から始めます ここで、Dはダミー変数で、推定値は低いp値でゼロとは異なります。次に、Ramsey RESETテストを実行し、方程式の誤認があることを発見しました。したがって、xの2乗を含みます Y = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 D + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 二乗項は何を説明しますか?(Yの非線形増加?) これを行うことにより、私のp推定値はゼロから変化せず、p値が高くなります。(一般的に)方程式の2乗項をどのように解釈しますか? 編集:質問を改善します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.