タグ付けされた質問 「linear-model」

確率変数が有限数のパラメーターで線形である関数によって1つ以上の確率変数に関連付けられているモデルを指します。

2
多変量線形モデルを重回帰としてキャストする
多変量線形回帰モデルを多重線形回帰として再キャストすることは完全に同等ですか?私は、個別の回帰を実行するだけではありません。ttt 多変量線形モデルは重回帰として簡単に再パラメーター化できることを、いくつかの場所(ベイジアンデータ分析-ゲルマンら、および多変量オールドスクール-マーデン)で読みました。ただし、どちらのソースもこれについて詳しく説明していません。彼らは本質的にそれについて言及し、その後多変量モデルの使用を続けます。数学的には、最初に多変量バージョンを作成し、 Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 太字の変数は、その下のサイズの行列です。いつものように、はデータ、は設計行列、は正規分布の残差、\ mathbf {B}は推論の対象です。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} これを使い慣れた多重線形回帰として再パラメーター化するには、変数を次のように単純に書き換えます。 ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, ここで使用される再パラメーター化は、y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) 、β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})、およびD=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()は、行列の行が端から端まで長いベクトルに配置されることを意味し、⊗⊗\otimesはクロネッカー、つまり外積です。 …

1
適合度と線形回帰またはポアソンを選択するモデル
私の研究では、3つの大きな医薬品とイノベーションのケーススタディである2つの主なジレンマに関するアドバイスが必要です。年間の特許数は従属変数です。 私の質問は 良いモデルの最も重要な基準は何ですか?重要なことは何ですか?ほとんどまたはすべての変数が重要になるのでしょうか?「F STATISTIC」の問題ですか?「調整済みRの2乗」の値ですか? 第二に、研究に最適なモデルをどのように決定できますか?カウント変数(多分ポアソンカウント)である特許のほかに、資産収益率、研究開発予算、繰り返されるパートナー(バイナリ変数ではない%)、企業規模(従業員)などの説明変数があります。線形回帰またはポアソンを実行する必要がありますか?

3
出力と予測子の間に実質的な相関関係がない場合、どのようにして適切な線形回帰モデルを取得できますか?
一連の変数/機能を使用して、線形回帰モデルをトレーニングしました。モデルのパフォーマンスは良好です。しかし、予測変数と良好な相関関係を持つ変数は存在しないことに気付きました。どうして可能ですか?

1
R 2乗の条件付き期待値
単純な線形モデルを考えます: yy=X′ββ+ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon ここで、および 、およびには列が含まれます定数の。ϵi∼i.i.d.N(0,σ2)ϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)X∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}p≥2p≥2p\geq2XXX 私の質問は、、および与えられた場合、 *の非自明な上限の式はありますか?(モデルがOLSによって推定されたと仮定)。E(X′X)E(X′X)\mathrm{E}(X'X)ββ\betaσσ\sigmaE(R2)E(R2)\mathrm{E}(R^2) *これを書いて、E (R 2)を取得すると仮定したE(R2)E(R2)E(R^2)自体ことは不可能だと。 EDIT1 StéphaneLaurentによって導出された解(下記参照)を使用して、E(R2)E(R2)E(R^2)。いくつかの数値シミュレーション(下記)は、この限界が実際にはかなり厳しいことを示しています。 ステファンローランは、次の派生:B(P - 1 、N - P 、λは)非中心性パラメーターを有する非中心ベータ分布であるとR2∼B(p−1,n−p,λ)R2∼B(p−1,n−p,λ)R^2\sim\mathrm{B}(p-1,n-p,\lambda)B(p−1,n−p,λ)B(p−1,n−p,λ)\mathrm{B}(p-1,n-p,\lambda)λλ\lambdaとし λ=||X′β−E(X)′β1n||2σ2λ=||X′β−E(X)′β1n||2σ2\lambda=\frac{||X'\beta-\mathrm{E}(X)'\beta1_n||^2}{\sigma^2} そう E(R2)=E(χ2p−1(λ)χ2p−1(λ)+χ2n−p)≥E(χ2p−1(λ))E(χ2p−1(λ))+E(χ2n−p)E(R2)=E(χp−12(λ)χp−12(λ)+χn−p2)≥E(χp−12(λ))E(χp−12(λ))+E(χn−p2)\mathrm{E}(R^2)=\mathrm{E}\left(\frac{\chi^2_{p-1}(\lambda)}{\chi^2_{p-1}(\lambda)+\chi^2_{n-p}}\right)\geq\frac{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)}{\mathrm{E}\left(\chi^2_{p-1}(\lambda)\right)+\mathrm{E}\left(\chi^2_{n-p}\right)} ここで、χ2k(λ)χk2(λ)\chi^2_{k}(\lambda)非中心であるχ2χ2\chi^2パラメーターとλλ\lambdaとkkk自由度。したがって、非自明な上限E(R2)E(R2)\mathrm{E}(R^2)は λ+p−1λ+n−1λ+p−1λ+n−1\frac{\lambda+p-1}{\lambda+n-1} それは非常にタイトです(予想していたよりもずっとタイトです): たとえば、次を使用します。 rho<-0.75 p<-10 n<-25*p Su<-matrix(rho,p-1,p-1) diag(Su)<-1 su<-1 set.seed(123) bet<-runif(p) 1000回のシミュレーションでの平均R2R2R^2は0.960819です。上記の理論上の上限はを与え0.9609081ます。境界は、Rの多くの値にわたって等しく正確であるようですです。本当に驚いた!R2R2R^2 EDIT2: さらなる研究の後に、表示さに上限近似の品質ことをとして良くなるλ + p個の増加(および他のすべて等しく、λと共に増加するn個)。E(R2)E(R2)E(R^2)λ+pλ+p\lambda+pλλ\lambdannn

2
T分布が線形回帰係数の仮説検定に使用されるのはなぜですか?
実際には、標準のT検定を使用して線形回帰係数の有意性を確認するのが一般的です。計算の仕組みは私にとって理にかなっています。 T分布を使用して、線形回帰仮説検定で使用される標準検定統計量をモデル化できるのはなぜですか?私がここで言及している標準の検定統計量: T0=βˆ−β0SE(βˆ)T0=β^−β0SE(β^) T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}

2
GLMが変換された変数を持つLMと異なる理由
このコースの配布資料(ページ1)で説明されているように、線形モデルは次の形式で記述できます。 y=β1x1+⋯+βpxp+εi,y=β1x1+⋯+βpxp+εi, y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、yyyは応答変数、 xixix_{i}はithithi^{th}説明変数です。 多くの場合、テストの前提を満たす目的で、応答変数を変換できます。たとえば、各yiyiy_i対数関数を適用します。応答変数の変換は、GLMの実行と同等ではありません。 GLMは、次の形式で記述できます(コースの配布資料(3ページ)から) g(u)=β1x1+⋯+βpxp+εi,g(u)=β1x1+⋯+βpxp+εi, g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i, ここで、は単なる別の記号であり、コースの配布資料の2ページから理解できます。はリンク関数と呼ばれます。uuuyyyg()g()g() コース内のスライドから変換された変数を使用したGLMとLMの違いを本当に理解していません。それで私を助けてもらえますか?

4
クラシック線形モデル-モデル選択
私は古典的な線形モデルを持ち、5つのリグレッサがあります。それらは互いに相関関係がなく、応答との相関が非常に低くなっています。3つのリグレッサがt統計に有意な係数を持つモデルに到達しました(p <0.05)。残りの2つの変数のいずれかまたは両方を追加すると、追加された変数のt統計値に対してp値が0.05より大きくなります。これは、3変数モデルが「最良」であると信じさせることにつながります。 ただし、Rでanova(a、b)コマンドを使用すると(aは3変数モデル、bは完全モデル)、F統計のp値は<0.05であり、3変数よりも完全モデルを優先するように指示されますモデル。これらの明らかな矛盾をどのように調整できますか? PS Editに感謝:さらなる背景。これは宿題ですので、詳細は投稿しませんが、リグレッサーが何を表すかについては詳しく説明しません。1から5までの番号が付けられているだけです。

3
共線性について話すことができるのはいつですか
線形モデルでは、説明変数間に関係が存在するかどうかを確認する必要があります。それらが過度に相関している場合、共線性があります(つまり、変数は互いに部分的に説明します)。現在、それぞれの説明変数間のペアワイズ相関関係を調べています。 質問1: 相関が高すぎると分類されるものは何ですか?たとえば、ピアソン相関が0.5すぎますか? 質問2: 相関係数に基づいて2つの変数間に共線性があるかどうか、または他の要因に依存しているかどうかを完全に判断できますか? 質問3: 2つの変数の散布図をグラフィカルにチェックすると、相関係数が示すものに何かが追加されますか?

1
QR分解について
私はさらに理解しようとしている(Rでの)実用的な例を持っています。私は線形モデルを作成するためにLimmaを使用しており、倍率変更の計算でステップごとに何が起こっているのかを理解しようとしています。私は主に、係数を計算するとどうなるかを理解しようとしています。私が理解できることから、係数を取得するためにQR分解が使用されているので、本質的に説明または計算中の方程式、またはqr()のソースコードをステップバイステップで見る方法を探しています自分でトレースするR。 次のデータを使用します。 expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, 0.0493831375210439, -0.30903829000185, -0.289604319193543, -0.110019942085281, -0.220289950537685, 0.0680403723818882, -0.210977291862137, 0.253649629045288, 0.0740109953273042, 0.115109148186167, 0.187043445057404, 0.705155251555554, 0.105479342752451, 0.344672919872447, 0.303316487542805, …

5
線形モデルの因子の有意でないレベルの係数を無視できますか?
ここで線形モデル係数についての明確化を求めた後、因子レベルの係数の重要でない(高いp値)に関するフォローアップの質問があります。 例:線形モデルに10レベルの因子が含まれ、それらのレベルのうち3つだけに有意なp値が関連付けられている場合、モデルを使用してYを予測するときに、被験者が次のいずれかに該当する場合、係数項を含めないことを選択できます非重要レベル? さらに劇的に、7つの重要でないレベルを1つのレベルにまとめて再分析するのは間違っているでしょうか?

2
VIF、条件インデックスおよび固有値
現在、データセットの多重共線性を評価しています。 問題を示唆するVIFのしきい値と条件インデックスはどのくらいですか? VIF: 私はVIFと聞いてい問題です。≥10≥10\geq 10 2つの問題の変数を除去した後、VIFがある各変数について。変数はさらに処理する必要がありますか、またはこのVIFは正常に見えますか?≤3.96≤3.96\leq 3.96 条件インデックス: 30以上の条件インデックス(CI)が問題であると聞きました。私の最高CIは16.66です。これは問題ですか? その他の問題: 他に考慮すべきことはありますか? 他に覚えておく必要があることはありますか?

2
ロジスティック回帰の行列表記
線形回帰(二乗損失)では、行列を使用して、目的を非常に簡潔に表記します 最小限∥ X - Bを∥ 2最小化する ‖Aバツ−b‖2\text{minimize}~~ \|Ax-b\|^2 ここで、AAAはデータ行列、バツバツxは係数、bbbは応答です。 ロジスティック回帰の目的に同様の行列表記はありますか?私が見たすべての表記法は、すべてのデータポイント(\ sum _ {\ text data} \ text {L} _ \ text {logistic}(y、\ beta ^ Tx)のようなもの)の合計を取り除くことはできません∑d a t aLロジスティック(y、βTx )∑dataLロジスティック(y、βTバツ)\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)。 編集:joceratopsとAdamOの素晴らしい答えに感謝します。彼らの答えは、線形回帰がより簡潔な表記法を持っている別の理由が、正方形と和またはe ^ \ top eをカプセル化するノルムの定義にあることを理解するのに役立ちましたe⊤ee⊤ee^\top e。しかし、ロジスティック損失では、そのような定義はなく、表記法が少し複雑になります。

3
線形分類器の場合、係数が大きいほど重要な機能を意味しますか?
私は機械学習に取り組んでいるソフトウェアエンジニアです。私の理解から、線形回帰(OLSなど)および 線形分類(ロジスティック回帰やSVMなど)は、トレーニング済み係数 と特徴変数内積に基づいて予測を行います。w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} = f(\vec{w} \cdot \vec{x}) = f(\sum_{i} w_i x_i) 私の質問は、モデルがトレーニングされた後(つまり、係数が計算された後)、モデルがより正確に予測するために重要な特徴変数の係数が大きくなるということですか?wiwiw_i つまり、変数を係数値で並べ替えてから、最も高い係数を持つフィーチャを選択するだけで、係数の相対的な大きさをフィーチャ選択に使用できるかどうかを尋ねています。このアプローチが有効な場合、機能の選択について(ラッパーメソッドやフィルターメソッドなどとともに)言及されていないのはなぜですか。 私がこれを尋ねる理由は、L1対L2の正規化に関する議論に出くわしたためです。次のような宣伝文句があります: 組み込み機能の選択は、L1-normの有用なプロパティとして頻繁に言及されていますが、L2-normはそうではありません。これは実際にはL1ノルムの結果であり、スパース係数を生成する傾向があります(以下で説明します)。モデルに100個の係数があり、そのうちの10個のみが非ゼロ係数を持つと仮定すると、これは事実上「他の90個の予測変数は目標値の予測には役に立たない」と言っています。 行間を読むと、係数が0に近い場合、その係数を持つ特徴変数にはほとんど予測力がないはずだと思います。 編集:私はまた、数値変数にZスケーリングを適用しています。

2
連続データとバイナリデータを線形SVMと混合しますか?
だから私はSVMで遊んでいますが、これが良いことかどうか疑問に思います: 一連の連続フィーチャ(0〜1)と、ダミー変数に変換した一連のカテゴリフィーチャがあります。この特定のケースでは、測定の日付をダミー変数にエンコードします。 データを取得する期間は3つあり、3つの機能番号を予約しました。 20:21:22: そのため、データの取得期間に応じて、異なる機能に1が割り当てられます。その他は0になります。 SVMはこれで適切に動作しますか、これは悪いことですか? SVMLightと線形カーネルを使用します。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.