タグ付けされた質問 「multiple-regression」

2つ以上の非定数の独立変数を含む回帰。

2
リッジ回帰となげなわ回帰を使用する場合。線形回帰モデルではなくこれらの手法を使用して達成できること
RidgeやLassoの回帰のような正則化された回帰手法についてもっと学ぶのを楽しみにしています。線形回帰モデルと比較して、これらの手法を使用して何が達成できるか知りたいのですが。また、どのような状況でこれらの手法を採用する必要があります。そして、これら2つの手法の違いは何ですか。これらの手法の背後にある概念と数学を理解したいと思っています。あなたの貴重な知識を共有してください。

1
RでWLS回帰の重みを決定する方法
DNAメチル化マーカーのセットの関数として年齢を予測しようとしています。これらの予測子は0から100まで連続しています。OLS回帰を実行すると、年齢とともに分散が増加することがわかります。 したがって、私は加重回帰モデルを当てはめることにしました。ただし、モデルの重みを定義する方法を決定するのに苦労しています。私は次のようにfGLSメソッドを使用しました: OLSressq <- OLSres^2 # Square residuals lnOLSressq <- log(OLSressq) # Take natural log of squared residuals aux <- lm(lnOLSressq~X) # Run auxillary model ghat <- fitted(aux) # Predict g^ hhat <- exp(ghat) # Create h^ fGLS <- lm(Y~X, weights = 1/hhat) # Weight is 1/h^ そして、これらは私の結果でした: Call: lm(formula …

1
線形回帰が不可能である負の推定を与える場合の対処法
線形回帰を使用して、実際には常に負ではない値を推定しています。予測変数も負ではありません。たとえば、給与を予測するために、教育年数と年齢を後退させます。この場合、すべての変数は常に負ではありません。 負の切片が原因で、私のモデル(OLSで決定された)はいくつかの負の予測になります(すべての値の範囲に対して予測変数の値が低い場合)。 このトピックはすでにここで説明されており、0でインターセプトを強制することは推奨されないことも承知しているため、このモデルを使用する必要があるものとして受け入れる必要があるようです。しかし、ここでの私の質問は、そのようなモデルを評価するときに受け入れられる規範とルールについてです。ここに特別なルールはありますか?具体的には: 負の見積もりが出た場合、0に丸めることはできますか? 観測値が100であり、予測値が-300であり、可能な最小値が0であることがわかっている場合、エラーは400または100ですか?たとえば、MEとRMSEを計算する場合。 それが議論に関連している場合:私は単純な線形回帰と多重線形回帰の両方を使用しました。どちらもいくつかの負の値になります。 編集: 以下は、適合のあるサンプルの例です。 線形回帰の係数は0.0010(x)および-540(切片)です。 Xにログを使用すると、次のようになります。 ここで線形回帰は適切ですか?

1
sklearnでMADを最小化する線形回帰
回帰クラス線形標準sklearnは、平均二乗誤差(MSE)を最小変量と共変量との間の近似直線関係を見出します。具体的には、を観測値の数とし、簡略化のために切片を無視します。ましょうの変量値で番目の観察との値であるの共変量番目の観測。線形関係は、 ここで、係数は、 NNNyjyjy_jjjjx1,j,…,xn,jx1,j,…,xn,jx_{1,j}, \dots, x_{n,j}nnnjjjy=β1x1+…βnxn;y=β1x1+…βnxn; y = \beta_1 x_1 + \dots \beta_n x_n;β1,…,βnβ1,…,βn\beta_1, \dots, \beta_nβ1,…,βn=argminβ~1,…,β~n(∑j=1N(yj−β~1x1,j−⋯−β~nxn,j)2).β1,…,βn=argminβ~1,…,β~n(∑j=1N(yj−β~1x1,j−⋯−β~nxn,j)2).\beta_1, \dots, \beta_n = \underset{\tilde\beta_1, \dots, \tilde\beta_n}{\mathrm{argmin}} \left( \sum_{j = 1}^N \left( y_j - \tilde\beta_1x_{1, j} - \dots -\tilde\beta_nx_{n, j}\right)^2 \right). ここで、平均二乗誤差ではなく、平均絶対偏差(MAD)を最小化する係数を見つけたいと思います。つまり、 β1,…,βn=argminβ~1,…,β~n(∑j=1N∣∣yj−β~1x1,j−⋯−β~nxn,j∣∣).β1,…,βn=argminβ~1,…,β~n(∑j=1N|yj−β~1x1,j−⋯−β~nxn,j|).\beta_1, \dots, \beta_n = \underset{\tilde\beta_1, \dots, \tilde\beta_n}{\mathrm{argmin}} \left( \sum_{j = 1}^N \left| y_j - …

1
リッジ回帰となげなわ回帰
私は現在この問題に取り組んでおり、目標は、Ridge&Lasso回帰を使用して、8つの予測子でY(血圧)を予測する線形回帰モデルを開発することです。最初に、各予測子の重要性を調べます。以下はsummary()summary()summary() 私の多重線形回帰の age100age100age100 再スケーリングされた ageageage 他の予測子と同様のスケールになるようにします。 Call: lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ + fra) Residuals: Min 1Q Median 3Q Max -80.120 -17.019 -0.648 18.158 117.420 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 145.605 9.460 15.392 < 2e-16 …

1
検量線の解釈
私は段階的に導出されたバイナリロジスティック回帰モデルを持っています。R calibrate(, bw=200, bw=TRUE)のrmsパッケージの関数を使用して、将来のキャリブレーションを推定しました。出力を以下に示します。これは、バックワードステップダウンロジスティックモデルのブートストラップ過適合が補正された検量線推定を示しています。しかし、私はそれをどのように解釈するかわかりません。 キャリブレーションとは、将来の予測確率が観測された確率と一致するかどうかを指すことを理解しています。予測モデルは、新しい被験者の予測が極端すぎる(つまり、結果の観測確率が低リスク被験者の予測よりも高く、高リスク被験者の予測よりも低い)ことに悩まされています。これは、リスクの低いグループの理想(破線)よりも高く、リスクの高いグループの理想よりも低い点線の曲線をトレースするとわかります。 同じ推論を使用すると、バイアスが補正された曲線は、さらに極端な確率を生成するという意味で、より悪くなります。私の解釈は正しいですか?

1
選択可能な変数の数を考慮した情報量基準
重回帰モデルを実行していて、AICとBICを使用してモデルを選択しようとしています。ただし、どちらの指標も、選択できる変数の数は考慮せず、選択した変数の数のみを考慮していることに気づきました。選択する変数がたくさんある場合、運が良ければ、モデル化しようとしているものと非常に相関のあるものが見つかる可能性があります。いくつの変数から選択できるかを考慮した指標はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.