タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

4
通常の最小二乗法がポアソン回帰よりも優れているのはなぜですか?
私は、都市の各地区における殺人の数を説明する回帰を当てはめようとしています。私のデータはポアソン分布に従うことがわかっていますが、次のようにOLSを近似しようとしました。 L O G(y+ 1 )= α + βバツ+ ϵlog(y+1)=α+βバツ+ϵlog(y+1) = \alpha + \beta X + \epsilon 次に、(もちろん!)ポアソン回帰も試しました。問題は、OLS回帰の結果が優れていることです。疑似は高く(0.71対0.57)、RMSEも同じです(3.8対8.88。同じ単位を持つように標準化されています)。R2R2R^2 どうして?普通ですか?データの分布が何であれ、OLSを使用することの何が問題になっていますか? 編集 kjetil b halvorsenなどの提案に従って、OLSとNegative Binomial GLM(NB)の2つのモデルでデータを適合させました。私が持っているすべての機能から始め、重要ではない機能を1つずつ再帰的に削除しました。OLSは C R Iは、mは電子のa r e a−−−−√= α + βバツ+ ϵcr私mearea=α+βバツ+ϵ\sqrt{\frac{crime}{area}} = \alpha + \beta X + \epsilon weights =。a r e aareaarea summary(w <- lm(sqrt(num/area) …

1
チートシートANOVAアルファベットのスープと回帰の同等物
この暫定的な(進行中の)試みをANOVAおよび回帰に相当するものにしようとする試みを完了するのを手伝ってもらえますか?私はこれら2つの方法論の概念、命名法、構文を調和させようと試みてきました。このサイトには、その共通性に関する多くの投稿があります。たとえばthisまたはthisです。しかし、開始時に簡単な "you are here"マップを用意しておくとよいでしょう。 私はこの投稿を更新する予定であり、間違いを修正するのに役立つことを望んでいます。 一元配置分散分析: Structure: DV is continuous; IV is ONE FACTOR with different LEVELS. Scenario: miles-per-gal. vs cylinders Note that Income vs Gender (M, F) is a t-test. Syntax: fit <- aov(mpg ~ as.factor(cyl), data = mtcars); summary(fit); TukeyHSD(fit) Regression: fit <- lm(mpg ~ as.factor(cyl), mtcars) # …

1
LOOCV式の証明
統計学習の入門ジェームスら。、リーブワンアウトクロスバリデーション(LOOCV)推定値はによって定義されるCV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i ここMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2。 証明がなければ、方程式(5.2)には、最小二乗回帰または多項式回帰(これが1つの変数のみの回帰に当てはまるかどうかは不明)、 "ここで、Yiがされている私は、元の最小二乗から番目のフィット値(適合しないこの手段が、方法によって何全く考え、それが使用を意味し、すべてのデータセット内のポイントを)および?Hiがにより定義されるてこ」でHiは=1CV(n)=1n∑i=1n(yi−y^i1−hi)2CV(n)=1n∑i=1n(yi−y^i1−hi)2\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\left(\dfrac{y_i - \hat{y}_i}{1-h_i}\right)^2y^iy^i\hat{y}_iiiihihih_ihi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.hi=1n+(xi−x¯)2∑j=1n(xj−x¯)2.h_i = \dfrac{1}{n}+\dfrac{(x_i - \bar{x})^2}{\sum\limits_{j=1}^{n}(x_j - \bar{x})^2}\text{.} これをどのように証明しますか? 私の試み:一つは、その注目して開始することができ、Y I = β 0 + k個のΣ iは= 1 β K X K + 程度の一部多項式の項 ≥ 2 が、これとは別に(私は思い出す場合、ための、式hはiが唯一であると単純な線形回帰の場合...)、ここから先に進む方法がわかりません。y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2y^i=β0+∑i=1kβkXk+some polynomial terms of degree ≥2\hat{y}_i = \beta_0 + …

1
順序ロジスティック回帰のプロットと解釈
1(簡単ではない)から5(非常に簡単)の範囲の順序依存変数easinessがあります。独立因子の値の増加は、容易性評価の増加に関連しています。 私の独立変数のうちの2つ(condAおよびcondB)はカテゴリカルであり、それぞれ2つのレベルがあり、2(abilityA、abilityB)は連続しています。 私が使用している序それは私がであると信じるものを使用してR、パッケージを ロジット(p (Y⩽ グラム))= lnp (Y⩽ グラム)p (Y> g)= β0g− (β1バツ1+ ⋯ + βpバツp)(g= 1 、… 、k − 1 )ロジット(p(Y⩽g))=ln⁡p(Y⩽g)p(Y>g)=β0g−(β1バツ1+⋯+βpバツp)(g=1、…、k−1)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) (@caracalの回答はこちら) 私はこれを独自に学習してきましたが、まだ苦労しているので、可能な限りの助けをお願いします。通常のパッケージに付属するチュートリアルに加えて、次の情報も役立つことがわかりました。 順序ロジスティック回帰の解釈 順序ロジスティック回帰の負の係数 …


4
勾配制約のある線形回帰
で非常に単純な線形回帰を実行したいですR。式はと同じくらい簡単です。ただし、スロープ()が間隔内、たとえば1.4から1.6の間にあるようにします。y=ax+by=ax+by = ax + baaa これをどのように行うことができますか?


4
線形回帰の帰無仮説の変更
相関性の高いデータがいくつかあります。線形回帰を実行すると、勾配が1(= 0.93)に近い回帰直線が得られます。私がやりたいのは、この勾配が1.0と大きく異なるかどうかをテストすることです。私の期待はそうではないということです。言い換えると、線形回帰の帰無仮説をゼロの勾配から1の勾配に変更したいのです。これは賢明なアプローチですか?また、回答にRコードを含めて、このメソッド(または、より良い方法を提案する)を実装できることを本当に感謝しています。ありがとう。

4
線形関数、指数関数、および対数関数から最適な曲線近似関数を決定する
環境: Mathematics Stack Exchange (プログラムを構築できますか?)の質問から、誰かが点のセットを持ち、それに線形、指数、または対数曲線を当てはめたいと思っています。通常の方法は、これらのいずれか(モデルを指定)を選択して開始し、統計計算を実行することです。x − yバツ−yx-y しかし、本当に求められているのは、線形、指数、または対数から「最良の」曲線を見つけることです。 表向きは、3つすべてを試して、最適な相関係数に従って3つの最適な曲線を選択できます。 しかし、どういうわけか私はこれが全くコーシャーではないと感じています。一般的に受け入れられている方法は、最初にモデルを選択し、3つのうちの1つ(または他のリンク関数)を選択してから、データから係数を計算します。そして、事実上の最高のピッキングはチェリーピッキングです。しかし、データから関数または係数を決定するかどうかは同じですが、あなたの手順は最高の...ものを発見しています(どの関数が別の係数であるかを発見してみましょう)。 質問: 適合統計の比較に基づいて、線形、指数、および対数モデルから最適なモデルを選択することは適切ですか? もしそうなら、これを行うための最も適切な方法は何ですか? 回帰が関数内のパラメーター(係数)を見つけるのに役立つ場合、3つの曲線族のどれが最適であるかを選択する離散パラメーターがないのはなぜですか?

3
線形モデルでの予測限界の式の取得(例:予測間隔)
次の例を見てみましょう。 set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) これにより、OLS回帰を使用して、x1およびx2に基づいてyのモデルが作成されます。与えられたx_vecのyを予測したい場合は、から取得する式を使用できsummary(fit)ます。 ただし、yの下位予測と上位予測を予測する場合はどうでしょうか。(所定の信頼レベル)。 それでは、式をどのように構築しますか?

4
線形相関の高い2つの予測変数のうちの1つを単純に削除できますか?
ピアソンの相関係数を使用すると、高度に相関するいくつかの変数があります(モデルにある2組の変数に対しておよび)。ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 理由一つの変数がで使用されているので、変数のいくつかは高度に相関しているがある計算別の変数。 例: B=V/3000B=V/3000B = V / 3000および E=V∗DE=V∗DE = V * D BBBと持っているEEEρ=0.989ρ=0.989\rho = 0.989 変数の1つを「捨てる」ことは可能ですか?

3
順序カテゴリ変数を独立変数として処理する方法
ロジットモデルを使用しています。私の従属変数はバイナリです。ただし、カテゴリ変数であり、応答を含む独立変数があります1.very good, 2.good, 3.average, 4.poor and 5.very poor。したがって、それは序数です(「定量的カテゴリ」)。モデルでこれを処理する方法がわかりません。を使用していgretlます。 [@ttnphnsからの注記:モデルはロジットであるとの質問がありますが(依存関係はカテゴリカルであるため)、重要な問題-順序独立変数-は基本的に類似しており、依存カテゴリカルまたは定量的です。したがって、この問題は、たとえばロジスティック回帰または他のロジットモデルと同様に、線形回帰にも同様に関連しています。]


1
プライマル、デュアル、カーネルリッジ回帰の違い
Primal、Dual、およびKernel Ridge回帰の違いは何ですか?人々は3つすべてを使用していますが、異なるソースで誰もが使用する表記法が異なるため、私が従うことは困難です。 だから誰かが簡単な言葉でこれら3つの違いを教えてもらえますか?さらに、それぞれの長所または短所は何ですか?また、その複雑さは何ですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.