タグ付けされた質問 「regression」

1つ(または複数)の「従属」変数と「独立」変数の間の関係を分析する手法。

1
線形回帰でカテゴリ変数の統計的有意性をテストする方法は?
線形回帰でカテゴリ変数がある場合...カテゴリ変数の統計的有意性をどのようにして知ることができますか? 因子は10個のレベルがあり、1つの因子変数傘下で、10の異なる結果のt値があるとしましょう。X 1X1X1X_1X1X1X_1 因子変数の各レベルに対して統計的有意性がテストされているように思えますか?番号? @Macro:あなたの提案に従って、次の例を作成しました。 以下のモデル比較から、x3は有用であり、モデルに含める必要があるようです。 しかし、実際にはそれは間違っています... n=100 x1=1:n x2=(1:n)^2 x3=rnorm(n) ee=rnorm(n) y=3*x1-2*x2+x3+3+ee lm1=lm(y~x1+x2+x3) summary(lm1) lm2=lm(y~x1+x2) summary(lm2) anova(lm1, lm2) > anova(lm1, lm2) Analysis of Variance Table Model 1: y ~ x1 + x2 + x3 Model 2: y ~ x1 + x2 Res.Df RSS Df Sum of Sq F Pr(>F) …

1
線形回帰係数の信頼区間は、正規分布または
単純なANOVAなどの線形モデルを作成してみましょう。 # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) 結果は次のとおりです。 Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q Max -2.30047 …

2
線形回帰にバイアス分散トレードオフのグラフィカルな表現はありますか?
私は停電に苦しんでいます。線形回帰のコンテキストでのバイアスと分散のトレードオフを示すために、次の図を紹介しました。 2つのモデルのいずれも適切ではないことがわかります。「単純」はXY関係の複雑さを認識しておらず、「複雑」は過剰適合であり、基本的にトレーニングデータを暗記しています。しかし、私はこれらの2つの写真の偏りと分散を完全に見ることができません。誰かがこれを見せてもらえますか? PS:バイアスと分散のトレードオフの直感的な説明に対する答えは?本当に助けにならなかったので、誰かが上の写真に基づいて異なるアプローチを提供できたらうれしいです。

2
係数間の有意差をテストする正しい方法は何ですか?
誰かが私のために混乱のポイントをまっすぐにするのを手伝ってくれることを望んでいます。次の設定で、2セットの回帰係数が互いに有意に異なるかどうかをテストしたいとします。 y私= α + βバツ私+ ϵ私yi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i、5つの独立変数。 ほぼ等しいサイズの 2つのグループ(これは異なる場合があります)n1、n2n1,n2n_1, n_2 数千の同様の回帰が同時に行われるため、何らかの種類の複数の仮説修正を行う必要があります。 私に提案されたアプローチの1つは、Zテストを使用することです。 Z= b1− b2(√SEb21+ SEb22)Z=b1−b2(SEb12+SEb22)Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)} このボードで私が見た別の提案は、グループ化のためにダミー変数を導入し、モデルを次のように書き換えることです: Gy私= α + βバツ私+ δ(x私g私)+ ϵ私yi=α+βxi+δ(xigi)+ϵiy_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i、ここでは0、1としてコード化されたグループ化変数です。ggg 私の質問は、これらの2つのアプローチがどのように異なるのか(たとえば、異なる前提条件、柔軟性)です。一方が他方よりも適切ですか?これはかなり基本的なことではないかと思いますが、説明をいただければ幸いです。

3
変数選択になげなわを使用した後の推論
比較的低次元の設定(n >> p)でフィーチャの選択にLassoを使用しています。Lassoモデルを近似した後、ペナルティなしでモデルを近似するために、非ゼロ係数の共変量を使用します。ラッソが私に与えることのできない公平な推定値が欲しいので、私はこれをしています。また、不偏推定値のp値と信頼区間も必要です。 このトピックに関する文献を見つけることができません。私が見つけた文献のほとんどは、適合モデルではなく、Lasso推定に信頼区間を置くことに関するものです。 私が読んだことから、データセット全体を使用してモデルを再フィットすると、非現実的に小さなp値/ stdエラーが発生します。現時点では、サンプル分割(Wasserman and Roeder(2014)またはMeinshausen et al。(2009)のスタイル)は適切な対応策のようですが、私はさらに提案を探しています。 誰もこの問題に遭遇しましたか?もしそうなら、いくつかの提案を提供してください。

2
回帰の多項式対比
回帰フィッティングにおける多項式コントラストの使用法を理解できません。特に、このページRで説明されている間隔変数(等間隔のレベルを持つ順序変数)を表現するために使用されるエンコーディングを参照しています。 そのページの例では、私が正しく理解していれば、Rは区間変数のモデルに適合し、線形、二次、または三次の傾向に重みを付けるいくつかの係数を返します。したがって、近似モデルは次のようになります。 write=52.7870+14.2587X−0.9680X2−0.1554X3,write=52.7870+14.2587X−0.9680X2−0.1554X3,{\rm write} = 52.7870 + 14.2587X - 0.9680X^2 - 0.1554X^3, ここで、値取るべき、、、または間隔変数の異なるレベルに応じ。XXX111222333444 これは正しいです?そして、もしそうなら、多項式対比の目的は何でしたか?

2
Rで数値/カテゴリ値の両方で順序ロジスティック回帰分析を実行するにはどうすればよいですか?
基本データ:評価「1,1」「良い」「2」「中間」または「3」「悪い」でマークされた人が約1,000人あります-これらは将来の人のために予測しようとしている値です。それに加えて、性別(カテゴリ:M / F)、年齢(数値:17-80)、および人種(カテゴリ:黒/白人/ラテン系)の人口統計情報があります。 主に4つの質問があります。 最初に、上記のデータセットを重回帰分析として実行しようとしました。しかし、私は最近、私の従属変数が順序変数であり、連続変数ではないため、このようなことには順序ロジスティック回帰を使用する必要があることを学びました。最初はのようなものを使用していましたがmod <- lm(assessment ~ age + gender + race, data = dataset)、誰かが私を正しい方向に向けられますか? そこから、私が快適だと思う係数を取得すると仮定して、x1、x2などの数値のみをプラグインする方法を理解します-しかし、たとえば、複数の応答がある場合、レースにどのように対処しますか:黒/白人/ラテン系?それで、コーカサス係数が0.289で、予測しようとしている人がコーカサス人であることがわかった場合、値は数値ではないので、どのように元に戻すのですか? レース用、性別用など、欠落しているランダムな値もあります。これが歪んでいないことを確認するために、さらに何かをする必要がありますか?(データセットがR-StudioにロードされNA、欠落データがとしてロードされると、Rは次のよう(162 observations deleted due to missingness)になりますが、空白としてロードされても、何もしません。) これがすべてうまくいき、性別、年齢、人種を予測したい新しいデータがあると仮定します。新しい係数を持つ私の式が判明したとしても、Rでそれをすべて実行する簡単な方法がありますか?手動で行うのではなく?(この質問がここで適切でない場合は、Rフォーラムに戻すことができます。)


4
とF検定の関係は?
R2R2R^2とF検定の間に関係があるかどうか疑問に思っていました。 通常、R2= ∑ (Y^t−Y¯)2/T− 1∑ (Yt− Y¯)2/T− 1R2=∑(Y^t−Y¯)2/T−1∑(Yt−Y¯)2/T−1R^2=\frac {\sum (\hat Y_t - \bar Y)^2 / T-1} {\sum( Y_t - \bar Y)^2 / T-1}、それは、回帰における直線関係の強さを測定します。 F検定は仮説を証明するだけです。 R2R2R^2とF検定の間に関係はありますか?

3
回帰におけるR二乗とp値の関係は何ですか?
tl; dr-OLS回帰の場合、Rの2乗が大きいほどP値も高いことを意味しますか?特に単一の説明変数(Y = a + bX + e)についてですが、n個の複数の説明変数(Y = a + b1X + ... bnX + e)についても知りたいと思います。 コンテキスト-変数の範囲でOLS回帰を実行し、線形、対数など、各説明(独立)変数の変換の間のR 2乗値を含むテーブルを作成することにより、最適な説明関数形式を開発しようとしています。および応答(従属)変数。これは少し似ています: 変数名--linear form-- --ln(variable)--exp(variable)-... etc 変数1 ------- R-squared ---- R-squared ---- R-squared-... など... Rの2乗が適切か、またはP値の方が良いかどうか疑問に思っています。より重要な関係はより高い説明力を意味するが、それが厳密な方法で真実であるかどうかはわからないため、おそらく何らかの関係があります。

5
t統計が非常に大きいのに、なぜR二乗が非常に低いのですか?
私は4つの変数を用いて回帰を実行し、すべてがT値と、非常に統計的に有意である≈7,9,26≈7,9,26\approx 7,9,26及び313131(I言う≈≈\approx非常に高く、明らかに有意であることが小数を含むように無関係と思われるため)。しかし、R2R2R^2はわずか.2284です。ここでtの値を、それらがそうではない何かを意味すると誤解していますか?t値を見たときの私の最初の反応は、R2R2R^2がかなり高いということでしたが、多分それは高いR2R2R^2でしょうか?

8
補間は回帰の概念にどのように関連していますか?
補間の意味を簡単に説明してください。回帰の概念とどのように関連していますか? 補間は、テーブルの行間を読み取る技術であり、初等数学では、この用語は通常、関数の与えられた値または表値のセットから関数の中間値を計算するプロセスを示します。 2番目の質問には答えられません。助けてください

1
エラーが正規分布していると仮定するのはなぜですか?
エラーをモデル化するときに、なぜガウスの仮定を使用するのでしょうか。でスタンフォード大学のMLコース、教授ンは2つの方法で、基本的にそれを説明します。 数学的に便利です。(最小二乗法に関連しており、疑似逆行列で簡単に解決できます) 中心極限定理により、プロセスに影響を与える多くの潜在的な事実があり、これらの個々の誤差の合計は、平均がゼロの正規分布のように振る舞う傾向があると仮定できます。実際にはそうです。 私は実際に第二部に興味があります。私が知る限り、中央極限定理はiidサンプルに対して機能しますが、基になるサンプルがiidであることを保証することはできません。 誤差のガウス仮定に関する考えはありますか?


1
LASSOの前提
LASSO回帰シナリオで y= Xβ+ ϵy=Xβ+ϵy= X \beta + \epsilon、 LASSOの推定値は、次の最適化問題によって与えられます 分β| | y− Xβ| | +τ| | β| |1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 \ epsilonに関する分布の仮定はありϵϵ\epsilonますか? OLSシナリオでは、ϵϵ\epsilonは独立しており、正規分布していると予想されます。 LASSO回帰で残差を分析することは意味がありますか? LASSO推定値は、\ beta_jの独立した二重指数事前分布の下で事後モードとして取得できることを知っていますβjβj\beta_j。しかし、標準の「仮定検査フェーズ」は見つかりませんでした。 前もって感謝します (:

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.