R線形回帰のカテゴリ変数「非表示」の値


10

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する:

a.lm = lm(Y ~ x1 + x2)

x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。

summary(a.lm)
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.521     0.20       1.446   0.19        
x1            -0.61     0.11       1.451   0.17
x2Low         -0.78     0.22       -2.34   0.005
x2Medium      -0.56     0.45       -2.34   0.005

私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか?

これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。

r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
あなたはここで良い答えを得るかもしれませんが、この質問への答えは本質的に線形回帰がどのように機能するかを理解することになるので、stats.SEへの移行のためにこれにフラグを立てます。
joran

ええ、それは十分に公正です。自分で削除して自分で移動した方がよいでしょうか。それとも不要ですか?

1
何もする必要はありません。フラグを立てましたが、MODが届くまでに1、2時間かかる場合があり、日曜日もそうです。
joran 2012

3
質問は移動しますので、ここでは回答を提供しません。しかし、何が起こっているのかを理解するためにいくつかのことを試すことができます。1. lm(Y〜x1 + x2-1)を実行します。「-1」は切片を削除します。2. relevelを使用して、x2の参照カテゴリを変更します。
Manoel

回答:


14

Q: "... x2値" High "をどのように解釈しますか?たとえば、" High "x2は、ここに示す例の応答変数にどのような影響を与えますか?

A:出力にx2 = "High"の記述がないことに気付いたことは間違いありません。現時点では、「基本ケース」としてx2Highが選択されています。これは、人間の心にとってより自然なL / M / Hの順序であるにもかかわらず、レベルのデフォルトのコーディングを使用して因子変数を提供したためです。しかし、語彙的にアルファベットの「L」と「M」の両方の前にある「H」は、Rによって基本ケースとして選択されました。

「x2」は順序付けされていないため、報告された各コントラストはx2 = "High"に関連していたため、x2 = "=" Low "はx2 =" High "に関連して-0.78と推定されました。現時点では、切片は、x2 = "High"およびx1 = 0の場合の "Y"の推定値です。レベルの順序を変更した後、回帰を再実行する必要があります(ただし、因子を順序付けしていません)。

x2a = factor(x2, levels=c("Low", "Medium", "High"))

次に、「中」と「高」の見積もりは、予想とより一致します。

編集:代替のコーディングの配置(またはモデルマトリックスのより正確な配置)があります。Rのコントラストの既定の選択は、参照レベルとして1つの因子レベル(または因子レベルの特定の組み合わせ)を指定する「治療対照」です。他のレベルまたは組み合わせの推定平均差。ただし、切片を強制的に0にするか(推奨しません)、または他のコントラストの選択肢の1つを使用して、参照レベルを全体の平均にすることができます。

?contrasts
?C   # which also means you should _not_ use either "c" or "C" as variable names.

さまざまな要因に対してさまざまなコントラストを選択できますが、そうすると追加の解釈上の負担がかかるようです。S-PlusはデフォルトでHelmertコントラストを使用し、SASは治療コントラストを使用しますが、参照レベルとして最初の因子レベルではなく最後の因子レベルを選択します。


それは理にかなっている。x2「高」、「中」、「低」のいずれかでなければならないので、「値なし」は明らかにあり得ないと思います。ご回答有難うございます。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.