線形回帰で切片を抑制するのはなぜですか?


20

SAS、SPSSなどを含む多くの統計パッケージには、「傍受を抑制する」オプションがあります。なぜそれをしたいのですか?

回答:


16

何らかの理由でインターセプトを知っている場合(特にゼロの場合)、既に知っていることを推定するためにデータの分散を無駄にずに、推定する必要のある値に自信を持つことできます。

やや単純化した例は、1つの変数が(平均して)別の変数の倍数であることを(ドメインの知識から)知っていて、その倍数を見つけようとしている場合です。


私はそれを完全には理解していませんが、Rで作成しているモデルには、bとcの間の相互作用を作成し、インターセプトを抑制することにより、lm(a〜b / c-1)のようなものがあります(「-1」 R)では、インターセプトを抑制しない場合と本質的に同じである、より簡単に解釈可能な答えが得られます。どういうわけか、相互作用はこれを可能にします。
ウェイン

本質的に同じで、より簡単に解釈できる答えは?それは矛盾しているようです。これを新しい質問として紹介すべきでしょうか?
ニックサブベ

私は、係数を見れば、インターセプトであり(切片)tempwarmerを(私の変数の一つである、一時できる暖かいまたはクーラー)。係数を解釈するには、(intercept)tempcoolerに直接対応し、tempwarmer + (intercept)が直接解釈可能なtempwarmerであることを知る必要があります。インターセプトを抑制すると、tempcoolertempwarmerが直接表示されます。おそらくRの式と線形モデリングの癖ですが、...
ウェイン

12

3レベルのカテゴリ共変量の場合を考えます。インターセプトがある場合、2つのインジケーター変数が必要になります。インジケータ変数の通常のコーディングを使用すると、いずれかのインジケータ変数の係数は、参照グループと比較した平均差です。切片を抑制すると、2つの変数ではなく、カテゴリ共変量を表す3つの変数が得られます。係数は、そのグループの平均推定値です。これを行う場所のより具体的な例は、米国の50州を研究している政治学です。インターセプトと状態用の49のインジケータ変数を使用する代わりに、インターセプトを抑制し、代わりに50の変数を使用することが望ましい場合があります。


係数をそのように解釈する方がはるかに簡単
確率は

1
はい。ただし、2つ以上のカテゴリ変数で分類されます。
kjetil bハルヴォルセン

2

特定の例で@Nick Sabbeのポイントを説明するため。

私はかつて、研究者が幅の関数として木の年齢のモデルを提示するのを見ました。ツリーの年齢が0のとき、ツリーの幅は事実上ゼロであると想定できます。したがって、インターセプトは必要ありません。


8
知恵またはその欠如は、関心のある従属変数の範囲に依存します。速度と停止距離がある車のブレーキデータを検討してください。切片の有無にかかわらず、2次モデルを近似できます。関心のある速度は通常、約50 km /時から始まり、たとえば130 km /時まで上がります。この場合、2次関数切片をあてはめることは理にかなっていると思います。切片を強制的にゼロにすると、(実際には)重大な不適合の問題が発生する可能性があるからです。停車中の自動車の「制動距離」がゼロであるという事実は、手元のモデリング問題には特に関係ありません。
枢機卿

@cardinalはい、私は同様の点を指摘すべきかどうか疑問に思っていました。一部の非線形回帰モデリングコンテキストでは、データの範囲外で正確に予測する理論的に妥当なモデルを提供するモデルを持つことに大きな関心があります(たとえば、学習曲線データの速度では、モデルは0秒未満の速度を予測すべきではありません) )。このような場合、データの予測が低下する場合でも、インターセプトをゼロに制限する方が適切な場合があります。
ジェロミーアングリム

@cardinal私は、多項式モデルがデータの範囲外でもっともらしく予測することはめったにないことに同意します。
ジェロミーアングリム

コメントしてくれてありがとう。私の発言は、多項式モデルをそれほど目指していませんでした。二次式の選択は、単に実際の物理的動機付け(つまり、古典的な力学)に基づいていました。明確にしようとしたのは、対象のモデリング問題を慎重に検討する必要があるということです。「理論的に不当」である(またはそう思われる)ことを実際に行うことは、実際には統計的に適切です。
枢機
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.