線形回帰に関する最も一般的な誤解は何ですか?


70

他の研究者と協力して幅広い経験をお持ちの方にとって、あなたが遭遇する線形回帰についての最も一般的な誤解は何ですか?

よくある誤解を事前に考えて、

  1. 人々の間違いを予測しいくつかの誤解が間違っている理由を明確に説明できる

  2. 自分でいくつかの誤解を抱いているかどうかを理解してください!

私が考えることができるいくつかの基本的なもの:

独立/従属変数は正規分布する必要があります

正確な解釈のために変数を標準化する必要があります

他のもの?

すべての回答は大歓迎です。


5
これはおそらく可能性のリストを誘うので、おそらくCWにする必要があります。
GUNG -モニカ元に戻し

私が知っている多くの人々は、使用しているコンピューティング環境が非線形回帰を適切にサポートしている場合でも、データに対して線形化を実行し、そのままにしておくことを主張しています。(もちろん、線形化は非線形近似の開始点として有用ですが、これらの人々はそれを認識さえしていません。)
JMは統計学者ではない

1
@gung:コミュニティWikiはまだ問題ですか? ほとんどがネットワーク全体廃止されたため、CWは、刑務所のないカードから抜け出すために、大まかに尋ねられた大きなリストの質問を提供したり、そもそも問題が話題になった場合に得たかもしれない評判を奪うことについては決してありませんでした。モデレーターにそれをするよう頼むなら、あなたはもう質問にそれを置くことができる唯一の方法です。
ロバートハーベイ

1
神が世界を線形にしたなら、非線形回帰はありません。
マークL.ストーン

1
@RobertHarvey:はい、それまだCrossValidatedで非常に重要なことです(残念ながら)。私たちはそれについていくつかの激しいメタ議論をしましたが(例えば、これについて)、現在の現状では、CWステータスは、オープンにとどまるのに十分なトピックについて考えられるすべての意見ベースまたはビッグリストの質問に適用されています。
アメーバは、モニカーを復活させる

回答:


38

β^0

Yβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε

第三の偽の前提は、推定の数増やすことであるパラメータは必ずしも統計的検出力の損失をもたらします。真の関係が非線形であると(例えば、「壊れたスティック」機能を推定するために複数のパラメータを必要とするだけでなく、必要とするときにこれが偽であり、切片傾きの直線の用語を、しかし必要との勾配変化点どのくらいの斜面の変化 推定値も):誤って指定されたモデル(例:直線)の残差は(適切に指定された関数関係に比べて)非常に大きくなる可能性があり、結果として棄却確率が低くなり、信頼区間と予測区間が広くなります(推定値にバイアスがかかる) 。


4
(+1)Quibbles:(1)入門テキストでさえ、すべての曲線が多項式関数であることを意味するのではなく、多項式関数によって与えられた範囲で十分に近似できるとは思いません。したがって、それらは、ウィグリグリネスを指定する「ハイパーパラメーター」によって管理される「特定の機能的形態を想定しない回帰アプローチ」のクラスに分類されます。スプラインベースの回帰のノット、多項式ベースの回帰の次数。(私は多項式のフラグを振っていません-彼らが
望ん

2
...正当な理由を与えるだけです。)(2)線形モデルフレームワーク内では、正弦波が適切である可能性が高い。非線形モデルを使用した飽和効果(長方形の双曲線、たとえば); &c。もちろん、特に断りはしませんでしたが、サイクルまたは漸近線があることがわかっている場合は、モデルにこれらの制約を適用すると役立つことを指摘する価値があります。
Scortchi -モニカ元に戻し

2
@Scortchi私はこれ以上同意できませんでした!(実際、無限の数の多項式が与えられると、どの関数も完全に表現できます。)簡潔さを目指していました。:)
アレクシス

2
@Alexis Conwayのベース13関数を多項式で近似してみてください。:)
ソロモノフの秘密

1
χQ

22

yxx

xxyxx

x

y=Xβ+εy

(おそらく一般的な順序で、直交回帰デミング回帰合計最小二乗など、他の一般的な変数のエラーモデルにもリンクする必要があります。)

参照資料


その点について:これは、「合計最小二乗」または「直交回帰」と呼ばれる手法を使用する1つの理由です(参照している参照に応じて)。単純な最小二乗法よりもかなり複雑ですが、すべてのポイントがエラーで汚染されている場合は実行する価値があります。
JMは統計学者ではない

@JMありがとう-はい、実際、私はもともとTLSへのリンクを入れるつもりでしたが、スミスとフィリップスの記事に気を取られました!
シルバーフィッシュ

2
+1このトピックへのすばらしい追加。私は自分の仕事でEIVモデルをよく考えました。ただし、複雑さや「エラー率」の知識への依存とは別に、より概念的な問題を考慮する必要があります。多くの回帰は、特に教師付き学習または予測において、観測された予測因子を観測された結果に関連付けたいと考えています。一方、EIVモデルは、平均予測変数と平均応答の根本的な関係を特定しようとします...わずかに異なる質問です。

2
したがって、「科学的文脈における」「真の」回帰の「希釈」と呼ばれるものは、「予測効用の欠如」または予測文脈におけるそのようなものと呼ばれます。

21

p

重回帰に固有の誤解は次のとおりです。

  1. p
  2. YXXYZ1,,Z5Z6,,Z20

12
いい物。この答えは、なぜ2つが間違っているのか、1つはどうすればよいのかを説明しているとさらに便利かもしれません?
DW

14

あなたが最初にリストしたものは、明らかに間違っていると思われるものの中でおそらく最も一般的であり、おそらく最も広く教えられているものだと思いますが、ここではいくつかの状況ではあまり明確ではないものがあります(実際に適用されるかどうか)が、さらに多くの分析に影響を与える可能性があり、おそらくより深刻です。これらは、回帰の主題が導入されたときに言及されないことがよくあります。

  • おそらく代表に近くなり得ない観測の対象集団からのランダムサンプルとして扱う(ランダムサンプリングはもちろん)。[代わりに、便利なサンプルに近いものとしていくつかの研究を見ることができます]

  • 観測データでは、処理の重要なドライバーを除外した結果を無視するだけで、含まれる変数の係数の推定値を確実にバイアスします(多くの場合、符号を変更する可能性もあります)。彼らと一緒に(問題の無知から、または単に何でもできることを知らないから)。[収集されるデータの種類のため、または一部のアプリケーション分野の人々が問題について教えられている可能性が高いために、一部の研究分野は他よりもこの問題を抱えています。]

  • スプリアス回帰(主に経時的に収集されたデータを使用)。[人々がそれを知っているときでさえ、問題を完全に回避するためには、想定された静止と単純に区別するだけで十分であるという別の一般的な誤解があります。

もちろん、言及できる他の多くのものがあります(たとえば、ほぼ確実に連続的に相関する、または統合さえされる独立したデータとして扱うことは、ほぼ同じくらい一般的です)。

時間の経過とともに収集されたデータの観察研究は、これらのすべてに一度にヒットする可能性があることに気付くかもしれません...しかし、その種の研究は、回帰が標準ツールである多くの研究分野で非常に一般的です。1人のレビュアーまたは編集者が少なくとも1人について知らず、結論に少なくともある程度の免責事項を要求することなく、彼らがどのように出版物を入手できるかは、私を心配させ続けています。

統計には、かなり慎重に制御された実験(おそらくそれほど慎重に制御されていない分析と組み合わせた場合)を処理する場合、再現性のない結果の問題がたくさんあります。


6
yx

2
@Silverfish私は完全にあなたに同意します。
マークL.ストーン

@SilverfishはCWなので、そのような適切な追加で編集するのに余分な自由を感じる必要があります。
Glen_b

@Silverfishあなたがそれについて言及したとき、私はまだ自分でそれを追加しなかった理由があります...多分新しい答えの価値があると思います
-Glen_b

12

私はおそらくこれらの誤解を呼ぶことはないでしょうが、おそらく混乱/ハングアップの共通点、そして場合によっては、研究者が気付いていないかもしれない問題です。

  • 多重共線性(データポイントよりも多くの変数の場合を含む)
  • 不均一分散
  • 独立変数の値がノイズの影響を受けるかどうか
  • スケーリング(またはスケーリングではない)が係数の解釈に与える影響
  • 複数の被験者からのデータを処理する方法
  • シリアル相関の処理方法(例:時系列)

物事の誤解について:

  • y=ax2+bx+cx
  • その「回帰」とは、通常の最小二乗または線形回帰を意味します
  • 低/高の重みは、必然的に従属変数との弱い/強い関係を意味します
  • 従属変数と独立変数の間の依存関係は、必ずペア依存関係に減らすことができます。
  • トレーニングセットの適合度が高いということは、良いモデル(つまり、過剰適合を無視すること)を意味します

7

私の経験では、学生は2乗誤差(またはOLS回帰)が本質的に適切で、正確で、全体的に良いこと、または代替手段がないという見解をよく採用します。私は頻繁にOLSが「より極端な/逸脱した観測により大きな重みを与える」という発言とともに広告されていることをよく見ています。この概念は、外れ値と堅牢なアプローチの処理が導入されたときに、後で修正される可能性がありますが、その時点で損害が発生します。間違いなく、二乗誤差の広範な使用は、歴史的には、実際の誤差コストの自然法則よりも数学的な利便性に関係しています。

全体的に、エラー関数の選択はいくぶんarbitrary意的であるという理解をより重視することができます。理想的には、アルゴリズム内のペナルティの選択は、潜在的なエラーに関連する対応する実世界のコスト関数によって導かれる必要があります(つまり、意思決定フレームワークを使用)。最初にこの原則を確立してから、私たちができることを見てみませんか?


2
選択はアプリケーションにも依存します。OLSは代数的なy軸のフィットに役立ちますが、総最小二乗(または直交距離に基づく他のコスト関数)がより意味のある幾何学アプリケーションにはあまり適していません。
ウィリーウィーラー

4

もう1つのよくある誤解は、誤差項(または計量経済学の用語の外乱)と残差が同じものであるということです。

誤差項は、真のモデルまたはデータ生成プロセスのランダム変数であり、特定の分布に従うと仮定されることがよくありますが、残差は、観測されたデータの適合モデルからの偏差です。そのため、残差は誤差の推定値と見なすことができます。


私は人々がこれがなぜ重要なのか、どのような場合の説明に興味があるに違いない。
rolando2

4

私が遭遇する最も一般的な誤解は、線形回帰がエラーの正常性を仮定しているということです。そうではありません。正規性は、線形回帰のいくつかの側面、たとえば係数の信頼限界などの小さなサンプルプロパティに関連して役立ちます。これらのことでも、非正規分布に利用可能な漸近値があります。

2番目に一般的なのは、フィードバックループに注意を払わないなど、内因性に関する混乱のクラスターです。YからXに戻るフィードバックループがある場合、それは問題です。


4

私が犯したエラーは、OLSでXとYの対称性を仮定することです。たとえば、線形関係を仮定すると

Y=aX+b
X=1aYba

これは、OLSと総最小二乗または第1主成分の違いにも関係しているのかもしれません。


3

私がよく目にするのは、実際の特定のユースケースにおける線形回帰の適用可能性に関する誤解です。

たとえば、関心のある変数が何かのカウント(例:Webサイトの訪問者)または何かの比率(例:コンバージョン率)であるとしましょう。このような場合、ポアソン(カウント)、ベータ(ラティオス)などのリンク関数を使用して、変数をより適切にモデル化できます。したがって、より適切なリンク関数で一般化モデルを使用する方が適しています。しかし、変数がカテゴリカルではないという理由だけで、単純な線形回帰(リンク関数=アイデンティティ)で始まる人々を見てきました。精度への影響を無視しても、ここではモデリングの仮定が問題になります。


2

ここに、研究者がしばしば見過ごしていると思うものがあります:

  • 可変的な相互作用:研究者は、しばしば個々の予測変数の孤立したベータに注目し、しばしば相互作用の用語さえ指定しません。しかし、現実の世界では物事は相互作用します。すべての可能な相互作用用語を適切に指定しないと、「予測者」がどのように連携して結果を形成するかわかりません。そして、勤勉ですべての相互作用を指定したい場合、予測子の数が爆発します。私の計算から、4つの変数と100人の被験者との相互作用のみを調査できます。もう1つ変数を追加すると、非常に簡単にオーバーフィットできます。

0

別の一般的な誤解は、推定値(適合値)が変換に対して不変ではないことです。たとえば、

f(y^i)f(yi)^
y^i=xiTβ^

f()

log()

これは、データのログ変換を行い、線形回帰を当てはめた後、当てはめられた値を指数化し、それを回帰として読み取るときに常に発生します。これは平均ではなく、これが中央値です(真に対数正規分布の場合)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.