他の研究者と協力して幅広い経験をお持ちの方にとって、あなたが遭遇する線形回帰についての最も一般的な誤解は何ですか?
よくある誤解を事前に考えて、
人々の間違いを予測し、いくつかの誤解が間違っている理由を明確に説明できる
自分でいくつかの誤解を抱いているかどうかを理解してください!
私が考えることができるいくつかの基本的なもの:
独立/従属変数は正規分布する必要があります
正確な解釈のために変数を標準化する必要があります
他のもの?
すべての回答は大歓迎です。
他の研究者と協力して幅広い経験をお持ちの方にとって、あなたが遭遇する線形回帰についての最も一般的な誤解は何ですか?
よくある誤解を事前に考えて、
人々の間違いを予測し、いくつかの誤解が間違っている理由を明確に説明できる
自分でいくつかの誤解を抱いているかどうかを理解してください!
私が考えることができるいくつかの基本的なもの:
独立/従属変数は正規分布する必要があります
正確な解釈のために変数を標準化する必要があります
他のもの?
すべての回答は大歓迎です。
回答:
第三の偽の前提は、推定の数増やすことであるパラメータは必ずしも統計的検出力の損失をもたらします。真の関係が非線形であると(例えば、「壊れたスティック」機能を推定するために複数のパラメータを必要とするだけでなく、必要とするときにこれが偽であり、切片と傾きの直線の用語を、しかし必要との勾配変化点とどのくらいの斜面の変化 推定値も):誤って指定されたモデル(例:直線)の残差は(適切に指定された関数関係に比べて)非常に大きくなる可能性があり、結果として棄却確率が低くなり、信頼区間と予測区間が広くなります(推定値にバイアスがかかる) 。
(おそらく一般的な順序で、直交回帰、デミング回帰、合計最小二乗など、他の一般的な変数のエラーモデルにもリンクする必要があります。)
参照資料
スミス、GD、フィリップス、AN(1996)。「疫学におけるインフレーション:「2つのものの間の関連性の証明と測定」再訪」。British Medical Journal、312(7047)、1659–1661。
スピアマン、C。(1904)。「2つのものの間の関連性の証明と測定。」American Journal of Psychology 15:72–101。
あなたが最初にリストしたものは、明らかに間違っていると思われるものの中でおそらく最も一般的であり、おそらく最も広く教えられているものだと思いますが、ここではいくつかの状況ではあまり明確ではないものがあります(実際に適用されるかどうか)が、さらに多くの分析に影響を与える可能性があり、おそらくより深刻です。これらは、回帰の主題が導入されたときに言及されないことがよくあります。
おそらく代表に近くなり得ない観測の対象集団からのランダムサンプルとして扱う(ランダムサンプリングはもちろん)。[代わりに、便利なサンプルに近いものとしていくつかの研究を見ることができます]
観測データでは、処理の重要なドライバーを除外した結果を無視するだけで、含まれる変数の係数の推定値を確実にバイアスします(多くの場合、符号を変更する可能性もあります)。彼らと一緒に(問題の無知から、または単に何でもできることを知らないから)。[収集されるデータの種類のため、または一部のアプリケーション分野の人々が問題について教えられている可能性が高いために、一部の研究分野は他よりもこの問題を抱えています。]
スプリアス回帰(主に経時的に収集されたデータを使用)。[人々がそれを知っているときでさえ、問題を完全に回避するためには、想定された静止と単純に区別するだけで十分であるという別の一般的な誤解があります。
もちろん、言及できる他の多くのものがあります(たとえば、ほぼ確実に連続的に相関する、または統合さえされる独立したデータとして扱うことは、ほぼ同じくらい一般的です)。
時間の経過とともに収集されたデータの観察研究は、これらのすべてに一度にヒットする可能性があることに気付くかもしれません...しかし、その種の研究は、回帰が標準ツールである多くの研究分野で非常に一般的です。1人のレビュアーまたは編集者が少なくとも1人について知らず、結論に少なくともある程度の免責事項を要求することなく、彼らがどのように出版物を入手できるかは、私を心配させ続けています。
統計には、かなり慎重に制御された実験(おそらくそれほど慎重に制御されていない分析と組み合わせた場合)を処理する場合、再現性のない結果の問題がたくさんあります。
私はおそらくこれらの誤解を呼ぶことはないでしょうが、おそらく混乱/ハングアップの共通点、そして場合によっては、研究者が気付いていないかもしれない問題です。
物事の誤解について:
私の経験では、学生は2乗誤差(またはOLS回帰)が本質的に適切で、正確で、全体的に良いこと、または代替手段がないという見解をよく採用します。私は頻繁にOLSが「より極端な/逸脱した観測により大きな重みを与える」という発言とともに広告されていることをよく見ています。この概念は、外れ値と堅牢なアプローチの処理が導入されたときに、後で修正される可能性がありますが、その時点で損害が発生します。間違いなく、二乗誤差の広範な使用は、歴史的には、実際の誤差コストの自然法則よりも数学的な利便性に関係しています。
全体的に、エラー関数の選択はいくぶんarbitrary意的であるという理解をより重視することができます。理想的には、アルゴリズム内のペナルティの選択は、潜在的なエラーに関連する対応する実世界のコスト関数によって導かれる必要があります(つまり、意思決定フレームワークを使用)。最初にこの原則を確立してから、私たちができることを見てみませんか?
私がよく目にするのは、実際の特定のユースケースにおける線形回帰の適用可能性に関する誤解です。
たとえば、関心のある変数が何かのカウント(例:Webサイトの訪問者)または何かの比率(例:コンバージョン率)であるとしましょう。このような場合、ポアソン(カウント)、ベータ(ラティオス)などのリンク関数を使用して、変数をより適切にモデル化できます。したがって、より適切なリンク関数で一般化モデルを使用する方が適しています。しかし、変数がカテゴリカルではないという理由だけで、単純な線形回帰(リンク関数=アイデンティティ)で始まる人々を見てきました。精度への影響を無視しても、ここではモデリングの仮定が問題になります。
ここに、研究者がしばしば見過ごしていると思うものがあります: