線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。
これは、「線形回帰」の「線形」とは何かを正しく理解するものではありません。
とxの関係が線形形式であると仮定されるのではありません(ただし、すべての基本的な例は誤解を招く可能性があります)。yx
「線形」とは、パラメーターが線形であるモデルを指し、と一部のxの間の非線形関係は確実にそのようにモデル化できます。yx
ここには単一の予測子を使用した例がありますが、曲線モデルはより多くの場合、予測子のいくつかの関数(x変数、独立変数)が回帰で発生する可能性があり、これにより多くの柔軟性が可能になります。これには、たとえば多項式回帰が含まれます。ここでいくつかの議論と例を参照してください。
ただし、曲線関係に適合するために予測変数を変換できるという事実を考慮すれば、パラメーターの線形性は、変換された予測変数の線形性にも対応します。
さらに、多くの問題は線形に近い(少なくとも考慮されている値の範囲にわたって)、またはノイズが非常に大きいため、緩やかな曲率は認識できず、増加または減少する関係のさまざまな単純なモデルが行う可能性があります-その場合、線形の選択が適切であり、最も簡単に適合して理解することができます。
経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。
回帰を適用する問題を探すのは、教育の良い例を見つけようとするときだけです。実際に統計的作業を行う立場にあるとき(説明や指導ではなく)、方法に適したデータを選択するのではなく、関心のある質問(およびデータの特性)に適した方法を選択します。
たとえば、大工を想像してください。大工はspokeshaveを拾うとは言っていない「私は何を使用することができ、これを上?」。むしろ、大工には解決すべき問題があり、問題の特性(「私は何を作ろうとしているのか」、「私はどの種類の木材を使用しているのか」など)を考慮する際に特定のツールが他よりも関連性が高い。時々 、利用可能なツールは、(あなたがいない場合の選択肢を制限したり、案内することができる持っている spokeshaveを、あなたが何か他のもので間に合わする必要があります...またはあなただけのspokeshaveを買いに行かなければならない場合があります)。
ただし、ポケット統計学者があなたを助けており、線形回帰に適した問題を見つけようとしていると仮定しましょう。その後、さまざまな回帰の仮定とそれらが重要なときに考慮することを提案するかもしれません。いくつか言及します。
yと単変量(変換される可能性がある)xの関係を単に当てはめることに興味がある場合、ほとんどの仮定は必ずしも重要ではありません(ガウスマルコフの定理はある程度関連している可能性があります)。あなたが考える場合を探していると思いでほぼ線形であるG (X )いくつかのために-知られている- グラム(つまり、それは私たちが望む関係の関数形を知っていると仮定し) 。x ∗ = xと書くと、E (y | x ∗)E(y|g(x))g(x)gx∗=xは少なくともほぼ真です。E(y|x∗)=a+bx∗
重回帰を使用することができれば、それは特に大きな問題ではありません。かなり一般的な関係に適合するために(たとえば)3次回帰スプラインを使用できるからです。
スプリアス回帰の問題を理解していない限り、時間の経過とともにデータを消去するようお勧めします。断面の問題に固執する。
単一ののみを扱っている場合、カテゴリーxではなく連続xが必要だと思います。xx
測定値の期待値の調整に関心がない限り、測定誤差がないようにする必要があります。x
仮説検定、信頼区間、または予測区間に興味がある場合は、通常の回帰の仮定がより重要になる場合があります(ただし、これらの仮定を行わない代替があり、場合によっては、少なくともいくつかの仮定がそうでない場合がありますとにかく特に重要です)。
そのため、少なくとも認識しておかなければならないことの1つは、使用している推論手順を導き出す際にどのような仮定が行われ、特定の問題でそれらがどの程度重要であるかです(例として、通常の仮説検定を実行する場合、正規性は仮定ですが、大規模なサンプルでは、その仮定は重要ではないかもしれません;一方、一定の分散の仮定はより大きな問題かもしれません)。
回帰の仮定を議論する多くの投稿があり、それらがいつ行われる必要があるのか、それらがどれほど重要であるか、そしてそれらを考慮する順番さえも議論するいくつかの投稿があります。