問題が線形回帰に適しているという手がかり


12

Montgomery、Peck、およびViningによる「Introduction to Linear Regression Analysis」を使用して線形回帰を学習しています。データ分析プロジェクトを選択したいと思います。

線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。しかし、線形回帰は非常に一般的です。

経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。


3
テクニックを学んでいて、それがどこで機能するかを知りたいと思います。しかし、経験豊富な統計学者(および統計学を重視する科学者)にとっては、状況はまったく逆です。問題とデータがあり、問題はどのようなモデルと方法が最良の選択であるかです。最初に遭遇した線形回帰はただの味であることがわかります。経験を積むと、ポアソン回帰、ロジット回帰などにジャンプでき、パラメーターの直線性でさえより一般的な構造と簡単に組み合わせることができます。
ニックコックス

そしてもちろん、観測値が潜在的に自己相関しているときの時系列mdel
IrishStat

3
実際には、関係が非線形であることがわかっている場合でも、線形モデルは左右に使用されます。線形モデルを一次近似、多変量テイラー展開の一種と考えてください。
アクサカルはほぼ確実にバイナリ

回答:


12

線形回帰は、説明変数と応答変数の間に線形の関数関係があると疑われる場合にのみ適していると単純に考えています。しかし、実際のアプリケーションの多くは、この基準を満たしているとは思えません。

これは、「線形回帰」の「線形」とは何かを正しく理解するものではありません。

xの関係が線形形式であると仮定されるのではありません(ただし、すべての基本的な例は誤解を招く可能性があります)。yx

「線形」とは、パラメーターが線形であるモデルを指し、と一部のxの間の非線形関係は確実にそのようにモデル化できます。yx

ここには単一の予測子を使用した例がありますが、曲線モデルはより多くの場合、予測子のいくつかの関数(x変数、独立変数)が回帰で発生する可能性があり、これにより多くの柔軟性が可能になります。これには、たとえば多項式回帰が含まれます。ここでいくつかの議論と例を参照してください。

ただし、曲線関係に適合するために予測変数を変換できるという事実を考慮すれば、パラメーターの線形性は、変換された予測変数の線形性にも対応します。

さらに、多くの問題は線形に近い(少なくとも考慮されている値の範囲にわたって)、またはノイズが非常に大きいため、緩やかな曲率は認識できず、増加または減少する関係のさまざまな単純なモデルが行う可能性があります-その場合、線形の選択が適切であり、最も簡単に適合して理解することができます。

経験豊富な統計学者は、プロジェクトのどの側面を考慮して、自分の立場にあるかを考え、線形回帰に適した質問とデータを探します。

回帰を適用する問題を探すのは、教育の良い例を見つけようとするときだけです。実際に統計的作業を行う立場にあるとき(説明や指導ではなく)、方法に適したデータを選択するのではなく、関心のある質問(およびデータの特性)に適した方法を選択します。

たとえば、大工を想像してください。大工はspokeshaveを拾うとは言っていない「私は何を使用することができ、これを上?」。むしろ、大工には解決すべき問題があり、問題の特性(「私は何を作ろうとしているのか」、「私はどの種類の木材を使用しているのか」など)を考慮する際に特定のツールが他よりも関連性が高い。時々 、利用可能なツールは、(あなたがいない場合の選択肢を制限したり、案内することができる持っている spokeshaveを、あなたが何か他のもので間に合わする必要があります...またはあなただけのspokeshaveを買いに行かなければならない場合があります)。

ただし、ポケット統計学者があなたを助けおり、線形回帰に適した問題を見つけようとしていると仮定しましょう。その後、さまざまな回帰の仮定とそれらが重要なときに考慮することを提案するかもしれません。いくつか言及します。

yと単変量(変換される可能性がある)xの関係を単に当てはめることに興味がある場合、ほとんどの仮定は必ずしも重要ではありません(ガウスマルコフの定理はある程度関連している可能性があります)。あなたが考える場合を探していると思いでほぼ線形であるG X いくつかのために-知られている- グラム(つまり、それは私たちが望む関係の関数形を知っていると仮定し) 。x = xと書くと、E y | x E(y|g(x))g(x)gx=xは少なくともほぼ真です。E(y|x)=a+bx

重回帰を使用することができれば、それは特に大きな問題ではありません。かなり一般的な関係に適合するために(たとえば)3次回帰スプラインを使用できるからです。

スプリアス回帰の問題を理解していない限り、時間の経過とともにデータを消去するようお勧めします。断面の問題に固執する。

単一ののみを扱っている場合、カテゴリーxではなく連続xが必要だと思います。xx

測定値の期待値の調整に関心がない限り、測定誤差がないようにする必要があります。x

仮説検定、信頼区間、または予測区間に興味がある場合は、通常の回帰の仮定がより重要になる場合があります(ただし、これらの仮定を行わない代替があり、場合によっては、少なくともいくつかの仮定がそうでない場合がありますとにかく特に重要です)。

そのため、少なくとも認識しておかなければならないことの1つは、使用している推論手順を導き出す際にどのような仮定が行われ、特定の問題でそれらがどの程度重要であるかです(例として、通常の仮説検定を実行する場合、正規性は仮定ですが、大規模なサンプルでは、​​その仮定は重要ではないかもしれません;一方、一定の分散の仮定はより大きな問題かもしれません)。

回帰の仮定を議論する多くの投稿があり、それらがいつ行われる必要があるのか​​、それらがどれほど重要であるか、そしてそれらを考慮する順番さえも議論するいくつかの投稿があります。


いい答えですが、質問に完全には答えられないと思います。 経験豊富な統計学者は、プロジェクトのどの側面についても、自分の立場にあるかどうかについて考え、線形回帰に適した質問とデータを探します。未回答のままです。
Dawny33

@ Dawny33間違いなく後でこれを追加するつもりです-入力中にいくつかのものが出てきたので、当初意図した完全な答えを書くことができませんでした。私がいた文章を終わらせるだけの時間はありましたが、今では1日か2日は戻ってこないでしょう。実際、私はその中のすべてのタイプミスを修正する時間すらありませんでした。(その間、回答を投稿することをheしないでください。)一方、質問の前提に欠陥があることを指摘すると、OPは当初意図したものとは異なることを求めたいと思う可能性があります(多くの場合、中央の前提は)失敗
Glen_b -Reinstateモニカ

たとえば、発生する可能性のある新しい質問の1つは「例はありますか?」です。
Glen_b-モニカの復職

@Glen_bありがとう。「線形」とは、パラメーターが線形であるモデルを指します。書き間違えた場合は申し訳ありませんが、そうでないことを意味するつもりはありません。キーワードは機能的でした。
cwackers

@Glen_bは、さまざまな回帰の仮定を考慮することを提案するかもしれません。もう一度同意した。私はこれについて明確ではありませんでしたが、私のQはドメインの知識に関するものです。私は経験豊富な統計学者がLR分析のために検討されているシステムで何を探しているのだろうと思っているので、応答に線形的および機能的に関連し、応答との同時関係が相加的である回帰因子があるという私の素朴な提案です。
不正行為

4

YYYYYX) 上手。長年の経験を通して、血圧などの特定の変数は線形モデルでうまく動作する傾向があり、他の変数(血液化学測定など)はそうではないことがわかります。

YY


善行の側面を指摘してくれてありがとう。回帰変数の変換について考えましたが、応答変数の変換については考えませんでした。ただし、後者を使用して残差の分布を再形成する方法を確認しました。写真の一部を記入していただきありがとうございます。非常に役立つ投稿。
不正行為

3

@Glen_bは非常に良い答えを出しましたが、述べたように、終わりには至りませんでした。

だから、あなたの最後の質問に関して:

経験豊富な統計学者は、この質問をしないと思います。グレンが指摘しているように、問題は使用するツールを決定するものであり、その逆ではありません。

線形回帰のような手法を学ぼうとする場合、すでに動作している例を使用しますが、実際のデータがあり、物事を簡単にするために設計されたデータではありません。例による回帰モデリングなどの本は、ガイダンスを提供します。

ただし、回帰問題を検討する際の最初のステップの1つは、実際に線形回帰が適切かどうかを判断することです。


経験豊富な統計学者は、この質問をしないと思います。はい、それがQを「靴の中」で修飾した理由です。本の推薦をどうもありがとう。コピーを追跡します。多数の例は、少なくとも物語の半分として役立ち、反例は残りの半分になります。
不正行為

ああ、引用!第4版の2ページ目から:読者に、回帰分析を使用して対処できる質問(自分の仕事、研究、または関心の分野)について考えることを勧めます。
不正行為

0

多くの応答が満たされる必要がある仮定に触れました:残差の線形性、予測変数の範囲にわたる分散の均一性、回帰直線に影響を与える可能性のある極値なし、独立した観測。残差プロットは、ほとんどの回帰プログラムで作成するのが非常に簡単で、一部のパッケージは一部を自動的に提供します(SAS)。

一人がyの変換について話しました。これは一部の分野では一般的な慣行ですが、偏った結果、おそらく解釈不能な結果につながる慣行です。結果を元のメトリックに逆変換しようとすると、バイアスが現れます。残差の分布の仮定に一致する残差パターンを持つ別のタイプの回帰にシフトする方がよい。Agrestiのカテゴリデータ分析入門の第3章でリンクの概念を紹介しています。多くの回帰テキストも一般化線形モデルを紹介しています。


変容についての悲観論は共有しません。結局、元の変換はまったくarbitrary意的です。対称分布で変換して残差を取得すると、予測値の逆変換は元のスケールの予測中央値になります。予測された中央値は非常に便利です。元のスケールで予測平均を取得する場合は、スミア推定量を使用できます。
フランクハレル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.