なぜ結果変数が予測子に「回帰する」と言うのですか?


16

この用語の直感的な説明はありますか?なぜこのようになっているのか、結果に対して予測子が回帰していないのか?

理想的には、この用語が存在する理由を適切に説明することで、生徒がそれを覚えて、間違った言い方をしないようにすることを望んでいます。


1
私たちは?私はそれを言ったことが確かではありません-私は回帰について多くのことを議論しました。あなたがそれを言う誰かを知っているなら、多分あなたは彼らに尋ねることができます。(私は機会に「と言った上で回帰さ -しかし、」上には、私にはやや奇妙に聞こえるだろう)
Glen_b -Reinstateモニカ

ありがとう-私は「上」ではなく「上」を意味しました。今それを修正しました。
user1205901-モニカの復元16年

回答:


19

「回帰」の語源が何であるかはわかりませんが、この表現を言ったり聞いたりするときに私が念頭に置いている解釈がここにあります。Hastie et al。による統計的学習の要素から次の図を考えてください。

回帰は投影

コアでは、線形回帰は(onto)Xの正射影になります。ここで、yは従属変数の観測値のn次元ベクトル、Xは予測ベクトルがまたがる部分空間です。yXynX

これは、線形回帰の非常に有用な解釈です。

以来上に投影されているX、それは私がいることを聞いたときに私が考えるものであるyが「上回帰し」ているX。この観点から、Xyに対して回帰される、またはyXに対して「反対」または「とともに」回帰されると言うのはあまり意味がありません。yXyXXyyX

理想的には、この用語が存在する理由を適切に説明することで、生徒がそれを覚えて、間違った言い方をしないようにすることを望んでいます。

私が言ったように、これがこの用語が存在する理由の説明であるとは思わない(おそらくそれがなぜ続くのか?)


2
+1。生徒次第!これは明らかに、中級または上級レベルで話し合い、考えるための有効で実り多い方法です。「オン」という用語の原因かどうかは疑問です。まったく視覚的または幾何学的なアプローチは言うまでもなく、ダイアグラムがほとんどない回帰テキストを見つけることができるようになったのはそれほど昔ではありません。
ニックコックス

(+1)頭蓋骨を通して回帰の概念を得た唯一の方法は、モデル行列の列空間C A へのの射影と考えることです。 。yC(A)
アントニ・パレラダ

1
これは、用語を使用する非常に良い統計上の理由です。人気のある社会的または言語的な理由は異なる可能性があります!
ニックコックス

ただ明確にするために、@ NickCoxがここのコメントで言ったことに完全に同意します。
アメーバは、モニカを復活させる

6

私はよく、この話し方を使って聞きました。予測子が書面での慣習、単語の使用、表記法の使用、またはこの2つを混合する慣習に従っている前に、結果または応答に言及するシーケンスは、

Y=Xβ

さまざまな種類の変数と呼ばれるものについて、同様に興味深い(または面白くない!)質問を脇に置きます。

しかし、多くの数学者が最初に引数付きのマッピングまたは関数を記述するように、予測子を最初に言及することは数学的にも統計的にも同様に有効であるようです。

統計的な議論で使用するシーケンスをしばしば駆動するのは、科学的または実際的に、私たちは通常、予測しようとしていることの明確なアイデアを持っていることです-それは、死亡率、収入、または小麦の収量、または選挙での投票、または何でもです-潜在的または実際の予測変数のプールはそれほど明確ではないかもしれません。たとえ明確であっても、重要なことを最初に言及することは理にかなっています。あなたは何をしようとしているのですか?何でも予測します。どうやってやるの?これらの変数の一部またはすべてを使用します

当てはまる他の単語ではなく、「オン」のストーリーはありません。「逆行」または「逆行」は聞こえません。ここには論理はなく、教科書、教育、議論でミームが伝えられているだけかもしれません。

yx


+1。しかし、「リグレッションオン」の私の個人的な解釈は「プロジェクションオン」によるものです。私の答えをご覧ください。多くの人がこの表現をこのように考えているのでしょうか、それとも私だけなのでしょうか。
アメーバは、モニカを復活させる

3

1)回帰という用語は、通常の単純な線形回帰モデルでは、

y=α+βx+ϵ

yxy^y¯xx¯

|y^y¯|/sy<|バツバツ¯|/sバツ

たとえば、Rに組み込まれたBODデータフレームを使用する場合:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

証拠については、https//en.wikipedia.org/wiki/Regression_toward_the_meanを参照してください。

2)上の用語は、http://people.eecs.kuなどの多くのソースでさらに説明されているように、近似値が予測変数(インターセプトを含む)がまたがる部分空間の結果変数の投影であるという事実由来します。 .eduの/〜jhuan / EECS940_S12 /スライド/ linearRegression.pdf

注意

以下のコメントに関して、コメント者が述べているのは、答えがそれを正しく述べていることを除いて、答えが既に式形式で述べているものです。実際、平等のため:

y^y¯=β^バツバツ¯

|β|<1。本当のことは、従属変数の平均からの平均偏差は、回答の式で述べられている予測変数に対する平均値よりも少ないことです。

コメントが参照するGaltonのデータ(RのUsingRパッケージで利用可能)を使用して、回帰を実行しました。実際、勾配は0.646であるため、平均の子は親よりも平均に近かったが、そうではありません一般的なケース。平均への回帰の現在の使用法は、回答で示した正しい一般的な関係に基づいています。上記の答えのRコードに示されている例ではbeta>1そのため、需要が必ずしも平均時間に近いというよりも、需要が平均需要に近いということは真実ではありません。答えの不等式が示すように、標準偏差の近さを測定する場合にのみ真実です。


1
I'm pretty sure that's not where the term regression comes from. In an early use of the term son's height was regressed on father's height; due to mean reversion findings showed sons of tall fathers tended to regress to the mean.
PaulB

特定のデータセットについてはそうでしたが、標準偏差の観点から近さを測定しない限り、一般的にはそうではありませんが、答えの不等式が正確にそうであるため、たぶんそれを認識しませんでした。実際、現代の概念は、標準偏差を含まない誤った定式化ではなく、私が述べた正しい定式化に基づいています。私は答えの最後に追加したノートでこれを拡張しました。
G. Grothendieck

0

個人的には、用語の説明に関しては、特に学生に説明するとき、用語の定義自体が常に役立つと思います。回帰という言葉の実際の定義は次のとおりです。

「以前の、またはあまり発展していない状態に戻る」。

So one way to explain I guess would be the following:

"Thinking of the outcome as the fully developed state, we try to explain the outcome by using less developed states, i.e. the independent variables. Thus the outcome is regressed on the predictors."

Hope that helps.


1
There is more than one "actual definition". I would suggest that in statistical science the technical definition of regression as fitting a model (by default a linear model) is now primary and the historic sense.as captured by "regress to the mean", which remains interesting and some times useful, is secondary. I don't find it helpful to think that predictors in general are "less developed states", e.g. there is no sense in which predictor rainfall is a less developed state of outcome wheat yield. Either way, I don't see how this explains the expression.
Nick Cox

I see your point completely. Is there a way you could explain regression through the definition I posted? Because the way I would think of "less developed" isn't in the sense of rainfall being less developed than wheat yield, but more as the a something that can partly explain wheat yield.
EhsanF

1
If "less developed" doesn't mean less developed, I can't see that the wording helps at all.
Nick Cox
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.