回帰モデルのエラーを概念化する方法は?


11

私はデータ分析のクラスに参加していて、根強いアイデアが揺さぶられています。つまり、エラー(イプシロン)やその他の種類の分散は、グループ(サンプルまたは母集団全体)にのみ(そう考えると)適用されるという考えです。現在、回帰の仮定の1つは、分散が「すべての個人で同じ」であるということです。これは何となくショックです。常に一定であると想定されたのは、Xのすべての値にわたるYの分散であると常に思っていました。

私は教授と話をしました、彼は私たちに回帰を行うとき、私たちはモデルが真実であると仮定していると私に言いました。それが難しい部分だと思います。私にとって、エラー項(イプシロン)は常に、「私たちが知らない要素で、結果変数に影響を与える可能性のある要素に加えて、いくつかの測定エラー」のようなものを意味していました。クラスの教え方には、「その他」のようなものはありません。私たちのモデルは真実で完全であると想定されています。つまり、すべての残差は測定誤差の結果として考える必要があります(したがって、20回測定すると、20回測定すると同じ分散が生じることが予想されます)。

どこかおかしいと感じました。これについて専門家の意見を聞きたいのですが...概念的に言えば、エラーの用語が何であるかについて解釈の余地はありますか?


3
おそらく、彼が意味したのは、モデルが真実であっても、応答にランダムな変動があることです。これは、エラー分散によって捕捉されます。これは、たとえば、不完全な測定装置が原因である可能性があります。他の人は、予測子の欠落(必ずしもモデルの形式のエラーではない)によるものとしてエラー分散を概念化し、すべての可能な予測子が測定された場合、エラー分散は0になることを意味します。これは最初のものと矛盾しません-エラー測定における「欠落予測子」と考えることができます。
マクロ

最初は常に理解するのが難しいことの1つは、この場合、「エラー」は別のことを意味する可能性があるということです。「エラー」とは、モデルから取得した近似値と観測値の差を指す場合があります(不一致の原因としては、かなり節約されたモデルが考えられます)。「エラー」は、観測値と実際の値の差を意味することもあります(不一致の原因は、値を測定するために使用するデバイスが最も近い整数/ 10進数の10進数などに丸めることが原因である可能性があります)。[最初のタイプは、「残差/残差」などの用語を聞く場所です。]

@マクロはい、これはエラーの自然な考え方のように思えます。しかし、私は教授がより厳密な定義を主張した理由を理解しようとしています(私たちは実際には知っていますが、それは真実ではありませんが、各個人に適用できると考えています)。
Dominic Comtois

@MikeWierzbickiそうです。そして私が正しく理解していれば、これはすべて「厳密な」視点でひとまとめにされています。私たちのモデルは「真実である必要がある」ので、観測値と予測値の間のすべての違いは測定誤差から生じることを意味します。
Dominic Comtois

回答:


2

結果のy値に影響を与える個人の側面がある場合、それらの側面に到達する方法がいくつかあります(その場合、それらは予測子xの一部である必要があります)、またはこれに到達する方法はありません。情報。

この情報を取得する方法がなく、個人のy値を繰り返し測定する方法がない場合、それは本当に問題ではありません。yを繰り返し測定でき、データセットに一部の個人の繰り返し測定が実際に含まれている場合、統計理論は測定誤差/残差の独立性を想定しているため、手に潜在的な問題があります。

たとえば、フォームのモデルに適合させようとしていると仮定します。

y=β0+β1x

個人ごとに

yind=100+10x+z

ここで、zは個人に依存し、通常は平均0と標準偏差10で分布します。個人の繰り返し測定ごとに、

ymeas=100+10x+z+e

e

これを次のようにモデル化してみることができます

y=β0+β1x+ϵ

ϵ

σ=102+0.12=100.01

個人ごとに測定値が1つしかない限り、問題ありません。ただし、同じ個人に対して複数の測定がある場合、残差は独立しなくなります。

β0=100β1=10χ2


私の回答では「マルチレベルモデリング」という恐ろしい用語の使用を避けようとしましたが、場合によっては、このような状況に対処する方法を提供することに注意してください。
ブライアンボーチャーズ

1

「エラー」は、「現在の情報では予測できない予測の一部」として最もよく説明されていると思います。母集団とサンプルの関係で考えようとすると、概念的な問題が発生します(とにかく私にとってはそうです)。また、エラーをある分布から引き出された「純粋にランダムな」ものと見なすのと同じです。予測と「予測可能性」の観点から考えることは、私にはずっと理にかなっています。

p(e1,,en)E(1ni=1nei2)=σ2σ2σ

n


σ2

p(e1,,en)1

そして近いと私はklの発散が最小化されることを意味します
確率論的

ジレンマはサンプルと母集団の間ではありません。それは、個人/サンプル/母集団に適用できるエラーと考えることです。
Dominic Comtois

1

ここでは、単純な線形回帰を説明するための非常に有用なリンクです:http://www.dangoldstein.com/dsn/archives/2006/03/every_wonder_ho.html多分それは「エラー」という概念を把握することができます。

FD


とても素敵なアプレットです。参考にしていただきありがとうございます。別の質問のために作成したイラストをかなり思い出させてくれます。あなたの回答の関連性が高いかもしれません。
whuber

1

教授のこれの定式化には同意しません。あなたが言うように、分散が各個人で同じであるという考えは、誤差項が測定誤差のみを表すことを意味します。これは通常、基本的な重回帰モデルの構築方法ではありません。また、あなたが言うように、分散はグループに対して定義されます(個々の被験者のグループであるか、測定のグループであるかにかかわらず)。繰り返し測定しない限り、個人レベルでは適用されません。

モデルは、予測子と相関する変数からの影響を誤差項に含めないようにする必要があります。誤差項は予測子から独立していると想定されています。いくつかの相関変数が省略されている場合、バイアスされた係数が表示されます(これは省略された変数のバイアスと呼ばれます)。


この答えはよくわかりません。適合度の不足によるエラーとランダムエラーの違いは認識されているように見えますが、最後の修辞的な質問は混乱を招くようです。純粋に形式的な観点から、本質的に回帰モデルに関して行われる推論は、ノイズ構造に関する非常に明確な仮定に依存しています。
枢機卿

1
私の要点は、多くの場合、回帰モデリングの目的は、特定の結果のすべての原因がわからない場合でも、何が起こっているのかを理解することです。しかし、不明瞭なようなので、その質問は削除します。
アンZ.

ありがとう。コメントのポイントはいいです。あなたが述べた前の質問は、回帰理論が依拠する根拠全体を問うものとして読むことができます。:)
枢機卿

私はあなたの意見の不一致であなたに同意します(それゆえ私の質問です!)、そして省略された変数バイアスは問題にかなり関連しています。ありがとう。
Dominic Comtois
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.