線形回帰では、なぜ応答変数は連続的でなければならないのですか?


13

線形回帰では、応答変数は連続でなければならないことを知っていますが、なぜそうなのですか?応答変数に離散データを使用できない理由を説明するオンラインを見つけることができません。

回答:


25

好きな数字の2つの列で線形回帰を使用するのを止めるものは何もありません。それはかなり賢明な選択でさえあるかもしれません。

ただし、取得するプロパティは必ずしも有用ではありません(たとえば、必ずしも必要なすべてのプロパティであるとは限りません)。

一般に、回帰では、Yの条件付き平均と予測子との関係を近似しようとしています。つまり、何らかの形式の関係を近似しようとしています ; おそらく、条件付き期待値の動作をモデル化することが「回帰」です。[線形回帰は、に対して特定の形式をとる場合です]EY|バツ=gバツg

たとえば、離散性の極端な場合、分布が0または1のいずれかであり、予測子()の変化に応じて変化する確率で値1をとる応答変数を考えます。つまり、です。バツEY|バツ=PY=1|バツ=バツ

そのような関係を線形回帰モデルに当てはめると、狭い間隔は別として、不可能な値を予測します未満または超える)。EY01

0-1データと最小二乗適合

実際、期待値が境界に近づくにつれて、値はより頻繁にその境界で値を取得する必要があるため、期待値が中央付近にある場合よりも分散が小さくなることを確認することもできます-分散は0に減少する必要がありますしたがって、通常の回帰では重みが間違っており、条件付き期待値が0または1に近い領域のデータの重みが低くなります。aとbの間に変数がある場合(たとえば、各観測値が離散カウントその観測値の既知の可能な合計数から)

さらに、通常、条件付き平均が上限と下限に漸近することを期待します。つまり、通常、関係は直線ではなく曲線になるため、データの範囲内でも線形回帰が間違っている可能性があります。

同様の問題は、一方の境界に近いデータ(たとえば、上限のないカウント)で発生します。

それはだ可能性のいずれかの端に囲まれていない離散的なデータを持っている(まれている場合)。変数が多くの異なる値をとる場合、モデルの平均と分散の説明が合理的である限り、離散性はそれほど重要ではありません。

線形回帰を使用することが完全に合理的である例は次のとおりです。

線形回帰が理にかなっているxの関数として離散yを示すプロット

x値の細いストリップには、観測される可能性のあるy値がわずかしかありませんが(幅1の間隔で約10)、予想は十分に推定でき、標準誤差やp-この特定のケースでは、値と信頼区間はすべてある程度合理的です。予測間隔はあまりうまく機能しない傾向があります(その場合、非正規性はより直接的な影響を与える傾向があるため)

-

仮説検定を実行するか、信頼区間または予測区間を計算する場合、通常の手順では正規性を仮定します。状況によっては、それが問題になる場合があります。ただし、その特定の仮定をせずに推論することは可能です。


ありがとう、あなたが言ったことをすべて理解したかどうかはわかりませんが、私はそれに取り組みます
-ilovestats

3
あなたは具体的な質問がある場合は、私はそれらに答えることを試みることができる
Glen_b -Reinstateモニカ

@ilovestats私は計量経済学の修士号を取得しており、この答えはすべての言葉を理解する価値があると確信できます。優れた答え。ロジスティック回帰を導入するための簡単なセグエ/優れた基盤を備えています。
d8aninja

3

通常の線形回帰で応答変数の必要性:私は、私がお答えしますので、コメントすることはできませんではない連続するようにし、あなたの仮定ではありません。

y=β0+β1バツ

しかし:

E[y]=β0+β1バツ

通常の線形回帰は、2乗残差の最小化から派生します。これは、連続変数および離散変数に適していると考えられる方法です(ガウスマルコフの定理を参照)。もちろん、一般的に使用される信頼区間または予測区間と仮説テストは、Glen_bが正しく指摘したように正規分布の仮定に基づいていますが、パラメーターのOLS推定はそうではありません。


2

バツバツy

y=β0+β1バツ+ϵ

ϵy

一方、一般化線形モデルでは、応答変数は離散/カテゴリカル(ロジスティック回帰)になります。またはカウント(ポアソン回帰)。


編集してmark999とremaptのコメントに対処します。

線形回帰は、人々がそれを異なる方法で使用する一般的な用語です。離散変数で使用することを妨げるものはありません。または、独立変数と従属変数が線形ではありません。

何も仮定せずに線形回帰を実行しても、結果を得ることができます。そして、結果がニーズを満たしていれば、プロセス全体で問題ありません。しかし、Glan_bが言ったように

仮説検定を実行するか、信頼区間または予測区間を計算する場合、通常の手順では正規性を仮定します。

私がこの答えを持っているのは、OPが線形回帰を教えるときに通常この仮定を持っている古典的な統計書から線形回帰を求めているからです。


ありがとう、私はあなたの説明を理解しました。最も感謝します。
-ilovestats

1
説明変数が連続的または離散的である理由を説明できますか(多くの出版物が言うように)。あなたの説明では、独立変数xは連続的であると言います(そして理にかなっています)。
ilovestats

2
この答えが正しいとは思わない。応答変数は説明変数の決定論的関数であるとは想定されておらず、説明変数が連続していると想定する必要はありません。
mark999

2
結果は個別の場合もありますが、この答えは間違いです
-Repmat

@Repmat、コメントありがとう。私の編集をチェックしてください。
ハイタオデュ

0

そうではありません。モデルが機能する場合、誰が気にしますか?

理論的な観点から、上記の答えは正しいです。ただし、実際には、データのドメインとモデルの予測力にすべて依存します。

実際の例の1つは、古いMDS破産モデルです。これは、借り手が破産を宣言する可能性を予測するために消費者金融機関が使用する初期のリスクスコアの1つでした。このモデルは、借り手の信用レポートからの詳細データと、予測期間にわたる破産を示すバイナリ0/1フラグを使用しました。次に、そのデータを...に入力しました。

昔ながらの線形回帰

私はかつてこのモデルを作った人の一人と話をする機会を得ました。私は彼に仮定の違反について尋ねました。彼は、それが残差などに関する仮定に完全に違反したとしても、彼は気にしなかったと説明した。

判明...

この0/1線形回帰モデル(読みやすいスコアに標準化/スケーリングし、適切なカットオフと組み合わせた場合)は、データのホールドアウトサンプルに対して明確に検証され、破産の良/不良判別として非常によく機能しました。

このモデルは、FICOのリスクスコア(60日以上の信用滞納を予測するために設計された)と並んで破産を防ぐための第2の信用スコアとして何年も使用されました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.