線形回帰では、応答変数は連続でなければならないことを知っていますが、なぜそうなのですか?応答変数に離散データを使用できない理由を説明するオンラインを見つけることができません。
線形回帰では、応答変数は連続でなければならないことを知っていますが、なぜそうなのですか?応答変数に離散データを使用できない理由を説明するオンラインを見つけることができません。
回答:
好きな数字の2つの列で線形回帰を使用するのを止めるものは何もありません。それはかなり賢明な選択でさえあるかもしれません。
ただし、取得するプロパティは必ずしも有用ではありません(たとえば、必ずしも必要なすべてのプロパティであるとは限りません)。
一般に、回帰では、Yの条件付き平均と予測子との関係を近似しようとしています。つまり、何らかの形式の関係を近似しようとしています ; おそらく、条件付き期待値の動作をモデル化することが「回帰」です。[線形回帰は、に対して特定の形式をとる場合です]
たとえば、離散性の極端な場合、分布が0または1のいずれかであり、予測子()の変化に応じて変化する確率で値1をとる応答変数を考えます。つまり、です。
そのような関係を線形回帰モデルに当てはめると、狭い間隔は別として、不可能な値を予測します未満または超える)。
実際、期待値が境界に近づくにつれて、値はより頻繁にその境界で値を取得する必要があるため、期待値が中央付近にある場合よりも分散が小さくなることを確認することもできます-分散は0に減少する必要がありますしたがって、通常の回帰では重みが間違っており、条件付き期待値が0または1に近い領域のデータの重みが低くなります。aとbの間に変数がある場合(たとえば、各観測値が離散カウントその観測値の既知の可能な合計数から)
さらに、通常、条件付き平均が上限と下限に漸近することを期待します。つまり、通常、関係は直線ではなく曲線になるため、データの範囲内でも線形回帰が間違っている可能性があります。
同様の問題は、一方の境界に近いデータ(たとえば、上限のないカウント)で発生します。
それはだ可能性のいずれかの端に囲まれていない離散的なデータを持っている(まれている場合)。変数が多くの異なる値をとる場合、モデルの平均と分散の説明が合理的である限り、離散性はそれほど重要ではありません。
線形回帰を使用することが完全に合理的である例は次のとおりです。
x値の細いストリップには、観測される可能性のあるy値がわずかしかありませんが(幅1の間隔で約10)、予想は十分に推定でき、標準誤差やp-この特定のケースでは、値と信頼区間はすべてある程度合理的です。予測間隔はあまりうまく機能しない傾向があります(その場合、非正規性はより直接的な影響を与える傾向があるため)
-
仮説検定を実行するか、信頼区間または予測区間を計算する場合、通常の手順では正規性を仮定します。状況によっては、それが問題になる場合があります。ただし、その特定の仮定をせずに推論することは可能です。
一方、一般化線形モデルでは、応答変数は離散/カテゴリカル(ロジスティック回帰)になります。またはカウント(ポアソン回帰)。
編集してmark999とremaptのコメントに対処します。
線形回帰は、人々がそれを異なる方法で使用する一般的な用語です。離散変数で使用することを妨げるものはありません。または、独立変数と従属変数が線形ではありません。
何も仮定せずに線形回帰を実行しても、結果を得ることができます。そして、結果がニーズを満たしていれば、プロセス全体で問題ありません。しかし、Glan_bが言ったように
仮説検定を実行するか、信頼区間または予測区間を計算する場合、通常の手順では正規性を仮定します。
私がこの答えを持っているのは、OPが線形回帰を教えるときに通常この仮定を持っている古典的な統計書から線形回帰を求めているからです。
理論的な観点から、上記の答えは正しいです。ただし、実際には、データのドメインとモデルの予測力にすべて依存します。
実際の例の1つは、古いMDS破産モデルです。これは、借り手が破産を宣言する可能性を予測するために消費者金融機関が使用する初期のリスクスコアの1つでした。このモデルは、借り手の信用レポートからの詳細データと、予測期間にわたる破産を示すバイナリ0/1フラグを使用しました。次に、そのデータを...に入力しました。
昔ながらの線形回帰
私はかつてこのモデルを作った人の一人と話をする機会を得ました。私は彼に仮定の違反について尋ねました。彼は、それが残差などに関する仮定に完全に違反したとしても、彼は気にしなかったと説明した。
判明...
この0/1線形回帰モデル(読みやすいスコアに標準化/スケーリングし、適切なカットオフと組み合わせた場合)は、データのホールドアウトサンプルに対して明確に検証され、破産の良/不良判別として非常によく機能しました。
このモデルは、FICOのリスクスコア(60日以上の信用滞納を予測するために設計された)と並んで破産を防ぐための第2の信用スコアとして何年も使用されました。