線形回帰とロジスティック回帰の違いは何ですか?


122

線形回帰とロジスティック回帰の違いは何ですか?

それぞれをいつ使用しますか?


28
線形回帰モデルでは、従属変数は連続的であると見なされますが、ロジスティック回帰ではカテゴリカル、つまり離散的です。アプリケーションでは、前者は回帰設定で使用され、後者はバイナリ分類またはマルチクラス分類(多項ロジスティック回帰と呼ばれる)で使用されます。y
パルディス

別のコンテキストで書かれていますが、ここでの私の答えを読むのに役立つかもしれません:ロジットとプロビットモデルの違い、これらをよりよく理解するのに役立つかもしれないロジスティック回帰で何が起こっているかについての多くの情報が含まれています
GUNG

2
これまでの答えはすべて正しいですが、結果が二分法である場合でも、線形回帰モデルを好む理由があります。私はここでこれらの理由について書かれている:statisticalhorizo​​ns.com/linear-vs-logistic
ポール・フォン・ヒッペル

回答:


111

線形回帰は、一般的な線形方程式ここで、は連続従属変数であり、独立変数は通常連続です(ただし、線形モデルがt-テスト)またはその他の個別のドメイン。は、モデルによって説明されない分散の用語であり、通常は単に「エラー」と呼ばれます。示される個々の依存値は、方程式を少し修正することで解決できます:Y=b0+(biXi)+ϵYXiϵYjYj=b0+(biXij)+ϵj

ロジスティック回帰は、同じ基本式を使用する別の一般化線形モデル(GLM)の手順ですが、連続代わりに、カテゴリの結果の確率に対して回帰しています。最も単純な形式では、これは1つの結果変数とその変数の2つの状態(0または1)を検討していることを意味します。Y

確率の方程式は次のようになります Y=1

P(Y=1)=11+e(b0+(biXi))

独立変数は連続またはバイナリにすることができます。回帰係数は、変化ごとにオッズの変化を得るために指数化できます。つまり、および。 はオッズ比と呼ばれます。英語では、オッズは単位変更ごとに係数で増加すると言うことができます。XibiYXiOdds=P(Y=1)P(Y=0)=P(Y=1)1P(Y=1)ΔOdds=ebiΔOdds Y=1ebiXiOdds(Xi+1)Odds(Xi)Y=1ebiXi

例:ボディマス指数が血中コレステロールを予測する方法(継続的な測定)を確認したい場合は、私の回答の冒頭で説明した線形回帰を使用します。BMIが糖尿病である確率(バイナリ診断)を予測する方法を確認するには、ロジスティック回帰を使用します。


1
これは良い答えのように見えますが、が何を表しているのか、特に-なぜそれら合計に含めるのか説明できますか?(とにかく要約されているものは何ですか?)ϵi
whuber

それは彼がむしろEIよりも、(そのためのラテン語の略語である)、すなわちを書くことを意味していること私にビルを探します
マイケルChernick

1
しかし、指数の合計のεiはそこにあるべきではありません。モデルのノイズ項が誤ってそこに運ばれたようです。唯一の合計は、p共変量のp係数を表すbisを超える必要があります。
マイケルチャーニック

9
式にエラーがあります。あなたが持っている必要がありはない ロジスティック回帰モデルのランダム性は、これらがベルヌーイ試行であるという事実に由来するものであり、成功確率にエラーがあるからではありません。あなたはそれを書かれています)。P(Y=1)
P(Y=1)=11+exp{Xβ},
P(Y=1)=11+exp{(Xβ+ε)}
マクロ

3
@samthebrandロジスティック回帰はそれ自体がバイナリではありません。臆面もなくプラグインに行く0と1の間の範囲の確率を経由して、バイナリ応答してデータをモデル化するために使用することができ、この上の私のブログの記事をあなたの混乱をクリアするべきです。
ベン

34

線形回帰は、従属変数と独立変数間の関係を確立するために使用されます。これは、独立変数が変化した場合に結果の従属変数を推定するのに役立ちます。例えば:

線形回帰を使用すると、雨(R)と傘の売上(U)の関係は-U = 2R + 5000

この方程式は、雨の1mmごとに5002枚の傘が必要であると言います。そのため、単純回帰を使用して、変数の値を推定できます。

一方、ロジスティック回帰は、イベントの確率を確認するために使用されます。そして、このイベントはバイナリ形式、つまり0または1でキャプチャされます。

例-顧客が私の製品を購入するかどうかを確認したい。このために、(関連する)データに対してロジスティック回帰を実行し、従属変数はバイナリ変数(1 =はい、0 =いいえ)になります。

グラフィカルな表現では、値がグラフにプロットされると、線形回帰は出力として線形線を与えます。一方、ロジスティック回帰では、S字型の線が得られます

Mohit Khuranaからの参照。


8
日時:「線形回帰は従属変数と独立変数間の関係を確立するために使用されます」-これはロジスティック回帰にも当てはまります-従属変数がバイナリであることだけです。
マクロ

3
ロジスティック回帰は、バイナリイベント(クラス)を予測するためだけのものではありません。クラスに一般化できます(多項ロジスティック回帰)2k
tgy

27

違いはDocBucketsとPardisによって解決されましたが、言及されていないパフォーマンスを比較する1つの方法を追加したいと思います。

線形回帰は、通常、データに対するモデルの最小二乗誤差を最小化することで解決されます。したがって、大きな誤差は二次的にペナルティを受けます。ロジスティック回帰は正反対です。ロジスティック損失関数を使用すると、大きなエラーが漸近的に一定になるまでペナルティが課せられます。

カテゴリー{0,1}の結果の線形回帰を検討して、これが問題である理由を確認してください。モデルが、真実が1のときに結果が38であると予測する場合、何も失われていません。線形回帰はその38を削減しようとしますが、ロジスティックは(それほど)削減しません。


WREその後、状況/ケースされているロジスティックで罰せられる、すなわち、どのようなケースでは、我々は貧しいフィット感を持っているでしょうか?
MSIS

1
ちょうど逆です。フィットからのより大きな偏差が実際に悪い結果を招くときはいつでも。たとえば、ロジスティック回帰は、ダーツボードを打つのに適していますが、ブルズアイを美しく見せることはできません。または、同様に、ボードのニアミスはあなたの隣人をくっつけるのと同じだと思います。
J.アブラハムソン

素晴らしい答え。モデルのパフォーマンスをどの程度低下させる研究が行われましたか?つまり、ロジスティック回帰ではなく、線形回帰を使用して応答= {0,1}を予測した場合です。
タガー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.