線形回帰とロジスティック回帰の違いは何ですか?
それぞれをいつ使用しますか?
線形回帰とロジスティック回帰の違いは何ですか?
それぞれをいつ使用しますか?
回答:
線形回帰は、一般的な線形方程式ここで、は連続従属変数であり、独立変数は通常連続です(ただし、線形モデルがt-テスト)またはその他の個別のドメイン。は、モデルによって説明されない分散の用語であり、通常は単に「エラー」と呼ばれます。示される個々の依存値は、方程式を少し修正することで解決できます:
ロジスティック回帰は、同じ基本式を使用する別の一般化線形モデル(GLM)の手順ですが、連続代わりに、カテゴリの結果の確率に対して回帰しています。最も単純な形式では、これは1つの結果変数とその変数の2つの状態(0または1)を検討していることを意味します。
確率の方程式は次のようになります
独立変数は連続またはバイナリにすることができます。回帰係数は、変化ごとにオッズの変化を得るために指数化できます。つまり、および。 はオッズ比と呼ばれます。英語では、オッズは単位変更ごとに係数で増加すると言うことができます。 Y=1ebiXi
例:ボディマス指数が血中コレステロールを予測する方法(継続的な測定)を確認したい場合は、私の回答の冒頭で説明した線形回帰を使用します。BMIが糖尿病である確率(バイナリ診断)を予測する方法を確認するには、ロジスティック回帰を使用します。
線形回帰は、従属変数と独立変数間の関係を確立するために使用されます。これは、独立変数が変化した場合に結果の従属変数を推定するのに役立ちます。例えば:
線形回帰を使用すると、雨(R)と傘の売上(U)の関係は-U = 2R + 5000
この方程式は、雨の1mmごとに5002枚の傘が必要であると言います。そのため、単純回帰を使用して、変数の値を推定できます。
一方、ロジスティック回帰は、イベントの確率を確認するために使用されます。そして、このイベントはバイナリ形式、つまり0または1でキャプチャされます。
例-顧客が私の製品を購入するかどうかを確認したい。このために、(関連する)データに対してロジスティック回帰を実行し、従属変数はバイナリ変数(1 =はい、0 =いいえ)になります。
グラフィカルな表現では、値がグラフにプロットされると、線形回帰は出力として線形線を与えます。一方、ロジスティック回帰では、S字型の線が得られます
Mohit Khuranaからの参照。
違いはDocBucketsとPardisによって解決されましたが、言及されていないパフォーマンスを比較する1つの方法を追加したいと思います。
線形回帰は、通常、データに対するモデルの最小二乗誤差を最小化することで解決されます。したがって、大きな誤差は二次的にペナルティを受けます。ロジスティック回帰は正反対です。ロジスティック損失関数を使用すると、大きなエラーが漸近的に一定になるまでペナルティが課せられます。
カテゴリー{0,1}の結果の線形回帰を検討して、これが問題である理由を確認してください。モデルが、真実が1のときに結果が38であると予測する場合、何も失われていません。線形回帰はその38を削減しようとしますが、ロジスティックは(それほど)削減しません。