ロジスティック回帰は実際には回帰アルゴリズムですか？

11

（私が知る限り）回帰の通常の定義は、指定された一連の入力変数から連続出力変数を予測することです。

ロジスティック回帰はバイナリ分類アルゴリズムであるため、カテゴリカルな出力を生成します。

それは本当に回帰アルゴリズムですか？もしそうなら、なぜですか？

algorithms logistic-regression

— ジョーズ
ソース

23

ロジスティック回帰は、何よりもまず回帰です。決定ルールを追加することで分類器になります。後退する例を挙げます。つまり、データを取得してモデルをあてはめる代わりに、モデルから始めて、これが本当に回帰問題であるかを示します。

ロジスティック回帰では、イベントが発生する対数オッズ、つまりロジットをモデル化しています。これは連続的な量です。イベントが発生する確率が場合、オッズは次のとおりです。 $A$ $P(A)$

\frac{P （ あ ）}{1 - P （ あ ）}

$\frac{P(A)}{1 - P(A)}$

したがって、ログオッズは次のとおりです。

ログ （ \frac{P （ あ ）}{1 - P （ あ ）} ）

$\log \left( \frac{P(A)}{1 - P(A)}\right)$

線形回帰と同様に、これを係数と予測子の線形結合でモデル化します。

ロジット = b_{0} + b_{1} {バツ}_{1} + b_{2} {バツ}_{2} + \dots

$\operatorname{logit} = b_0 + b_1x_1 + b_2x_2 + \cdots$

人に白髪があるかどうかのモデルが与えられたと想像してください。私たちのモデルでは、唯一の予測因子として年齢を使用しています。ここで、イベントA =人は白髪です：

白髪の対数オッズ= -10 + 0.25 *年齢

...回帰！Pythonコードとプロットは次のとおりです。

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 100, 100)

def log_odds(x):
    return -10 + .25 * x

plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")

おもちゃの例の対数オッズのプロット

$P(A)$

P （ あ ） = \frac{1}{1 + \exp （ - ログオッズ ） ）}

$P(A) = \frac1{1 + \exp(-\text{log odds}))}$

これがコードです：

plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")

私たちのおもちゃの例の白髪の確率のプロット

$P(A) > 0.5$

ロジスティック回帰は、より現実的な例でも分類子としてうまく機能しますが、分類子になる前に、それは回帰手法でなければなりません！

— ベン
ソース

実際には、人はロジスティック回帰をロジスティック回帰+バイナリ分類子の同義語として使用します。

— jinawee

10

簡潔な答え

はい、ロジスティック回帰は回帰アルゴリズムであり、継続的な結果、つまりイベントの確率を予測します。バイナリ分類子として使用するのは、結果の解釈によるものです。

細部

ロジスティック回帰は、一般化線形回帰モデルの一種です。

通常の線形回帰モデルでは、継続的な結果はy、予測子とその効果の積の合計としてモデル化されます。

y = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

eエラーはどこですか。

一般化線形モデルはy直接モデル化しません。代わりに、変換を使用しての領域yをすべての実数に拡張します。この変換はリンク関数と呼ばれます。ロジスティック回帰の場合、リンク関数はロジット関数です（通常、以下の注を参照してください）。

ロジット関数は次のように定義されます。

ln(y/(1 + y))

したがって、ロジスティック回帰の形式は次のとおりです。

ln(y/(1 + y)) = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

どこy事象の確率です。

バイナリ分類子として使用するのは、結果の解釈によるものです。

注：プロビットはロジスティック回帰に使用されるもう1つのリンク関数ですが、ロジットが最も広く使用されています。

— クリストファー・ルーデン
ソース

1

あなたが議論するように、回帰の定義は連続変数を予測しています。ロジスティック回帰はバイナリ分類器です。ロジスティック回帰は、通常の回帰アプローチの出力にロジット関数を適用したものです。Logit関数は（-inf、+ inf）を[0,1]に変更します。その名前を維持しているのは歴史的な理由だけだと思います。

「画像を分類するために回帰を行いました。特に、ロジスティック回帰を使用しました。」間違っている。

— iliasfl
ソース

2

ロジスティック回帰はバイナリ分類器として使用できますが、本質的にはそうではありません。これを使用してオッズを推定したり、予測変数と結果との関係を決定したりできます。

— MattBagg 2014年

0

$f$ $f:X\rightarrow \mathbb{R}$ $P(Y=1|\lambda, x)=\dfrac{1}{1+e^{-\lambda^Tx}} \in [0,1]$ $\lambda$ $x$ $sign(P(Y=1|\lambda, x))$

— シグマさん
ソース