ロジスティック回帰が適切に調整されたモデルを生成するのはなぜですか?


13

ロジスティック回帰がWebのクリック率の予測に頻繁に使用される理由の1つは、適切に調整されたモデルが生成されることです。これについての良い数学的な説明はありますか?


2
確率を予測するために作成されたロジスティック回帰->これは、適合していなければ較正された予測につながります。したがって、うまく校正注意> -ほとんどの機械学習のモデルはprobabilitesではなく、クラスを予測しない一方で-と、これらの予測から派生した擬似probabilitesにはいくつかのゆがみがあります
チャールズ

2
私は質問で明確にすべきでしたが、私の質問は、なぜLRが確率を予測するのに非常に有用であるのかについての詳細でした。
lsankar4033

キャリブレーションが不十分な分類子の出力にロジスティック回帰を当てはめるだけで、キャリブレーションされたモデルを取得できることは注目に値します。これは、Platt Scaling en.wikipedia.org/wiki/Platt_scaling
ます

回答:


15

はい。

ロジスティック回帰からの予測確率ベクトルは、行列方程式を満たしますp

Xt(py)=0

XyX

切片列(転置行列の行)に特化して、関連する線形方程式は次のとおりです。

i(piyi)=0

したがって、全体的な予測確率の平均は、応答の平均と等しくなります。

xij

ixij(piyi)=ixij=1(piyi)=0

xij=1


1
p1/(1+exp(x))

1
はい、pはその形式です。最初の方程式は、損失関数の導関数をゼロに設定したものです。
Matthew Drury

1
これは、大規模なキャリブレーションのみに対応しています。
フランクハレル2018

1
@FrankHarrell細心の注意を払って?私はそれらの条件を以前に聞いたことがありません。
マシュードゥルーリー

3
US Weather Service 1950にさかのぼる確率予測の文献には長い歴史があります-ブライアスコアが最初に使用された場所です。小規模なキャリブレーションとは、0.01、0.02、...、0.99の予測リスクを見ると、これらのそれぞれが正確であることを意味します。つまり、予測リスクが0.4であったすべての時間で、結果は約0.4時間。私は次のステップを「小さめのキャリブレーション」と呼びます。予測が0.4だった男性の場合、結果は0.4の時点で存在し、その後女性の場合でした。
フランクハレル2018

2

次のようなわかりやすい説明を提供できると思います。


J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

つまり、モデルが完全にトレーニングされている場合、トレーニングセットで得られる予測確率はそれ自体に広がるため、各フィーチャの重み付けされた(すべての)値の合計は、そのフィーチャの値の合計と等しくなります。陽性サンプルの。

αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

ロジスティック回帰が適切に調整されていることは明らかです。

参照:Charles Elkanによる対数線形モデルと条件付き確率場

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.