ロジスティック回帰の背後にある直感


25

最近、機械学習の勉強を始めましたが、ロジスティック回帰の背後にある直感を理解することができませんでした。

以下は、私が理解しているロジスティック回帰についての事実です。

  1. 仮説の基礎として、シグモイド関数を使用します。なぜそれ正しい選択なのか理解していますが、なぜそれが私が理解できない唯一の選択なのかを理解しています。仮説は、適切な出力である確率を表す1、それゆえ私たちの関数のドメインがあるべき[01]、これはシグモイド関数の唯一の財産である私が有用であることが判明し、ここで適切な、しかし、多くの機能は、この特性を満たします。さらに、シグモイド関数には、この形式の導関数f(x)(1f(x))、しかし、ロジスティック回帰ではこの特別な形式のユーティリティは見当たりません。

    質問:どのようなシグモイド関数についてとても特別な、なぜ私たちは、ドメインと他の機能を使用することはできません[0,1]

  2. コスト関数は、2つのパラメータで構成さであれば、Y = 1 C O S T時間θX Y = - ログ1 - 時間θX であれば、Y =をCost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))。上記と同じように、なぜそれが正しいのか理解していますが、なぜそれが唯一の形式なのですか?例えば、なぜできませんでした | 時間θ X - Y | コスト関数の良い選択ですか?y=0|hθ(x)y|

    質問:上記の形式の費用関数について何が特別なのか。なぜ別のフォームを使用できないのですか?

ロジスティック回帰の理解を共有していただければ幸いです。


5
ロジット/ロジスティック関数は、応答が二項分布として分布する場合に回帰モデルのリンク関数として使用できる唯一の関数ではありません。この点に関しては、ここで私の答えを読むのに役立つかもしれません:difference-between-logit-and-probit-models
GUNG -復活モニカ

4
ここでの私の答え:ロジット関数は、常にバイナリデータの回帰モデリングに最適であり、さまざまな可能性について考えるのにも役立ちます。
GUNG -復活モニカ

1
@AdamOは以下の優れた概要を提供します。あなたはそれがロジットは、「正規のリンク機能」であることを意味するものについてのより詳細な情報が必要な場合は、ここでモモの答えを読むことをお勧めします:違い-間リンク機能-とカノニカル・リンク機能について-GLM
GUNG -復活モニカ

1
「シグモイド」が使用されていない(1)の図解された例がstats.stackexchange.com/a/70922に表示されます。その答えには(2)の説明が含まれています。別の例がstats.stackexchange.com/questions/63978/…にあります。stats.stackexchange.com/a/69873で、より平凡な(しかし技術的ではない)議論が、問題(2)に焦点を当てて行われます。
whuber

回答:


7

ロジスティック回帰モデルは、予測変数の単位差あたりの結果のリスクの相対的な変化を対比するために、自然パラメーター(対数オッズ比)を使用した最尤法です。もちろん、これは結果の二項確率モデルを仮定しています。つまり、ロジスティック回帰の一貫性とロバスト性のプロパティは、最尤法から直接拡張されます。つまり、ランダムデータの欠落、ルートnの一貫性、方程式の推定に対する解の存在と一意性です。これは、解がパラメーター空間の境界(logオッズ比が)にないことを前提としています。ロジスティック回帰は最尤法であるため、損失関数は尤度に関連しています。これらは同等の最適化問題だからです。±

準尤度または推定方程式(セミパラメトリック推論)、存在、一意性のプロパティはまだ保持されますが、平均モデルが保持されるという仮定は関連せず、モデルの仕様ミスに関係なく推論と標準誤差は一貫しています。したがって、この場合、シグモイドが正しい関数であるかどうかの問題ではなく、信じることができ、拡張可能な解釈を持つパラメーターによってパラメーター化される傾向を提供するものです。

ただし、シグモイドだけがそのようなバイナリモデリング関数ではありません。最も一般的に対比されるプロビット関数には、同様の特性があります。対数オッズ比は推定しませんが、機能的には非常に似ており、まったく同じものに非常に類似した近似値を与える傾向があります。平均モデル関数でも境界プロパティを使用する必要はありません。2項分散関数で対数曲線を使用するだけで相対リスク回帰が得られ、2項分散での同一性リンクにより付加的なリスクモデルが得られます。これらはすべてユーザーが決定します。悲しいことに、ロジスティック回帰の人気は、なぜ一般的に使用されているのかということです。ただし、ほとんどのバイナリ結果モデリング環境で使用するのに十分であると思う理由(私が述べた理由)があります。

推論の世界では、まれな結果の場合、オッズ比は「相対リスク」、つまり「X + 1とXを比較した結果のリスクの相対的変化率」として大まかに解釈できます。これは常に当てはまるわけではなく、一般的に、オッズ比はそのように解釈することはできず、解釈すべきではありません。ただし、そのパラメーターには解釈があり、他の研究者に簡単に伝えることができることが重要なポイントであり、機械学習者の教訓的な資料から悲しいことに欠けているものです。

ロジスティック回帰モデルは、階層的モデリングや、指数関数的に増加する迷惑パラメータに対して一貫性があり堅牢な混合モデリングおよび条件付き尤度アプローチなど、より高度なアプローチの概念的基盤も提供します。GLMMと条件付きロジスティック回帰は、高次元統計の非常に重要な概念です。


1
ご回答どうもありがとうございました!バックグラウンドが非常に不足しているようです。
user16168

McCulloughとNelderの著書Generalized Linear Modelsは、統計の観点から見ると優れた背景リソースになると思います。
AdamO

一般的に、非常に詳細な記述コンテンツを含む機械学習では、どの教科書をアドバイスしますか?
user16168

Hastie、Tibshirani、Friedmanによる統計学習の要素。
AdamO

2
@ user48956 Missing Dada、Little&Rubin 2nd edによる統計分析 欠損データは、それ自体「表現」されるのではなく、省略によって「処理」されます。これはロジスティック回帰に固有のものではありません。これは、すべての統計モデルで使用される単純なアプローチです。データが長方形の配列にフォーマットされている場合、欠損値のある行は省略されます。これは完全なケース分析として知られています。GLMとGLMMSは、完全なケース分析は通常、公平で、非効率的ではないという意味で、欠落データに対して堅牢です。
AdamO

6

ロジスティック回帰について考える1つの方法は、しきい値応答モデルとしてです。これらのモデルでは、独立変数Xのベクトルの値の影響を受けるバイナリ従属変数があります。従属変数Yは値0と1のみをとることができるため、Y i = X iのような典型的な線形回帰方程式を使用してXに対するYの依存性をモデル化することはできませんYXYYX。しかし、私たちは本当に、一次方程式が本当に好きです。または、少なくとも、私はします。Yi=Xiβ+ϵi

この状況をモデル化するために、観測不可能な潜在変数を導入し、Y がしきい値を超えるとYが0から1に変わると言います 。YYYY

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

YXYY

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ).

Now, the distribution function you pick for ϵ affects your estimation results. The two most common choices for F are normal (yielding the probit model) and logistic (yielding the logit model). These two distributions are so similar that there are rarely important differences in the results between them. Since logit has a very convenient closed form for both cdf and density functions, it's usually easier to use it rather than probit.

Again, just as you say, you could pick any distribution function for F and which one you pick will affect your results.


What you described is exactly the motivation for the probit model, not logistic regression.
AdamO

6
@AdamO, if the ϵi have a logistic distribution, then this describes logistic regression.
Macro

That seems like a very sensitive assumption and one that would be difficult to test. I think logistic regression can be motivated when such error distributions don't hold.
AdamO

2
@AdamO, however you motivate logistic regression, it's still mathematically equivalent to a thresholded linear regression model where the errors have a logistic distribution. I agree that this assumption may be hard to test but it's there regardless of how you motivate the problem. I recall a previous answer on CV (I can't place it right now) that showed with a simulation study that trying to tell whether a logistic or probit model "fit better" was basically a coin flip, regardless of the true data generating model. I suspect logistic is more popular because of the convenient interpretation.
Macro

2
@AdamO This is a manifestation of the usual economist/statistician divide, but . . . I don't think logistic regression is semi-parametric. The statistical model is P(Yi=1=eバツpバツβ1+eバツpバツβ。それはパラメトリックです。ロジスティックエラーのあるしきい値モデルからのものとして解釈することができます(そして私もそうします)。エラー項についてあまりにも多くの仮定を立てることが心配になる場合は、しきい値モデルではなく、ロジスティック回帰を削除します。しきい値モデルは、たとえば最大スコアと関連する推定量を使用して、誤差項に関する非常に弱い仮定で推定できます。
ビル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.