ロジスティック回帰がうまく調整されているのはなぜですか?


9

確率キャリブレーションに関するscikit学習ドキュメントでは、ロジスティック回帰を他の方法と比較し、ランダムフォレストはロジスティック回帰よりも適切にキャリブレーションされていないことを指摘しています。

ロジスティック回帰がうまく調整されているのはなぜですか?どのようにしてロジスティック回帰のキャリブレーションを台無しにすることができますか?

回答:


4

この質問とその最初の回答は、ロジスティック回帰モデルのキャリブレーションの理論的な問題に焦点を当てているようですが、次の問題があります。

ロジスティック回帰のキャリブレーションを台無しにするにはどうすればよいですか?

このページの将来の読者にとって、実際のアプリケーションに関して注意を払う価値があります。ロジスティック回帰モデルを適切に指定する必要があること、およびこの問題はロジスティック回帰の場合に特に厄介になる可能性があることを忘れないでください。

第1に、クラスメンバーシップの対数オッズがモデルに含まれる予測子に線形的に関連していない場合、十分に調整されません。バイナリロジスティック回帰に関するハレルの第10章では、約20ページを「モデルフィットの評価」に費やしているので、@ whuberが実際に述べているように、「最尤推定量の漸近不偏性」を利用できます。

第2に、モデルの仕様はロジスティック回帰の特定の問題です。これは、通常の線形回帰でバックグラウンドを持つものには驚くべき固有の省略された変数バイアスがあるためです。そのページがそれを置くように:

省略された変数は、含まれている変数と相関関係がない場合でも、含まれている変数の係数にバイアスをかけます。

そのページには、関連する分析的に扱いやすいプロビットモデルの理論的な説明とともに、この動作が予想される理由の有用な説明もあります。したがって、クラスメンバーシップに関連するすべての予測子が含まれていることを知らない限り、実際には仕様の誤りや不適切なキャリブレーションの危険に遭遇する可能性があります。

モデルの仕様に関しては、予測子の値の範囲全体にわたって線形性を想定せず、本質的に予測子間の相互作用を見つけて含める可能性を提供するランダムフォレストのようなツリーベースのメソッドが、実際には、相互作用項や非線形性を十分に考慮しないロジスティック回帰モデルよりもキャリブレーションされたモデル。省略された変数のバイアスに関して、クラスのメンバーシップ確率を評価するための任意の方法がその問題を適切に処理できるかどうかは私には明らかではありません。


5

πθ(x)θ

zBer(p)pzXXyixiyiBer(π(xi))πθπθπ、その後、学習手順は一貫しており、より多くのデータを取得すると、最適なモデルに収束します。したがって、モデルの容量を制限すると(たとえば、機能が少なくなる)、最適な学習可能なモデルと真のモデルの間の距離が増えるため、ロジスティック回帰のキャリブレーションが妨げられる可能性があります。

ロジスティック回帰で誤った観測モデルを使用すると、キャリブレーションされていない確率が発生します。正規分布でのバイナリイベントのモデル化は不適切であり、ロジスティック回帰と組み合わせて使用​​しないでください。正規分布観測モデルに対応する損失関数は、平均二乗誤差です。したがって、MSE損失を使用すると、その校正が確実に妨げられます。


2
このサイトではロジスティック回帰を分類方法と呼びます。答えてくれてありがとう-対数損失目標がキャリブレーションの理由であることをほのめかしているようです(モデルが十分に柔軟であると想定しています)?
user0

1
フォローアップ-あなたは校正が確率の公平な推定を必要とすると言います-それゆえペナルティは校正を台無しにしますか?
user0

«LogisticRegressionは、ログ損失を直接最適化するため、デフォルトで適切に調整された予測を返します» -scikit-learn.org/stable/modules/calibration.html
cortax

定義により、罰則化または正則化は、推定量の分散を低減しようとするバイアス注入です。大規模な正則化は目的関数のデータ部分を支配し、キャリブレーションを完全に台無しにする可能性があります。
cortax

2
「ログの損失を最適化する」についてのscikit-learnの引用は、効果的な説明ではありません。私が間違えてる場合を除き、質問に対する正しい答えは、起動する必要があります漸近不偏最尤推定量、通常ロジスティック回帰手続きで使用します。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.