ランダム化ロジスティック回帰とプレーンバニラロジスティック回帰の違い


12

Randomized Logistic Regression(RLR)とプレーンLogistic Regression(LR)の違いを知りたいので、Meinshausenなどによる論文「Stability Selection」読んでいます。; ただし、RLRとは何か、RLRとLRの違いはわかりません。

誰かがRLRを理解するために読むべきことを指摘できますか?または、簡単な例はありますか?


1
RLRは標準用語ではありません。メソッドを定義してください。
フランクハレル

ありがとう@FrankHarrell ...メソッドはscikit学習ライブラリから来ています
ヘンドラBunyamin

機械学習/ビッグデータ用の新しいスタック交換サイトができたので、おそらくこの質問はそこにあります。
プラキディア

4
@Placidiaそれは良い提案です。しかし、あなた自身の答えは、この質問がここに属する理由を示しています。質問の統計的側面とML側面の両方を正確に特徴付け、比較するバランスのとれた視点を提供することができます。ですが可能、「データサイエンス」サイト上で誰かがそのような答えを貢献できることを、私の経験では、それはそうだろうということがあります。
whuber

3
新しいサイトはコールデータサイエンスであり、統計に関する半分以上がこのサイトの目的です。
フランクハレル

回答:


17

あなたはチェックアウトしたいかもしれません このリファレンスてください。Sci-kitの学習では、ランダム化されたロジスティック回帰が実装されており、そこで方法が説明されています。

しかし、あなたの質問に答えるために、2つの方法はその目標が大きく異なります。ロジスティック回帰はモデルの適合に関するものであり、RLRはモデルに入る変数の検索に関するものです。

バニラロジスティック回帰は、一般化線形モデルです。バイナリ応答の場合、応答確率の対数オッズは多くの予測子の線形関数であると仮定します。予測子の係数は最尤法を使用して推定され、パラメーターに関する推論はモデルの大規模なサンプルプロパティに基づいています。最良の結果を得るには、通常、モデルはかなり単純で十分に理解されていると想定します。どの独立変数が応答に影響するかを知っています。モデルのパラメーターを推定したい。

もちろん、実際には、どの変数をモデルに含めるべきかは必ずしもわかりません。これは、潜在的な説明変数の数が膨大でその値がまばらである機械学習の状況で特に当てはまります。

長年にわたり、多くの人々が、変数(「機能」と呼ばれる)選択のために統計モデルフィッティングの手法を使用しようと試みてきました。信頼性のレベルを上げる:

  1. 大きなモデルを近似し、重要でないWald統計を使用して変数を削除します。常に最良のモデルを作成するとは限りません。
  2. すべての可能なモデルを見て、「最良の」ものを選んでください。計算集約的で堅牢ではありません。
  3. L1ペナルティ項(なげなわスタイル)を使用して大きなモデルを近似します。役に立たない変数は当てはめられます。より良いが、スパース行列では不安定です。
  4. ランダム化方法3.ランダムなサブセットを取り、それぞれにペナルティモデルを適合させ、結果を照合します。頻繁に表示される変数が選択されます。応答がバイナリの場合、これはランダム化されたロジスティック回帰です。同様の手法は、連続データと一般的な線形モデルで引き出すことができます。

1
+1一般的な方法論について、このように明確で読みやすく、有益な調査を見ることができてうれしいです。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.