代替案とロジスティック回帰の間の実際的な&解釈の違いは何ですか?


9

Rのロジスティック回帰の代替案に関する最近の質問は、randomForest、gbm、rpart、bayesglm、および一般化された加法モデルを含むさまざまな回答をもたらしました。これらの方法とロジスティック回帰の実際的および解釈上の違いは何ですか?彼らはロジスティック回帰に関連してどのような仮定をしますか(しませんか)?仮説検定に適していますか?等。

回答:


9

免責事項:それは確かに質問への完全な答えであるにはほど遠いです!

そのようなすべての方法を区別する前に、少なくとも2つのレベルを検討する必要があると思います。

  • 単一のモデルが適合しているかどうか:これは、ロジスティック回帰対RFまたは勾配ブースティング(またはより一般的にはEnsembleメソッド)などの対立する方法に役立ち、また、パラメーター推定(関連する漸近またはブートストラップ信頼区間)対分類または予測精度の計算;
  • p

質問に関連すると私が思う他のいくつかのポイントはここにあります。

いくつかのモデルを検討する場合-同じモデルが利用可能なデータの異なるサブセット(個体や変数)に適合している場合、または異なる競合モデルが同じデータセットに適合している場合- 交差検証を使用して回避できます。 CVはこの特定のケースに限定されていませんが、過剰適合してモデルまたは機能の選択を実行します(たとえば、GAMまたはペナルティ付きGLMで使用できます)。また、伝統的な解釈の問題もあります。モデルが複雑になるほど、解釈が複雑になります(パラメーターの増加、仮定の強化など)。

勾配ブースティングとRF は、より正確で安定した決定ルールを構築するために複数の弱学習アルゴリズムの出力を組み合わせることを主な目的とするブースティングと、結果を「平均」する結果のバギングのおかげで、単一の決定木の制限を克服します。リサンプリングされたデータセット。まとめると、モデルの明確な仕様が提供される「クラシック」モデルと比較して、それらはある種のブラックボックスと見なされることがよくあります(私は3つのクラスのモデルを考えることができます:パラメーターセミパラメトリックノンパラメトリック)。この別のスレッド「The Two Cultures:統計vs.機械学習」の下で議論が行われたと思いますか?興味深い視点を提供します。

ここでは、特徴の選択といくつかのML手法に関するいくつかの論文を示します。

  1. Saeys、Y、Inza、I、およびLarrañaga、P。バイオインフォマティクスにおける特徴選択手法のレビュー、Bioinformatics(2007)23(19):2507-2517。
  2. Dougherty、ER、Hua J、and Sima、C. Performance of Features Selection Methods、Current Genomics(2009)10(6):365–374。
  3. Boulesteix、ALおよびStrobl、C. 最適な分類器の選択と誤り率推定における負のバイアス:高次元予測に関する実証的研究、BMC Medical Research Methodology(2009)9:85。
  4. Caruana、RおよびNiculescu-Mizil、A.教師あり学習アルゴリズムの経験的比較。第23回機械学習に関する国際会議の議事録(2006年)。
  5. フリードマン、J、ハスティ、T、およびティブシラニ、R。加法ロジスティック回帰:ブースティングの統計的見解、アン。統計学者。(2000)28(2):337-407。(議論あり)
  6. オールデン、JD、ローラー、JJ、ポフ、NL。涙のない機械学習方法:生態学者のための入門書、Q Rev Biol。(2008)83(2):171-93。

そしてもちろん、Hastieとcoll。によるThe Elements of Statistical Learningは、イラストと参考文献でいっぱいです。また、Andrew MooreによるStatistical Data Mining Tutorialsも必ず確認してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.