Rのロジスティック回帰の代替案に関する最近の質問は、randomForest、gbm、rpart、bayesglm、および一般化された加法モデルを含むさまざまな回答をもたらしました。これらの方法とロジスティック回帰の実際的および解釈上の違いは何ですか?彼らはロジスティック回帰に関連してどのような仮定をしますか(しませんか)?仮説検定に適していますか?等。
Rのロジスティック回帰の代替案に関する最近の質問は、randomForest、gbm、rpart、bayesglm、および一般化された加法モデルを含むさまざまな回答をもたらしました。これらの方法とロジスティック回帰の実際的および解釈上の違いは何ですか?彼らはロジスティック回帰に関連してどのような仮定をしますか(しませんか)?仮説検定に適していますか?等。
回答:
免責事項:それは確かに質問への完全な答えであるにはほど遠いです!
そのようなすべての方法を区別する前に、少なくとも2つのレベルを検討する必要があると思います。
質問に関連すると私が思う他のいくつかのポイントはここにあります。
いくつかのモデルを検討する場合-同じモデルが利用可能なデータの異なるサブセット(個体や変数)に適合している場合、または異なる競合モデルが同じデータセットに適合している場合- 交差検証を使用して回避できます。 CVはこの特定のケースに限定されていませんが、過剰適合してモデルまたは機能の選択を実行します(たとえば、GAMまたはペナルティ付きGLMで使用できます)。また、伝統的な解釈の問題もあります。モデルが複雑になるほど、解釈が複雑になります(パラメーターの増加、仮定の強化など)。
勾配ブースティングとRF は、より正確で安定した決定ルールを構築するために複数の弱学習アルゴリズムの出力を組み合わせることを主な目的とするブースティングと、結果を「平均」する結果のバギングのおかげで、単一の決定木の制限を克服します。リサンプリングされたデータセット。まとめると、モデルの明確な仕様が提供される「クラシック」モデルと比較して、それらはある種のブラックボックスと見なされることがよくあります(私は3つのクラスのモデルを考えることができます:パラメーター、セミパラメトリック、ノンパラメトリック)。この別のスレッド「The Two Cultures:統計vs.機械学習」の下で議論が行われたと思いますか?興味深い視点を提供します。
ここでは、特徴の選択といくつかのML手法に関するいくつかの論文を示します。
そしてもちろん、Hastieとcoll。によるThe Elements of Statistical Learningは、イラストと参考文献でいっぱいです。また、Andrew MooreによるStatistical Data Mining Tutorialsも必ず確認してください。