GBMパラメータの有用なガイドラインは何ですか?


31

GBMを使用してパラメータ(相互作用の深さ、ミンチャイルド、サンプルレートなど)をテストするための有用なガイドラインは何ですか?

人口が200,000の70-100の機能があり、相互作用の深さ3と4をテストするつもりだとしましょう。明らかに、パラメーターのどの組み合わせが最適なサンプル外であるかを確認するためにテストを行う必要があります。このテスト設計にアプローチする方法に関する提案はありますか?

回答:


34

キャレットパッケージは、問題のパラメーター選択を最適化するのに役立ちます。caretTrainビネットは、10倍の反復交差検証を使用してgbmパラメーターを調整する方法を示します。他の最適化アプローチが利用可能であり、foreachパッケージを使用してすべて並行して実行できます。vignette("caretTrain", package="caret")ドキュメントを読むために使用します。

パッケージには、チューニングをサポートしshrinkagen.treesし、interaction.depthあなた自身を追加することができますが、GBMモデルのパラメータ。

ヒューリスティックの場合、これは私の最初のアプローチです。

shrinkage:時間がある限り小さい(gbmマニュアルにはこれについての詳細が記載されていますが、一般に、小さい値では問題が発生する可能性があります)。データセットが小さいため、おそらく1e-3から始めます

n.trees:通常、gbm.perf十分な数になるまで(実際には、通常、その値の1.2倍まで)木を追加する初期モデルを成長させ、それをさらに分析するためのガイドとして使用します。

interaction.depth:あなたはすでにこれについての考えを持っています。より小さい値も試してください。最大値はfloor(sqrt(NCOL(data))です。

n.minobsinnode:この変数を調整することが本当に重要だと思います。アルゴリズムがあまりにも多くの偽の特徴を検出するほど小さくしたくない。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.