ブースティングツリーの調整パラメーターの最適値を見つける方法


9

ブースティングツリーモデルには3つの調整パラメーターがあることを理解しています。

  1. ツリーの数(反復数)
  2. 収縮パラメータ
  3. 分割数(各構成ツリーのサイズ)

私の質問は、各調整パラメーターについて、その最適値をどのように見つければよいですか?そして、どのような方法ですか?

注意:収縮パラメータとツリー数パラメータは一緒に動作します。つまり、収縮パラメータの値が小さいほど、ツリー数の値が大きくなります。これも考慮に入れる必要があります。

分割数の最適値を見つける方法に特に興味があります。背後のモデルに関する相互検証またはドメイン知識に基づく必要がありますか?

そして、これらgbmはR のパッケージでどのように実行されますか?

回答:


6

R のキャレットパッケージは、このためにカスタマイズされています。

そのtrain関数は、パラメーター値のグリッドを受け取り、さまざまな種類の交差検証またはブートストラップを使用してパフォーマンスを評価します。パッケージの作成者が著書 『応用予測モデリング』を執筆しました。本全体にわたって、10回の相互検証の5回の繰り返しが使用されています。

ツリーの深さを選択するには、まず問題に関する主題の知識を求めます。つまり、相互作用が予想されない場合は、深さを1に制限するか、柔軟なパラメトリックモデルを使用します(これは理解と解釈がはるかに簡単です)。そうは言っても、主題の知識は非常に限られていることが多いので、ツリーの深さを調整していることがよくあります。

gbmパッケージは、ツリーの深さと収縮の固定値に対してツリーの数を調整すると思います。


この本にはRコードも含まれていますか?
user1769197 2014

私は、モデルが計算でどのように実装され、データセットに適用されるかを理解できるように、Rコードを含む
実際の

1
はい、そうです。詳細については、本のウェブページAppliedpredictivemodeling.comをご覧ください。
ErikL 2014

1

ブーストされた回帰ツリーとgbmパッケージには、2つの優れたソースがあります。BRTの説明と木の数(の最適化のためにnt)、学習率(lr)や木の複雑さ(tc)を参照ブースト回帰ツリーへの作業のガイドを、それが生態系に焦点を当てているが、私はあなたがBRTに優れた導入を見つけることができませんだと思います。

gbmパッケージでのBRTの実装については、エコロジーモデリングのブースト回帰ツリーを参照してください

要するに、経験則は、BRTモデルが少なくとも1000本の木に適合することを可能にする学習率を選択することです。そのため、おそらくそれを達成するために、おそらく0.001の低い学習率が必要になります。ただし、データのサイズによって異なります。図を参照してください。BRTの作業ガイドの2と3。考えられる1つの方法は、データサイズに応じてBRTでさまざまなモデルをセットアップすることだと思います。たとえば、さまざまなlr(0.1、0.01、0.001)、tc(1、3、5、7、9、20)をさまざまなバッグと組み合わせる.fractions(0.5、0.7、0.9)そして、最小の逸脱度または最高のROCスコアに応じて最適なものを選択します。多分それは助けた。


1
参考までに、BRT_MODEL$self.statistics$correlation[[1]]はテストとトレーニングデータの相関関係です。これは優れたテスト指標です。
dez93_2000 14

実験の統計的計画のように思えます。:P
EngrStudent 2016年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.