学習率を低くすると、GBMのパフォーマンスがどのように低下​​しますか?


8

私は、gbm(勾配ブーストツリーモデル)の学習率を下げても、モデルのサンプルパフォーマンスを損なうことはないという民俗の知識に常に同意しています。今日は、よくわかりません。

私はモデルを二乗誤差の合計を最小化してボストンハウジングデータセットに適合させています。これは、20%ホールドアウトテストデータセットのツリー数によるエラーのプロットです。

学習率の異なる木の数によるエラー

最後に何が起こっているのかを理解するのは難しいので、ここに極端な拡大バージョンがあります

ズームインしたバージョン

0.01

これはどのように最もよく説明されますか?

これはボストンデータセットの小さなサイズのアーティファクトですか?数十万または数百万のデータポイントが存在する状況については、よりよく理解しています。

グリッド検索(または他のメタアルゴリズム)で学習率の調整を開始する必要がありますか?

回答:


4

はい、あなたは正しいです。低い学習率は高い学習率より良い最適を見つけるはずです。ただし、グリッド検索を使用してハイパーパラメーターを調整し、他のハイパーパラメーターと一緒に学習率の最適な組み合わせを見つける必要があります。

GBMアルゴリズムは、学習率(収縮)に加えて複数のハイパーパラメーターを使用します。これらは次のとおりです。

  1. 木の数
  2. 相互作用の深さ
  3. ノードの最小観測
  4. バッグの割合(ランダムに選択された観測の割合)

グリッド検索では、これらのすべてをチェックして、最適なパラメーターのセットを決定する必要があります。

たとえば、GBMで調整した一部のデータセットでは、各ハイパーパラメータが変更されると、精度が大幅に変化することがわかりました。サンプルデータセットではGBMを実行していませんが、別のデータセットについて同様のチューニング演習を参照します。非常に不均衡なクラスの分類問題については、このグラフを参照してください。

カッパメトリックに対する収縮の変化(学習率)の影響

精度は学習率が低いほど高くなりますが、たとえば ツリーの深さが16の場合、カッパメトリックは学習率0.2で0.425であり、0.35の学習率での0.415よりも優れています。

ただし、学習率を0.25と0.26で比較すると、ツリーの最大深度が14、15、16の場合、Kappaは急激に少し増加します。一方、ツリーの深さ12と13では減少し続けます。

したがって、グリッド検索を試してみることをお勧めします。

さらに、あなたが言及したように、この状況は、データセットのより小さなサンプルサイズによって悪化する可能性もあります。


0

Sandeep S. Sandhuは素晴らしい答えを提供してくれました。あなたの場合については、あなたのモデルはそれらの小さな学習率のためにまだ収束していないと思います。私の経験では、勾配ブースティングツリーで0.001程度の小さな学習率を使用する場合、最小値に到達するには約100,000のブーストステージ(またはツリー)が必要です。したがって、ブーストラウンドを10倍に増やすと、大きな学習レートよりも小さな学習レートのパフォーマンスが向上することがわかります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.