Wikipediaのページ引用符「統計的学習の要素は、」言います:
通常、特徴を持つ分類問題の 場合、各分割で特徴が使用されます。
私はこれがかなり良い教育された推測であり、おそらく経験的証拠によって確認されたことを理解していますが、平方根を選ぶ他の理由はありますか?そこで起こっている統計現象はありますか?
これは何らかの形でエラーの分散を減らすのに役立ちますか?
これは回帰と分類で同じですか?
Wikipediaのページ引用符「統計的学習の要素は、」言います:
通常、特徴を持つ分類問題の 場合、各分割で特徴が使用されます。
私はこれがかなり良い教育された推測であり、おそらく経験的証拠によって確認されたことを理解していますが、平方根を選ぶ他の理由はありますか?そこで起こっている統計現象はありますか?
これは何らかの形でエラーの分散を減らすのに役立ちますか?
これは回帰と分類で同じですか?
回答:
元の論文では、彼らは)を使用することを提案していると思いますが、どちらにしてもアイデアは次のとおりです。
ランダムに選択されたフィーチャの数は、2つの方法で一般化エラーに影響を与える可能性があります。多くのフィーチャを選択すると、個々のツリーの強度が増加しますが、フィーチャの数を減らすと、ツリー間の相関が低くなり、フォレスト全体の強度が増加します。
興味深いのは、ランダムフォレスト(pdf)の著者が分類と回帰の経験的な違いを見つけたことです。
回帰と分類の興味深い違いは、使用される特徴の数が増えるにつれて相関が非常にゆっくりと増加することです。
したがって、回帰にはしばしばが推奨されます。これにより、よりも大きな値が得られます。
一般に、分類問題のまたはの明確な正当化はありません。ツリー間の相関が低いと、個々のツリーの強度の低下を相殺するほど一般化エラーを減らすことができることが示されています。特に、著者は、このトレードオフが一般化エラーを減らすことができる範囲が非常に大きいことに注意します。
通常、中間の範囲は広いです。この範囲では、フィーチャの数が増えるにつれて相関が増加しますが、PE *(tree)は減少することで補正します。
(PE *は一般化エラーです)
彼らが統計学習の要素で言うように:
実際には、これらのパラメーターの最適な値は問題に依存するため、チューニングパラメーターとして扱う必要があります。
問題が依存する可能性のあるものの1つは、カテゴリー変数の数です。ダミー変数としてエンコードされたカテゴリー変数が多数ある場合、通常はパラメーターを増やすのが理にかなっています。再び、Random Forests紙から:
多くの変数がカテゴリカルである場合、低い[特徴数]を使用すると相関が低くなりますが、強度も低くなります。[機能の数]は、テストセットの精度を高めるのに十分な強度を得るために、約2〜3倍に増やす必要があります。