誰かがGiniの不純物と情報獲得を意思決定ツリーにいつ使用するか説明してくれませんか?どのような場合にどの方法を使用するのが最適かについての状況/例を教えていただけますか?
誰かがGiniの不純物と情報獲得を意思決定ツリーにいつ使用するか説明してくれませんか?どのような場合にどの方法を使用するのが最適かについての状況/例を教えていただけますか?
回答:
パラメータチューニングの一部として両方を試してください。
理論的には、ジニ不純物はブライアスコアを最小化し、エントロピー/情報ゲインは対数損失を最小化するため、関心のあるもののどれかが違いを生みます。ただし、他のものは、どれもが物事に影響を与える一変量の効果によって「気が散る」のではなく、貪欲な木の成長における多変量効果を発見する可能性がどれほど高いかなどを好みます。つまり、常に「最良の」スプリットを選択するとは限らない不純メトリックからより良い一般化を得ることができます。
実際には(rfのコンテキストでは、カートよりも)、エントロピーは、より複雑な信号を可能な限り適合させようとしているクリーンな低次元データセットでより効果的に機能し、giniはノイズの多い高次元でより効果的であることがわかりました多くのノイズの多い潜在的な信号の中から単純な信号を明らかにしようとするもの。これは私の経験ですが、すべての場合に当てはまるとは限りません。
注:コメントとして開始されましたが、削除されて回答に移動し、事柄の拡張をフォーマットしました。