XGBoost機能の重要性-ゲインとカバーは高いが周波数は低い


8

私はこの質問を読みました:XGBoostの重要性の出力をどのように解釈しますか?機能の重要性の3つの異なるタイプについて:頻度(Python XGBoostでは「ウェイト」と呼ばれます)、ゲイン、カバー。

私の場合、周波数メトリックに基づいて非常に重要度が低い機能であるジェンダーがありますが、ゲインとカバーメトリックの両方に基づいて、最も重要な機能です。

私が予測していることでは、性別が重要であることを知っています。性別とターゲットのみをプロットすると、明確な相関関係があります。それが最も重要な機能であることには驚かない。なぜそれが周波数メトリックに基づいて重要な機能と見なされないのか知りたいだけです。

回答:


8

なぜそれが周波数メトリックに基づいて重要な機能と見なされないのか知りたいだけです。

最も可能性が高いのは、データセット内の他の予測子と比較して、変数genderの取り得る値の数が非常に少ない(多くの場合、2つのみ:表現に応じて男性/女性または0/1)。

場合は性別があなたのケースでちょうどバイナリで、言わせながら、それはそれぞれのツリーに一度それが最大で使用できることを意味し、年齢は木の異なるレベルにはるかに頻繁に表示される場合があります。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.