xgboostモデルを実行しました。の出力を解釈する方法が正確にはわかりませんxgb.importance。
ゲイン、カバー、および周波数の意味は何ですか?それらをどのように解釈しますか?
また、Split、RealCover、およびRealCover%はどういう意味ですか?ここにいくつかの追加パラメーターがあります
機能の重要性についてさらに詳しく説明できる他のパラメーターはありますか?
Rのドキュメントから、GainはInformation gainに似ており、Frequencyはすべてのツリーで機能が使用される回数であることがある程度理解できます。Coverが何なのかわかりません。
リンクで指定されたサンプルコードを実行しました(そして、私が取り組んでいる問題でも同じことを試みました)が、そこに指定された分割定義は、計算した数値と一致しませんでした。
importance_matrix
出力:
           Feature         Gain        Cover    Frequence
  1:            xxx 2.276101e-01 0.0618490331 1.913283e-02
  2:           xxxx 2.047495e-01 0.1337406946 1.373710e-01
  3:           xxxx 1.239551e-01 0.1032614896 1.319798e-01
  4:           xxxx 6.269780e-02 0.0431682707 1.098646e-01
  5:          xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214:     xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215:     xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216:   xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218:  xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05

