XGboost-モデルによる選択


10

XGboostを使用して、保険金請求の2つのクラスターゲット変数を予測しています。私は別のデータセットで実行しているモデル(相互検証によるトレーニング、ハイパーパラメーターの調整など)を持っています。

私の質問は:

特定のクレームが1つのクラス、つまりモデルによる選択を説明する機能に影響を与えた理由を知る方法はありますか?

目的は、機械によって行われた選択を第三者の人間に正当化できるようにすることです。

ご回答有難うございます。

回答:


7

Shapに行くことをお勧めします。これは、使用していますシャプレー値モデルの振る舞いを記述するために(ゲーム理論から借用概念を)、およびそれとは、単一の予測を説明することができます。

グラフィカルインターフェイスは、以下に示すようなForce Plotsを使用します。 ここに画像の説明を入力してください

赤いバーは予測を正の値に導く機能によって構築され、青いバーは他の値によって構築されます。

あなたの場合(分類子)太字の数字は、出力値を0と1(1つのクラスまたは他のクラス)の間で制限するシグモイド関数の直前の数値になります。そのため、場合によっては、1より大きいか負になる場合でも怖がらないでください。

セグメントのサイズは、その機能が予測にどの程度貢献しているかを表し、セグメントの下には、機能の名前(LSTATなど)と実際の値(4.98など)が表示されます。したがって、この場合、LSTATはデータセットのその要素の予測を24.41(太字の数値)の値に導く平均特徴です。

楽しい!


9

ELI5ライブラリを使用して、XGBoostモデルの個々の予測に対する機能の貢献を説明できます。

以下にコピーされたドキュメントの予測の説明を参照してください:

分類器がどのように機能するかをよりよく理解するために、個々の予測をeli5.show_prediction()以下で調べてみましょう。

from eli5 import show_prediction
show_prediction(clf, valid_xs[1], vec=vec, show_feature_values=True)

ここに画像の説明を入力してください


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.