モデルレベルでは、予測子の貢献度/重要度を評価するために、次を使用できます。
- モデル固有の手法–たとえば、ツリーベースモデルの純度(ジニインデックス)、該当する場合はモデル係数など。
- モデルに依存しない手法–順列特徴の重要性、部分的な依存性など。
これが伝えていないのは、特定の予測(たとえば、クラス1のメンバーシップの92%の確率を提供するバイナリ分類)について、その予測の作成に最も影響力のあった予測子です。
この問題について少し考えたところ、いくつかのアプローチが取れるように思えます。
- モデル固有の手法–たとえば、適用可能な線形モデルの係数、XGBoostについてここで説明されているような手法(https://medium.com/applied-data-science/new-r-package-the-xgboost-explainer-51dd7d1aa211)
- モデルに依存しない手法–たとえば、予測子を摂動してモデル化したときに予測がどのように変化するかを理解するための部分依存と同様の「摂動法」、またはこのホワイトペーパー(https://arxiv.org/)で説明されているLIMEのような手法pdf / 1602.04938.pdfおよびhttps://github.com/marcotcr/lime)、変更された順列重要度手法?
私にとって最も価値のあるアプローチは、多くのアルゴリズムのいくぶん「ブラックボックス」の性質を考慮してモデルに依存しない手法であり、新規で新しいアルゴリズムと手法を解釈する能力を提供することです。
ここ(http://amunategui.github.io/actionable-instights/index.html)で説明されている単純な方法の1つは、各予測子を取得し、「母集団」の平均を代入することによってその影響を「中和」し、予測を再度実行することです。元の予測と中立化されたバージョンとの違いを取得して、重要度を測定します。これは、上でほのめかされた一種の「摂動」法の特別な場合のようです。これに見られるいくつかの欠点は、1)各機能の「平均」(または同等のもの)を含む予測がおそらく「中間」予測であることを意味するように思われ、2)「手段」である機能」(または同等のもの)は、必ずしも影響を与えませんか?
より一般的には、どの手法でも次のことを説明する必要があります。
- さまざまなデータ型(数値、カテゴリなど)を処理する方法
- 欠損データを処理する方法
- おそらく条件付きの重要性をどのように処理するか(つまり、予測子はペアでのみ重要になる場合があるなど)
- 計算効率(が予測子の数である場合に予測を回実行すること、またはが予測子あたりの予測数である摂動法場合などは実際に現実的です)
問題についての緩やかでおそらく誤った考えが示されているので、人々が認識し、検討し、使用し、助言するなどの問題へのアプローチはどのようなものでしょうか。