個々の予測に対する機能の重要性/影響


8

モデルレベルでは、予測子の貢献度/重要度を評価するために、次を使用できます。

  • モデル固有の手法–たとえば、ツリーベースモデルの純度(ジニインデックス)、該当する場合はモデル係数など。
  • モデルに依存しない手法–順列特徴の重要性、部分的な依存性など。

これが伝えていないのは、特定の予測(たとえば、クラス1のメンバーシップの92%の確率を提供するバイナリ分類)について、その予測の作成に最も影響力のあった予測子です。

この問題について少し考えたところ、いくつかのアプローチが取れるように思えます。

私にとって最も価値のあるアプローチは、多くのアルゴリズムのいくぶん「ブラックボックス」の性質を考慮してモデルに依存しない手法であり、新規で新しいアルゴリズムと手法を解釈する能力を提供することです。

ここ(http://amunategui.github.io/actionable-instights/index.html)で説明されている単純な方法の1つは、各予測子を取得し、「母集団」の平均を代入することによってその影響を「中和」し、予測を再度実行することです。元の予測と中立化されたバージョンとの違いを取得して、重要度を測定します。これは、上でほのめかされた一種の「摂動」法の特別な場合のようです。これに見られるいくつかの欠点は、1)各機能の「平均」(または同等のもの)を含む予測がおそらく「中間」予測であることを意味するように思われ、2)「手段」である機能」(または同等のもの)は、必ずしも影響を与えませんか?

より一般的には、どの手法でも次のことを説明する必要があります。

  • さまざまなデータ型(数値、カテゴリなど)を処理する方法
  • 欠損データを処理する方法
  • おそらく条件付きの重要性をどのように処理するか(つまり、予測子はペアでのみ重要になる場合があるなど)
  • 計算効率(が予測子の数である場合に予測を回実行すること、またはが予測子あたりの予測数である摂動法場合などは実際に現実的です)ppkpk

問題についての緩やかでおそらく誤った考えが示されているので、人々が認識し、検討し、使用し、助言するなどの問題へのアプローチはどのようなものでしょうか。

回答:


8

あなたが取り組んでいるトピックは、モデルの説明またはモデルの解釈として知られており、研究において非常に活発なトピックです。一般的なアイデアは、モデルに貢献した機能とそうでない機能を見つけることです。

部分依存プロット(PDP)やLIMEなどの一般的な手法についてはすでに説明しました。PDPでは、モデルの出力に対する機能の値の影響は、変更された機能の値を持つデータから新しいインスタンスを作成し、モデルによってそれらを予測することによって表示されます。LIMEは、要求されたインスタンスの周りのインスタンスをサンプリングし、よりシンプルで解釈可能なモデルを学習することにより、モデルのローカル近似を作成します。

あなたが説明した素朴な方法では、特徴を母集団の平均に設定することで、特徴の影響を打ち消します。平均値の予測はおそらく平均予測ではないため、これは適切な方法ではないことは間違いありません。また、機能の分布を反映しておらず、カテゴリ属性では機能しません。

Robnik-SikonjaとKononenko [1]はこの問題に対処しました。基本的な考え方は同じです。変更されていないインスタンスと、無効化された機能を持つインスタンスとの間の予測の違いです。ただし、機能の影響を取り除くために平均値を取る代わりに、それぞれが異なる値を持つ複数のインスタンスコピーを作成します。以下の場合、カテゴリ値、彼らはすべての可能なカテゴリを反復します。以下のための数値値、彼らはビンにデータをdiscretise。分解されたインスタンスは、データ内の特徴値の頻度によって重み付けされます。欠落しているデータは、それを処理できる分類子を使用するか、または値を平均に設定するなどして代入することで無視できます。条件付きの重要性Strumbelj et al [2]による2番目の出版物で取り上げられています。彼らは、単一の機能の分解されたインスタンスを作成するだけでなく、元のアプローチを拡張し、機能値のべき集合の各サブセットの予測がどのように変化するかを観察しました。もちろん、これは計算上非常に高価です(彼ら自身が言及し、StrumbeljとKononenkoでのよりスマートなサンプリングによって改善しようとした[3])。

ちなみに、バイナリデータの場合、属性が存在する場合存在ない場合の予測を比較するだけなので、この問題ははるかに簡単になります。MartensとProvost [4]はこれを文書分類のために議論しました。

意味のある特徴のグループを見つける別のアプローチは、Andreas Heneliusによって[5]および[6]で提案されています。彼のGoldenEyeアルゴリズムのアイデアは、クラス内および機能グループ内のデータを並べ替えることです。各行がインスタンスを表し、各列が特徴であるデータテーブルを想像してください。各列では、同じクラスを共有するすべての行が並べ替えられます。機能はグループ化されます。つまり、並べ替えられます。並べ替えられたデータの分類が元のデータと大きく異なる(悪い)場合、現在のグループ化は真のグループ化を反映していません。出版物をチェックしてください。このアプローチも、計算コストが高くなります。

Josua Krause [7]、[8]の出版物も参照したいと思います。彼は、強化されたPDPを含むバイナリインスタンスベースの分類問題を分析するためのインタラクティブな視覚分析ワークフローを開発しました。彼らはよく書かれていて、面白い読み物です。


[1]Robnik-Šikonja、M。(2004年9月)。ランダムフォレストの改善。機械学習に関するヨーロッパ会議(pp。359-370)。スプリンガー、ベルリン、ハイデルベルク。

[2]Štrumbelj、E.、Kononenko、I.、およびŠikonja、MR(2009)。特徴値のサブセットの相互作用によるインスタンス分類の説明。データと知識工学、68(10)、886-904。

[3]Štrumbelj、E.&Kononenko、I.(2014)。予測モデルと機能の寄与を伴う個々の予測について説明します。知識と情報システム、41(3)、647-665。

[4] Martens、D.、およびProvost、F.(2013)。データ駆動型ドキュメント分類の説明。

[5] Henelius、A.、Puolamamaki、K.、Boström、H.、Asker、L。、およびPapapetrou、P。(2014)。ブラックボックスをのぞく:ランダム化による分類器の探索。データマイニングと知識の発見、28(5-6)、1503-1529。#

[6] Henelius、A.、Puolamamaki、K.、Karlsson、I.、Zhao、J.、Asker、L.、Boström、H。、およびPapapetrou、P。(2015年4月)。Goldeneye ++:ブラックボックスを詳しく調べます。統計学習とデータ科学に関する国際シンポジウム(pp。96-105)。スプリンガー、チャム。

[7] Krause、J.、Perer、A.、およびNg、K.(2016年5月)。予測との相互作用:ブラックボックス機械学習モデルの目視検査。コンピューティングシステムにおけるヒューマンファクターに関する2016年CHI会議の議事録(pp。5686-5697)。ACM。

[8] Krause、J.、Dasgupta、A.、Swartz、J.、Aphinyanaphongs、Y。、およびBertini、E。(2017)。インスタンスレベルの説明を使用したバイナリ分類子の視覚診断のワークフロー。arXivプレプリントarXiv:1705.01968。


なんとすばらしい答えであり、このトピックに関する私の考えの多くと一致しています。時間と専門知識をありがとうございました。リファレンスは特に便利です。
ブラックボックスを開く

2
+1 2014年のŠtrumbelj&Kononenkoの論文は、それに値する認識を遠く離れて得ていません。彼らのゲーム論的アプローチは次のようである「WOW!
usεr11852

0

ここで言及する価値のある他の2つの方法は次のとおりです。

1)Lundberg&LeeのSHAPアルゴリズムは、Štrumbelj&Kononenkoのゲーム理論的アプローチを拡張したものであり、LIMEと他の多くのローカルな重要度測定を統合していると主張しています。そして

2)WACHTERらの反事実生成的敵対ネットワークに基づく方法。

どちらの方法にも長所と短所があります。SHAPは非常に高速で、使いやすいPython実装が付属しています。ただし、残念ながら、常にポイントをデータの重心と比較します。これは、場合によっては適切なコントラストではない可能性があります。また、LIMEや他の多くのアルゴリズムと同様に、局所線形性を想定(または強制)します。これは、対象のケースが決定境界または回帰曲面の明確に非線形の領域に近い場合に、不安定または情報のない結果をもたらす可能性があります。

Wachterらのソリューションは、この点でより柔軟であり、Lundberg&Leeが「追加機能属性」パラダイムと呼んでいるものからのすっきりした逸脱です。ただし、オープンソースの実装については知りません。GANトレーニングの追加のオーバーヘッドは、一部のデータセットにとっても非常に負担になる場合があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.