機械学習アルゴリズムが説明可能性と予測の間の適切なトレードオフとして受け入れられている場合、それはどれですか。


9

グラディエントブースティングマシンやニューラルネットワークなどのアルゴリズムを説明する機械学習テキストでは、これらのモデルは予測に優れているとコメントすることがよくありますが、これは説明可能性または解釈可能性の損失を伴います。逆に、単一の決定木と古典的な回帰モデルは説明が得意であるというラベルが付けられていますが、ランダムフォレストやSVMなどのより洗練されたモデルと比較して、予測精度が(比較的)低くなっています。2つの間の適切なトレードオフを表すものとして一般に受け入れられている機械学習モデルはありますか?説明可能なアルゴリズムの特性を列挙した文献はありますか?(この質問は以前に相互検証で尋ねられました)

回答:


3

説明可能なアルゴリズムの特性を列挙した文献はありますか?

私が知っている唯一の文献は、リベロ、シン、ゲストリンの最近の論文です。まず、単一の予測の説明可能性を定義します。

「予測を説明する」とは、インスタンスのコンポーネント(テキスト内の単語、画像内のパッチなど)とモデルの予測との関係を定性的に理解できるテキストまたは視覚的なアーティファクトを提示することを意味します。

著者は、これがより具体的な例に何を意味するかについてさらに詳しく説明し、この概念を使用してモデルの説明可能性を定義します。彼らの目的は、既存の方法の説明可能性を比較するのではなく、いわば不透明なモデルに人工的に説明可能性を人工的に追加することです。「説明可能性」の概念についてより正確な用語を紹介しようとするので、この論文はとにかく役立つかもしれません。

2つの間の適切なトレードオフを表すものとして一般に受け入れられている機械学習モデルはありますか?

@Winterに同意します(ロジスティック回帰だけでなく)回帰のElastic-netは、予測精度と説明可能性の間の適切な妥協の例と見なされる場合があります。

別の種類のアプリケーションドメイン(時系列)では、別のクラスのメソッド(ベイズ構造時系列モデリング)も適切な妥協点を提供します。これは、古典的な構造的時系列モデリングから説明可能性を継承し、ベイジアンアプローチからある程度の柔軟性を継承します。ロジスティック回帰と同様に、説明可能性はモデリングに使用される回帰方程式によって助けられます。マーケティングやその他の参考資料での素晴らしいアプリケーションについては、このペーパーを参照してください。

今述べたベイジアンコンテキストに関連して、確率的グラフィカルモデルを確認することもできます。彼らの説明可能性は回帰方程式に依存せず、モデリングのグラフィカルな方法に依存しています。概要については、KollerとFriedmanによる「確率的グラフィカルモデル:原則と手法」を参照してください。

上記のベイジアン手法を「一般的に受け入れられている適切なトレードオフ」と呼ぶことができるかどうかはわかりません。それらは、特に弾性ネットの例と比較して、そのことについて十分に知られていない場合があります。


リベイロらによるリンクされた論文を検討する機会が増えたので、セクション2の「説明のケース」には「説明可能性」の有用な定義が含まれており、その重要性を概説するきちんとした仕事は、データサイエンスコミュニティ内で広く読まれるべきです。
Robert de Graaf 2016年

私の質問の前提はCVでは受け入れられませんでしたが、@ SeanEasterがこの便利なリンクを助けてくれました。jstage.jst.go.jp/ article
Robert de Graaf

3

2つの間の適切なトレードオフを表すものとして一般に受け入れられている機械学習モデルはありますか?

私がでていることを前提と予測が得意であること、あなたがオーバーフィッティングにかなり堅牢でありながら、データに存在する非線形性に合うことができることを意味します。解釈可能性とそれらの非線形性を予測できることの間のトレードオフは、データと求められる質問によって異なります。データサイエンスには無料のランチはなく、単一のアルゴリズムがどのデータセットにも最適であると見なすことはできません(同じことが解釈可能性にも当てはまります)。

一般的なルールは、特定のニーズに簡単に適応できるため、アルゴリズムが多ければ多いほど、それが適切であることです。

ビジネス環境でよく使用する分類タスクにお気に入りを選択する必要がある場合は、ロジスティック回帰にElastic-netを選択しますます。データを生成するプロセスに関する強い想定にもかかわらず、基本的なロジスティック回帰からの解釈可能性を維持する正則化用語のおかげで、データに簡単に採用できます。

説明可能なアルゴリズムの特性を列挙した文献はありますか?

一般的に使用される機械学習アルゴリズムと、さまざまなシナリオでの長所と短所を説明したよく書かれた本を選ぶことをお勧めします。そのような本の例は、T。Hastie、R。Tibshirani、J。Friedman によるThe Elements of Statistical Learningです


3
TBHそれはその正確なテキストへの私の欲求不満でした-異なるモデルに関連して「解釈可能」という言葉を何度も使用し、ある段階で「...データマイニングアプリケーションには解釈可能なモデルが必要です」と述べています。解釈可能なモデルを特定する方法に関する資料を見つけることができずに、単に予測を生成するだけでは十分ではありません(セクション10.7)。私はそのような非常に評価されたテキストに批判的になるのを嫌がっていました。同様にLASSOを紹介するTIbshiraniの論文では、「解釈可能」が何であるかは言うまでもなく、その利点の1つとして「解釈可能」が挙げられています。
Robert de Graaf 2016年

1

おそらく、アンサンブルの不合理な有効性、および説明と予測のトレードオフに関する私の回答を参照しください。最小メッセージ長(MML、Wallace 2005)は、データ圧縮に関する説明の正式な定義を提供し、説明は一般に過剰適合せずに適合し、適切な説明は適切で一般化可能な予測を生成するという期待を動機付けます。しかし、それはまた、アンサンブルがよりよく予測する形式理論に触れます-結果は(Solomonoff 1964)に戻る最適な予測と完全なベイジアンアプローチに固有の結果:事後分布を統合し、平均を選択するだけでなく、中央値、またはモード。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.