ディープラーニングモデルは現在、解釈可能であるとは言えませんか?ノードは機能していますか?


27

統計および機械学習モデルには、複数のレベルの解釈可能性があります:1)アルゴリズム全体、2)アルゴリズムの一般的な部分3)特定の入力のアルゴリズムの部分、およびこれらの3つのレベルはそれぞれ2つの部分に分かれています1つはトレーニング用、もう1つは機能評価用です。最後の2つの部分は、最初の部分よりもはるかに近いです。私は#2について尋ねていますが、これは通常#3のより良い理解につながります)。(それらが「解釈可能性」を意味するものでない場合、私は何を考えるべきですか?)

解釈可能性に関する限り、ロジスティック回帰は最も簡単に解釈できるものの1つです。このインスタンスがしきい値を超えたのはなぜですか?そのインスタンスにはこの特定のポジティブな特徴があり、モデル内の係数が大きいためです。それはとても明白です!

ニューラルネットワークは、解釈が難しいモデルの典型的な例です。これらの係数はすべてどういう意味ですか?それらはすべて非常に複雑でクレイジーな方法で加算されるため、特定の係数が実際に何をしているのかを言うのは困難です。

しかし、すべてのディープニューラルネットが出てきているので、物事がより明確になっているように感じます。DLモデル(ビジョンなど)は、初期のレイヤーでエッジや向きなどをキャプチャしているように見え、後のレイヤーでは、いくつかのノードが実際にセマンティックであるようです(ことわざの「祖母セル」)。例えば:

ここに画像の説明を入力してください

「ディープラーニングについての学習」から

これは、プレゼンテーション用に手作業で作成されたグラフィックです(多くの場合)しかし、それが誰かがそれがどのように機能するかを考える証拠です。

過去には、認識可能な機能を見つけるのに十分なレイヤーがなかったかもしれません。モデルは成功しましたが、特定のモデルを事後的に分析するのは簡単ではありませんでした。

しかし、グラフィックは希望的観測に過ぎないかもしれません。おそらくNNは本当に不可解です。

しかし、ノードに画像のラベルが付いた多くのグラフィックスも非常に魅力的です。

DLノードは本当に機能に対応していますか?


6
この質問の前提がわかりません。ニューラルネットがより複雑になり、より良い予測ができるようになったからといって、それらが解釈可能になるわけではありません。通常、逆のことが当てはまります。複雑さ/予測の改善<->シンプルさ/解釈の改善。
AdamO

4
@AdamOは正確です。そのため、結果が間違っているため、回帰ツリー(再帰的分割)は解釈できませ。それらは揮発性であるため、間違っています。新しいサンプルを取得すると、ツリーは任意に異なる場合があります。そして、単一のツリーは、予測差別に関して競争力がありません。節約は、多くの場合、予測差別の敵です。また、生物医学の分野では、AI / MLの結果は解釈可能ではありませんでした。
フランクハレル

1
この記事を参照してください。AIの研究者は、機械学習は錬金術であると主張 sciencemag.org/news/2018/05/...を
マイク・ハンター

4
本文の大胆な質問とタイトルの質問は大きく異なります。私を含むすべての答えがタイトルの質問に対処しているようです。おそらく、独自のスレッドのノードと機能に関するより狭い質問をすることができますか?しかし、それを行う前に、あなたはすでに肯定的なあなたの大胆な質問に答える論文にリンクしていることを考えてください。
Sycoraxは、Reinstate Monicaを

@Sycorax追加したばかりのリンクは、論文ではなくブログの投稿です。そのため、私は肯定的な見方に非常に懐疑的です。タイトルでDLについて尋ねる解釈の多様性は、本文では太字であると考えています。
ミッチ

回答:


30

深層モデルの解釈は依然として困難です。

  1. 投稿ではコンピュータービジョンアプリケーション用のCNNのみに言及していますが、(ディープまたはシャロー)フィードフォワードネットワークとリカレントネットワークの理解は依然として困難です。

  2. エッジやピクセルパッチの方向など、明らかな「機能検出器」構造を持つCNNの場合でも、これらの低レベルの機能がどのように上方に集約されるか、またはこれらの視覚機能が正確に何を行っているかは完全には明らかではありません完全に接続されたレイヤーに集約されます。

  3. 敵対的な例は、ネットワークの解釈がいかに難しいかを示しています。敵対的な例では、わずかな変更が加えられていますが、モデルによる決定に劇的な変化が生じます。画像分類のコンテキストでは、画像に追加されたわずかなノイズがトカゲの画像を変更し、犬などの別の動物として非常に自信を持って分類できるようになります。

これは、(小さな)量のノイズと分類決定の(大きな)シフトとの間に強い予測不可能な関係があるという意味での解釈可能性に関連しています。これらのネットワークがどのように動作するかを考えると、いくつかの意味があります。以前のレイヤーでの計算は前方に伝播され、その結果、多くのエラー(人間にとっては小さくて重要ではないエラー)が拡大され、より多くの計算が実行されるにつれて蓄積されます「破損した」入力。

一方、敵対的な例の存在は、特定の機能またはクラスとしてのノードの解釈が難しいことを示しています。ノードがアクティブになっているという事実は、元の画像の実際の内容とはほとんど関係がないためです。この関係は、元の画像に関しては実際には予測できません。しかし、以下の画像例では、画像の内容についてだまされてはいません。犬の旗竿を混同しないでください。これらの決定を、全体(小さなノイズパターンがトカゲを犬に「変換」するか、旗竿を犬に「変換」する)か、小さな断片(いくつかの特徴検出器が実際の画像よりもノイズパターンに敏感であること)をどのように解釈できますか?コンテンツ)?

HAAMは、調和関数を使用して敵の画像を生成する有望な新しい方法です。(「調和のとれた攻撃方法」Wen Heng、Shuchang Zhou、Tingting Jiang。)この方法を使用して生成された画像は、照明/影の効果をエミュレートするために使用できます。

例として、Seyed-Mohsen Moosavi-Dezfooli、Alhussein Fawzi、Omar Fawzi、およびPascal Frossardによる「普遍的な敵対的摂動」から取られたこの画像を参照してください。私が出会った最初の敵対的イメージの1つだったという理由だけで、このイメージを選びました。この画像は、特定のノイズパターンが画像分類の決定に奇妙な影響を与えていること、具体的には入力画像に小さな変更を加えて、分類器に結果が犬であると思わせることを確立します。根底にある元の画像は依然として明らかであることに注意してください。すべての場合において、人間は、犬以外の画像が犬であると考えることに混乱することはありません。 敵対者

これは、より正統な論文からの2番目の例、「Ian J. Goodfellow、Jonathon Shlens、Christian Szegedyによる「EXPLAINING AND HARNESSING ADVERSARIAL Examples」」です。追加されたノイズは、結果の画像では完全に区別できませんが、結果は非常に自信を持って間違った結果、パンダではなくテナガザルとして分類されます。この場合、少なくともテナガザルとパンダは少なくとも広義の生物学的および審美的に類似しているため、少なくとも2つのクラス間にはかなりの類似性があります。 パンダ

この3番目の例は、JoãoMonteiro、Zahid Akhtar、およびTiago H. Falkによる「バイモデル決定の不一致に基づく一般化可能な敵対者の検出」から取られています。ノイズパターンは人間と見分けがつかないが、依然として分類器を混乱させる可能性があることを確立します。区別できない

参考までに、マッドピーピーは4本の手足と尾を持つ暗い色の動物なので、実際には金魚とあまり似ていません。 泥子犬

  1. 今日この論文を見つけました。クリスチャン・セゲディ、ヴォイチェフ・ザレンバ、イリヤ・サツケバー、ジョアン・ブルーナ、ドゥミトル・エルハン、イアン・グッドフェロー、ロブ・ファーガス。「ニューラルネットワークの興味深い特性」。要約には、この興味深い引用が含まれています。

まず、ユニット分析のさまざまな方法に従って、個々の高レベルユニットと高レベルユニットのランダムな線形結合との間に区別がないことがわかります。ニューラルネットワークの上位層にセマンティック情報が含まれているのは、個々のユニットではなくスペースであることが示唆されています。

そのため、ノードは、より高いレベルで「機能検出器」を使用するのではなく、ネットワークがデータをモデル化するために使用する機能空間の座標を単に表します。


2
良い点。しかし、最も単純なモデル(ロジスティック、決定木)でさえ、特定の係数/ threshildがそれが何であるかがはっきりしないことに注意してください(しかし、それは私が尋ねていたのと同じ解釈性ではありません)。まったく無関係ではありませんが、言語/ RNN / LSTMの優れた敵対的研究/例はありますか?
ミッチ

7
また、ロジスティック回帰などの単純なモデルでさえ、敵対攻撃に対して脆弱であることを指摘します。実際、Goodfellow et。等 そのような攻撃に抵抗する能力を欠いているのは浅いモデルであると指摘しています。それでも、ロジスティック回帰を解釈できると主張しています。
shimao

2
良い答えですが、ポイント3は2つの理由で意味がありません。1)敵の画像が「人間にとって、修正されていない画像と見分けがつかない」というのは、その人間が深刻な視覚障害を持たない限り、めったにありません。ほとんどの場合、特に背景では、画像にノイズパターンが追加されていることに気付くことができます。これは、見た目はいわゆるJPEGノイズに似ています(視覚的にのみ:摂動の実際の統計特性は異なります)。驚くべきことは、分類器が、たとえば、破損した1ではなく、
正真正銘

2
2 /画像ですが、それがバスであることはほぼ確実です。2)敵対的な例は、解釈可能性にどのように関連していますか?線形モデル、一般化線形モデル、および決定木は、敵対的な例の影響を受けやすい。実際、ResNetをだますものよりも、ロジスティック回帰をだます敵対的な例を見つける方が簡単です。それにもかかわらず、通常、(G)LMは解釈可能なモデルであると考えているため、敵対的な例の存在をモデルの解釈可能性と関連付けることはしません。
DeltaIV

3
@DeltaIVのポイントは、ノイズに気付かないということではありません。劣化しすぎたすべてのjpegにはノイズがあります。要点は、DNNにクレイジーなことをさせるためにノイズを操作できるということです。これは、ノイズ自体が見えても、人間の観察者にとって意味のないことです。
香港大井

13

レイヤーは、私たちが望むほどきれいに連続してより抽象的な機能にマップしません。これを確認する良い方法は、2つの非常に一般的なアーキテクチャを比較することです。

VGG16は、非常に伝統的なアーキテクチャである、たまにプールレイヤーが重ねられた多くの畳み込みレイヤーで構成されています。

それ以来、人々は残りのアーキテクチャの設計に移り、各レイヤーは前のレイヤーだけでなく、モデルのさらに下の1つ(またはそれ以上)のレイヤーにも接続されます。ResNetはこれを行う最初の会社の 1つで、使用するバリアントに応じて約100のレイヤーがあります。

VGG16および同様のネットワークには、多少解釈可能な方法でレイヤーが動作しますが、より高いレベルの機能を学習しますが、ResNetsはこれを行いません。代わりに、人々は、より正確にするために機能を改良し続けるまたは、偽装された浅いネットワークの束であるかのいずれかを提案しました。

ResNetおよび類似のアーキテクチャは、画像分類およびオブジェクト検出においてVGGよりも優れていますが、VGGの単純なボトムアップ機能階層が非常に重要であるアプリケーションがあるようです。良い議論についてはこちらをご覧ください。

ですから、より現代的なアーキテクチャはもはやこの図には収まらないように思えるので、CNNがまだ解釈可能であるとは言えないと言えます。


おそらく、DLネットワークの完全に設計/設計されていないトポロジは、大きなランダムな部分順序セットであり、センサーを入力し、目的の機能を出力します(つまり、階層化をまったく試みず、トレーニングで把握します)。ここのノードは非常にわかりにくいでしょう。しかし、そのようなことは、より設計されたトポロジほど、ある程度の解釈可能性があることを意味しませんか?
ミッチ

3
@Mitch Densenetなどの最近のいくつかのアーキテクチャは、すべてのレイヤーを他のすべてのレイヤーに接続するという制限に向かってゆっくりと忍び寄っているようです。これは、「設計されていないネットワーク」のようです。しかし、確かに、ResNetとDensenetはVGG16よりも洗練されたデザインを持っていますが、解釈しにくいと言うことができます。したがって、デザインが多いほど解釈しやすいとは思いません。可能性のある、より疎な接続は、より解釈しやすいことを意味します。
シマオ

7

私の博士論文の主題は、1つまたは2つの隠れ層を持つニューラルネットワーク、特にフィードフォワードニューラルネットワークのブラックボックスプロパティを明らかにすることでした。

1層のフィードフォワードニューラルネットワークで、重みとバイアスの用語が何を意味するのかを全員に説明するという課題に取り組みます。パラメトリックな観点と確率論的な観点の2つの異なる観点に対処します。

xinput=αx+βαβxinput(0,1)

  • 01
  • vv7

入力レイヤーの重みの(絶対値)サイズを解釈できるようにするには、入力データのこのような表現が必要です。

パラメータの意味:

  • 0
  • 隠れノードから出力ノードへの重みは、絶対的な意味での入力変数の重み付き増幅が、その隠れニューロンによって最も増幅され、特定の出力ノードを促進または減衰させることを示します。重みの記号は、促進(正)または阻害(負)を示します。
  • 132
  • β

1iltsil1Δj,k=∣wi,jwi,kijk

より重要な隠れノードは、出力ノード(トレーニングセットでの周波数での会話)の場合で、どの「入力重みと入力周波数」が最も重要ですか?次に、フィードフォワードニューラルネットワークのパラメーターの重要性について説明します。

確率的解釈:

xinput

個別ケース-パターン

xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]、または他の平日)、および最も可能性の高い結果の変化、その列挙変数は分類の結果に潜在的な影響を及ぼします。

xinputxinputE(xinputxinput)xinputxinput

深い学習-およびNNパラメーターの意味

コンピュータービジョンに適用すると、ニューラルネットワークは過去10年間で著しい進歩を見せています。1989年にLeCunnによって導入された畳み込みニューラルネットワークは、最終的に画像認識の観点から非常に優れたパフォーマンスを発揮することが判明しました。彼らは他のほとんどのコンピューターベースの認識アプローチよりも優れていることが報告されています。

畳み込みニューラルネットワークがオブジェクト認識のためにトレーニングされている場合、興味深い出現プロパティが表示されます。非表示ノードの最初の層は、スケール空間演算子T. Lindeberg、自動スケール選択によるフィーチャ検出、1998年と同様に、低レベルのフィーチャ検出器を表します。これらのスケールスペース演算子は

  • 行、
  • コーナー、
  • Tジャンクション

その他の基本的な画像機能。

さらに興味深いのは、哺乳類の脳の知覚ニューロンが、(生物学的)画像処理の最初のステップで働くこの方法に似ていることが示されているという事実です。そのため、CNNを使用して、科学界は、人間の知覚を非常に驚異的なものにしているものに迫っています。これにより、この一連の研究をさらに進めることは非常に価値があります。


これは興味深いです-相関する特徴の場合、多くの解釈可能性を提供するように聞こえませんか?
khol

予想される値E(。)は、条件付き分布の平均としても知られており、x_inputが与えられた場合はx_-input、他のすべての変数は与えられます。したがって、相関関係はこの予想される影響の概念に完全に組み込まれています。確率的独立性は「相関」よりも広い定義を持っていることに注意してください-後者は主にガウス分布データに対して定義されています。
マッチメーカーEE

いいね この種のロジスティック回帰の解釈は、積み重なった回帰モデルのセットへの一般化であり、次々にフィードされますか?
ミッチ

隠れノードのサブセットは、出力ニューロンの論理「OR」として、または論理「AND」のように機能できます。ORは、1つの非表示ノードのアクティブ化で出力ニューロンが1に近づくのに十分な場合に発生します。また、非表示ノードのアクティブ化の合計によってのみ出力ノードのアクティブ化が1に近くなる場合に発生します。 AND」は、出力ノードへの「ファンイン」の訓練された重みベクトルに依存します。
マッチメーカーEE
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.