科学者は、人工ニューラルネットワークの内部で何が起こっているかを知っていますか?


69

科学者や研究の専門家は、少なくとも数百万の接続が瞬時に発火する複雑な「ディープ」ニューラルネットワークの内部で何が起こっているかを台所から知っていますか?彼らはこの背後にあるプロセスを理解していますか(例えば、内部で何が起こっているのか、どのように正確に機能するのか)、それとも議論の対象ですか?

たとえば、この調査では次のように述べています。

ただしそれらがなぜそれほどうまく機能するの、またはどのように改善されるのかについての明確な理解はありません。

それで、これは科学者が実際に複雑な畳み込みネットワークモデルがどのように機能するかを知らないことを意味するのでしょうか?


なぜ彼らはそんなにうまくやる」-彼らは実際にそれほどうまくいきません。ほとんどの新しいテクノロジーと同様に、障害は過少報告されています。
トマーシュ・ザト

回答:


51

訓練されたニューラルネットワークをより解釈しやすく、「ブラックボックス」のようにならないようにすることを目的とする多くのアプローチがあります。具体的には、前述の畳み込みニューラルネットワークです。

アクティベーションとレイヤーの重みを視覚化する

アクティベーションの視覚化は、最初の明白でわかりやすいものです。ReLUネットワークの場合、通常、アクティベーションは比較的にぎやかで密集しているように見えますが、トレーニングが進むにつれて、アクティベーションは通常より疎になり(ほとんどの値はゼロ)、ローカライズされます。これは、画像を見たときに特定のレイヤーが正確に焦点を合わせていることを示す場合があります。

私が言及したい活性化に関する別の素晴らしい仕事は、プーリング層や正規化層を含む各層のすべてのニューロンの反応を示すディープビスです。彼らがそれをどのように説明するかは次のとおりです。

要するに、ニューロンが学習した機能を「三角測量」できるようにするいくつかの異なる方法を集めました。これは、DNNの仕組みをよりよく理解するのに役立ちます。

2番目の一般的な戦略は、重み(フィルター)を視覚化することです。これらは通常、生のピクセルデータを直接見る最初のCONVレイヤーで最も解釈しやすくなりますが、ネットワーク内でフィルターの重みをより深く表示することもできます。たとえば、最初のレイヤーは通常、基本的にエッジとブロブを検出するガボールのようなフィルターを学習します。

第一層フィルター

閉塞実験

これがアイデアです。ConvNetが画像を犬として分類するとします。背景やその他のさまざまなオブジェクトからの文脈上の手がかりとは対照的に、画像内の犬を実際に拾い上げていることをどのように確認できますか?

分類予測が画像のどの部分に由来するかを調べる1つの方法は、対象クラス(犬のクラスなど)の確率をオクルーダーオブジェクトの位置の関数としてプロットすることです。画像の領域を反復処理し、すべてゼロで置き換えて分類結果を確認すると、特定の画像のネットワークにとって最も重要なものの2次元ヒートマップを作成できます。このアプローチは、Matthew Zeilerの畳み込みネットワークの視覚化と理解(質問で参照)で使用されています。

閉塞実験

デコンボリューション

別のアプローチは、特定のニューロンを発火させる画像を合成することです。これは基本的にニューロンが探しているものです。考え方は、重みに関する通常の勾配の代わりに、画像に関する勾配を計算することです。そのため、レイヤーを選択し、1つのニューロンに1つを除いてグラデーションをすべてゼロに設定し、画像にbackpropします。

Deconvは、実際にはガイド付き逆伝播と呼ばれる処理を実行して、見栄えの良い画像を作成しますが、それは単なる詳細です。

他のニューラルネットワークへの同様のアプローチ

Andrej Karpathyによるこの投稿を強くお勧めします。彼はRecurrent Neural Networks(RNN)で多くの役割を果たしています。最後に、彼は同様の手法を適用して、ニューロンが実際に学習することを確認します。

この画像で強調表示されているニューロンは、URLに非常に興奮しており、URL以外ではオフになっているようです。LSTMはこのニューロンを使用して、URL内にあるかどうかを記憶している可能性があります。

結論

この研究分野での結果のほんの一部に言及しました。それはかなり活発で、ニューラルネットワークの内部の仕組みに光を当てる新しい方法が毎年登場します。

あなたの質問に答えるには、科学者がまだ知らないことは常にありますが、多くの場合、彼らは内部で起こっていることの良い絵(文学)を持ち、多くの特定の質問に答えることができます。

あなたの質問からの引用は、精度の向上だけでなく、ネットワークの内部構造の研究の重要性を強調しているだけです。Matt Zielerがこの講演で述べているように、優れた視覚化により、精度が向上する場合があります。


視覚化は知っていますか?または、それは無知に対する単なる流行の解決策ですか?おそらく、数学の開発は、厳密さと充足性が最も欠けている領域です。
-FauChristian

1
@FauChristianあなたはここでポイントを逃しています。ニューラルネットワーク内の重みとすべての数学演算は、アセンブリコードのように正確に知られています。これは論外です。視覚化することで特定の操作が行われている理由を理解しパフォーマンスを向上させることができます。繰り返しますが、古典的なコンピューターサイエンスアルゴリズムと同じです。その上、答えで言及されているZielerによる論文を読むことをお勧めします。
マキシム

1
学部生として勉強していたので、私はそれらの点を見逃していませんでした。私はコメントで怠けていた。カーネルを表すb&wグリッドは、波状のエッジ検出カーネル状態のややカオスなマトリックスを示し、カオスを把握してそれを把握する必要があることを示す点でのみ興味深いものです。サイズ分布、角度分布、スキュー分布は何ですか?これらの分布は、(a)特定のデータセットに固有の過剰適合、または(b)より高い計算効率で機能ブロックに置き換えることができる一般的なパターンを示していますか。~~一度ビジュアルから判断できません。
-FauChristian

1
右、これらすべての分布(および他の多くの分布)はここでは計算されません。計算できない、または計算すべきではないという意味ではありません。また、モデルの解釈が視覚化とは無関係であることも意味しません。著者がこれについて詳細に議論しているZieler alによる「畳み込みネットワークの視覚化と理解」を読むことをもう一度お勧めします。
マキシム

ラボにあります。私の同僚は、いくつかのコード例を実行しました。統計の側面から見てみましょう。どうも。
-FauChristian

27

「何が起こっているかを知る」という意味に依存します。

概念的には、はい:ANNは非線形回帰を実行します。ANNの重み行列/アクティベーション関数によって表される実際の式は、シンボリック形式で明示的に展開できます(たとえば、などの部分式を含む)。1/1+e1/1+e

ただし、特定の(ブラックボックス)ANNの出力を他の手段で予測することを意味する場合、障害は高い自由度を持つANNのカオスの存在です。

また、視覚化による ANNの理解に関するHod Lipsonの比較的最近の研究もいくつかあり ます。


13

短い答えはノーです。

モデルの解釈可能性は、現在の研究の非常に活発で過熱した分野です(聖杯などを考えてください)。これは、特にさまざまなタスクでのディープラーニングモデルの(大規模な)成功によって最近もたらされました。これらのモデルは現在ブラックボックスのみであり、私たちは自然にそれを不快に感じています...

以下は、このテーマに関する一般的な(そして2017年12月現在の)リソースです。

そして、より実用的なレベル(コードなど)で:

最近、ディープラーニングニューラルネットのより理論的な基礎の構築を開始することに関心が寄せられています。これに関連して、著名な統計学者および圧縮センシングの先駆者であるデビッド・ドノホはごく最近(2017年秋)、スタンフォード大学で深層学習の理論(STATS 385)のコースの提供を開始しました。強くお勧めします...

更新


こんにちは。これは良い答えのようですが、それを整理して少し整理する必要があります。最初のリソースは、最も有用で一般的なものでなければなりません。その後、より具体的なリソースと研究論文、IMHOをリストできます。そして、後でTwitterスレッドなどをリストできます。
nbro


8

特定の引用が手に入らないのではないかと思いますが、Andrew NgやGeoffrey Hintonのような専門家による引用を見て、聞いたことがあります。つまり、それらがどのように機能するのを理解しています(たとえば、逆伝播の背後にある数学)が、なぜ機能するのは実際にはわかりません。それはちょっとした区別ですが、重要なのは、いや、たくさんの重りから、ボールで遊んでいる猫を認識するまでの正確な道のりの非常に深い詳細を理解していないということです。

少なくとも画像認識に関して言えば、私が聞いた最高の説明は、ニューラルネットワークの連続した層が、以前のレベルのよりきめ細かい特徴で構成される、より洗練された特徴を学習するということです。つまり、最初のレイヤーは「エッジ」または「直線」を認識する場合があります。次のレイヤーは「ボックス」や「トライアングル」などの幾何学的形状を学習し、上位のレイヤーはそれらの以前の機能に基づいて「鼻」または「目」を学習し、それから上位のレイヤーは「顔」を学習します「目」、「鼻」、「顎」などからアップします。しかし、それでも、私が理解しているように、それでも仮説であり、完全に詳細に理解されていません。


2
実際の引用を読みたいと思います。最も広い概念レベルでの理由は、「それらは回帰問題のエラーを減らすように訓練されたユニバーサル関数近似器です」。
NietzscheanAI

それらを追跡できるかどうかを確認します。私が考えているGeoffrey Hintonからの引用は、ビデオにあると確信しています。彼のCourseraクラスまたは彼がYoutubeで取り上げているビデオからです。見つかったら、回答を編集してリンクします。
mindcrime16年

私は忘れていません。少し暇なときに探してみます。私が考えているものの少なくとも1つは、コースラコースの一部であるビデオからのものだったと思います。
マインドクライム

この研究は、同じ参考文献を掲載するのに役立ちます。「しかし、それらがなぜそれほどうまく機能するのか、どのように改善されるのかについての明確な理解はありません」。
ケノーブ

4

以下は、深層学習の背後にある理論とは何かという質問に対するCarlos E. Perezによる回答です。

[...]

ディープラーニングの基礎となる数学は数十年にわたって存在していましたが、今日見られる印象的な結果は、ハードウェアの高速化、データの増加、メソッドの漸進的な改善の結果です。

ディープラーニングは一般に、目的がモデルエラーの関数である最適化問題として組み立てることができます。この最適化問題は、モデルのパラメータ空間(ニューラルネットワークの重み)が非常に高次元の問題につながることを考えると、解決するのが非常に困難です。最適化アルゴリズムは、この領域を探索するのに非常に長い時間がかかる可能性があります。さらに、問題は非凸であり、計算は永久に極小にとどまるという未検証の信念がありました。

[...]

機械が実際にアトラクタに収束する、つまり言い換えると複雑なパターンの認識を学習する理由の理論はまだ不明です。

要約すると、いくつかのアイデアがありますが、私たちはよくわかりません。


3

科学者は、人工ニューラルネットワークの内部で何が起こっているかを知っていますか?

はい

科学者や研究の専門家は、少なくとも数百万の接続が瞬時に発火する複雑な「ディープ」ニューラルネットワークの内部で何が起こっているかを台所から知っていますか?

「キッチンから知る」とは「詳細に知る」ということですか?

一連のアナロジーを挙げましょう。

  1. 飛行機のエンジニアは、キッチンで飛行機の中で何が起こるか知っていますか?
  2. チップ設計者は、設計したチップで何が起こるかを詳細に知っていますか?
  3. 土木技師は、彼が建設した家に関するすべてを知っていますか?

悪魔は詳細にありますが、ここで重要な点は、人工構造物に関することです。それらはランダムに表示されません。有用なものを得るには多くの知識が必要です。ニューラルネットワークの場合、重要なアイデア(Rosenblatt perceptron、1957)の公開から最初のアプリケーション(US Postal Service、1989)に約40年かかりました。そこから再び、13年にわたる実に印象的なシステムへの積極的な研究が行われました(ImageNet 2012)。

私たちが非常によく知っているのは、トレーニングの仕組みです。実装する必要があるからです。そのため、非常に小さな構造では、詳細に把握しています。

コンピューターについて考えてください。チップ設計者は、チップの動作方法をよく知っています。しかし、彼らはLinuxオペレーティングシステムがどのように機能するかについて非常に大まかな考えしか持たないでしょう。

別の例は物理学と化学です:物理学は宇宙の中核的な力を説明します。それは彼らが化学についてもすべて知っているということですか?地獄いや!「完璧な」物理学者は、化学のすべてを説明できますが、ほとんど役に立たないでしょう。彼はもっと多くの情報を必要とし、無関係な部分をスキップすることはできません。単に彼が「ズームイン」しすぎたためです-実際には面白くも重要でもない詳細を考慮します。物理学者の知識は間違っていないことに注意してください。たぶん、それから化学者から知識を推測することさえできます。しかし、分子相互作用のこの「高レベル」理解は欠落しています。

これら2つの例から得られる重要な洞察は、抽象化レイヤーです単純な構造から複雑さを構築できます。

ほかに何か?

私たちは、設計したニューラルネットワークで原則として何が達成できるかをよく知っています

  • Goをプレイするために設計されたニューラルネットワークは、どんなに洗練されていても、チェスをプレイすることさえできません。もちろん、その周りに別の抽象化レイヤーを追加し、物事を組み合わせることができます。しかし、このアプローチには人間が必要です。
  • 犬と猫を区別するために設計されたニューラルネットワークは、パドルとペルシャ猫だけを見たことがあり、ヨークシャーテリアを決定する必要がある場合、非常にパフォーマンスが低下します。

ああ、もちろん、ニューラルネットワークの分析的アプローチもあります。畳み込みニューラルネットワークアーキテクチャの分析と最適化に関する修士論文を執筆しました。このコンテキストでは、LIME(Local Interpretable Model-Agnostic Explanations)が便利です。

ここに画像の説明を入力してください


1
それらのほとんどは生物学的モデルの影響を受けます。だから科学者が問題の関数としてNNを構築したと言うのは信じがたいです...特に誰も特定のアーキテクチャや特定のハイパーパラメータのセットがうまく機能する理由がわからないとき与えられた問題...私は正確なハイパー話ではないのですが、どれも..だから(問題が明確に定義されている)おおよそのハイパーは、与えられた問題のために働くかもしれないものの一般的な意味を持っているように見えるん何の科学者が内部の何が起こっているか知っていませんNN。
DuttaA

初期の自動車/航空機エンジニアを考えてください。彼らは彼らの形が空力的ではなかったので、彼らがそれらを構築しなかったので、彼らは彼らの航空機/自動車の内部で何が起こっているのか知らないと言うでしょうか?
マーティントーマ

1
技術の不足のために何かを知らないOFC ... ...はtheoretically..Iを知らないとは別のものですここcase..While飛行機で、それは技術だったと信じて、私たちはmathematically..Soは技術を忘れて処理することができません
DuttaA

1

私は何かを追加したかっただけです:

それはあなたが科学者によって何を意味するかに依存します:

私は電気工学の博士課程の学生であり、回帰、予測制御、適応制御、分類の問題など、ANNで非常に多くの研究者が働いているのを見ました。

あなたがスキルをコーディングでの不足が大きな欠点であることに気づく明確にすることができ、そして、彼らは実際にはかなり今私も話ではない、ANN内で何が起こっているか理解していないディープ、彼らはADALINEsとANFISのような単純なものを理解闘争します!あなたが彼らが言うのを聞くことはすべてです:データを与えてください、そして、それは適応します!


1
おそらく概念的には正しいかもしれませんが、答えを書き直して、つまらないティラードではなく社会学的な観察として理解すれば、いくつかの票を得て、おそらく建設的な助けになるでしょう。
-FauChristian
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.