ニューラルネットワーク-重みの意味


11

フィードフォワードNNを使用しています。コンセプトは理解していますが、重みについての質問です。それらをどのように解釈できますか、つまり、それらが何を表しているのか、またはそれらがどのように理解されていないのか(関数係数のみであるため)?「重みのスペース」と呼ばれるものを見つけましたが、それが何を意味するのかよくわかりません。


回答:


6

個々の重みは、ユニット間の接続の強さを表します。ユニットAからユニットBへの重みが大きい場合(他のすべてが等しい場合)は、AがBに大きな影響を与える(つまり、Bのアクティベーションレベルを増減する)ことを意味します。

ユニットへの一連の入力ウェイトは、そのユニットが「気にする」ことを測定するものと考えることもできます。これは、最初のレイヤーで最も簡単に確認できます。画像処理ネットワークがあるとします。初期のユニットは、入力ピクセルから加重接続を受け取ります。各ユニットのアクティブ化は、アクティブ化関数を通過したピクセル強度値の重み付き合計です。アクティベーション関数は単調であるため、入力ピクセルがそのユニットの着信重みに類似している場合(大きな内積を持つという意味で)、特定のユニットのアクティベーションは高くなります。したがって、重みは、画像の特徴を定義するフィルター係数のセットと考えることができます。(フィードフォワードネットワークの)上位層のユニットの場合、入力はピクセルからではなく、下位層のユニットからのものです。したがって、入力される重みは「

元のソースについてはわかりませんが、「ウェイトスペース」について話している場合は、ネットワーク内のすべてのウェイトのすべての可能な値のセットを参照しています。


上記の回答を参照して、「与えられたユニットのアクティブ化は、入力ピクセルがそのユニットの着信重みに類似している場合に大きくなります(大きなドット積を持っているという意味で)」、これについて詳しく説明してください。入力が入力と非表示ユニット間の重みに類似している場合、それは非表示ユニットのアクティブ化が高くなることを意味しますか?
Ironluca 2017年

1
これは、入力と非表示ユニットの重みの間の内積が大きいほど、非表示ユニットのアクティブ化が大きくなることを意味します。ドット積は類似性の相対的な尺度と考えることができます。2つのベクトルおよび(同じノルムを持つ)を3番目のベクトルと比較したいとします。、より類似しているより場合との間の角度という意味で、および間よりも小さいおよび。それは規範に依存するので、私は相対的と言います。en.wikipedia.org/wiki/Cosine_distanceを参照してください。x 2x1x2yx1yx2x1y>x2yx1yx2y
user20160 2017

6

まあ、それはネットワークアーキテクチャと特定のレイヤーに依存します。一般にNNは解釈可能ではありませんが、これは商用データ分析(モデルから実用的な洞察を明らかにすることが目標である場合)の主な欠点です。

しかし、私は畳み込みネットワークが大好きです。それらの上位層は非常に抽象的な概念を学習しますが、転移学習と分類に使用できますが、簡単に理解することはできませんでしたが、それらの下位層はガボールフィルターを生データから直接学習します(したがって、そのようなフィルターとして解釈可能です)。Le Cunの講義の例を見てみましょう。

ここに画像の説明を入力してください

さらに、M。Zeiler(pdf)と他の多くの研究者は、convnetを「理解」し、有用な「デコンボリューショナルネットワーク」と呼ばれる有用な何かを確実に学習する非常に独創的な方法を発明しました。ニューロンは最大の活性化を持っていました。これにより、次のような素晴らしいイントロスペクションが得られます(以下にいくつかのレイヤーを示します)。

M.Zeilerによる畳み込みネットワークの内省

左側の灰色の画像は、右側のカラー写真によるニューロンの活性化(強度が高いほど、活性化が大きい)です。これらのアクティベーションは実際の写真の骨格表現であることがわかります。つまり、アクティベーションはランダムではありません。したがって、私たちのconvnetが実際に役立つものを学び、目に見えない写真でまともな一般化をすることを私たちは確信しています。


1

解釈のしすぎないモデルに頑張っていると思います。ニューラルネットワーク(NN)は、より優れたパフォーマンスを提供するブラックボックスモデルの1つですが、内部で何が起こっているのかを理解することは困難です。さらに、NNの内部に数千、さらには数百万の重みを持つことが非常に可能です。

NNは非常に大きな非線形非凸関数で、大量の極小値を持つ可能性があります。開始点が異なる複数回トレーニングすると、重みが異なります。内部の重みを視覚化するいくつかの方法を考え出すことができますが、あまり多くの洞察は得られません。

これは、MNISTデータのNN視覚化の1つの例です。右上の図(下に再現)は、重みを適用した後の変換された特徴を示しています。

ここに画像の説明を入力してください


-1

単純な重みは確率です。

接続が正解または不正解を返す可能性。多層ネットでの誤った結果でさえも役立つ可能性があります。何かがそうではないことを伝える..


誰が私に反対票を投じたか好奇心が強い、ニューラルネットは統計に起源があります。あなたの歴史を学ぶ..
user3800527

2
私は反対票を投じなかったが、正直なところ答えはあまり役に立たないようだ。はい、一部のネットワークアーキテクチャ(ボルツマンマシンやホップフィールドネットワークなど)は統計力学に着想を得ていますが、「何らかのイベントの相対頻度を制限する」という意味では、重みは確率ではありません。重みは負または1より大きい場合もありますが、確率はそうではありません。
nikie

ここで、サインは答え、数字の確率を反映しています。
user3800527

これは、学ぶべき限られたアーキテクチャとトレーニングラベルタイプにのみ当てはまります。
エミール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.