3文バージョン:
各レイヤーは、必要な任意の機能を前のレイヤーに適用できます(通常、線形変換とそれに続く非直線性の縮小)。
隠れ層の仕事は、入力を出力層が使用できるものに変換することです。
出力レイヤーは、非表示レイヤーのアクティブ化を、出力をオンにするスケールに変換します。
5歳のように:
写真にバスがあるかどうかをコンピューターに通知したい場合、適切なツールがあればコンピューターの方が楽になります。
そのため、バス検出器は、車輪検出器(車両であることを知らせるため)とボックス検出器(バスは大きな箱のような形をしているため)とサイズ検出器(自動車には大きすぎると言うため)で構成されます。 )。これらは隠しレイヤーの3つの要素です。これらは未加工のイメージの一部ではなく、バスを識別するために設計したツールです。
これらの検出器の3つすべてがオンになっている場合(または特にアクティブな場合)、目の前にバスがある可能性が高くなります。
ニューラルネットは、多くの検出器を構築してそれらをまとめるための優れたツール(逆伝播など)があるため便利です。
あなたが大人のように
フィードフォワードニューラルネットワークは、一連の関数をデータに適用します。正確な関数は、使用しているニューラルネットワークに依存します。ほとんどの場合、これらの関数はそれぞれ前の層の線形変換を計算し、その後、非線形性を押しつぶします。場合によっては、関数が別のことを行います(例の論理関数の計算、画像内の隣接するピクセルの平均化など)。そのため、さまざまなレイヤーの役割は、どの関数が計算されるかに依存する可能性がありますが、非常に一般的なものにしようと思います。
入力ベクトル、隠れ層の活性化、および出力の活性化呼び出しましょう。からマッピングする関数と、からマッピングする別の関数があります。 h y f x h g h yバツhyfxhghy
したがって、非表示層のアクティベーションはあり、ネットワークの出力はです。g (f (x ))f(x)g(f(x))
なぜ1つの関数ではなく2つの関数(と)があるのですか?gfg
関数ごとの複雑さのレベルが制限されている場合、はとが個別にできないことを計算できます。 f gg(f(x))fg
論理関数の例:
たとえば、とを「AND」、「OR」、「NAND」のような単純な論理演算子にしか許可しない場合、「XOR」のような他の関数を1つだけで計算することはできません。一方、これらの関数を重ねて使用する場合は、「XOR」を計算できます。gfg
最初の層の機能:
- 少なくとも1つの要素が「TRUE」であることを確認してください(ORを使用)
- それらがすべて「TRUE」ではないことを確認します(NANDを使用)
第2層関数:
- 両方の第1層の基準が満たされていることを確認します(ANDを使用)
ネットワークの出力は、この2番目の関数の結果です。第1層は、ネットワーク全体がXORを実行できるように、入力を第2層が使用できるものに変換します。
画像の例:
この講演のスライド61は、ここでも単一の画像として利用できますが、特定のニューラルネットワークのさまざまな隠れ層が探しているものを(視覚化する1つの方法)を示しています。
最初のレイヤーは画像内の短いエッジを探します:これらは生のピクセルデータから見つけるのは非常に簡単ですが、顔やバスや象を見ているかどうかを伝えるのにそれ自体ではあまり役に立ちません。
次のレイヤーがエッジを構成します。下の非表示レイヤーのエッジが特定の方法で互いに適合する場合、左端の列の中央にある目検出器の1つがオンになる場合があります。生のピクセルから非常に特殊なものを見つけるのに非常に優れた単一のレイヤーを作成することは困難です。目の検出器は、生のピクセルからよりもエッジ検出器からはるかに簡単に構築できます。
次のレイヤーは、目検出器と鼻検出器を顔に構成します。つまり、前のレイヤーの目検出器と鼻検出器が正しいパターンでオンになると、これらが点灯します。これらは特定の種類の顔を探すのに非常に適しています。1つ以上の顔が点灯している場合、出力レイヤーは顔が存在することを報告する必要があります。
顔検出器は目検出器と鼻検出器から簡単に構築できますが、ピクセル強度から簡単に構築できるため、これは便利です。
したがって、各レイヤーは、生のピクセルから遠ざかり、最終的な目標(顔検出やバス検出など)に近づきます。
さまざまな他の質問への回答
「入力レイヤーの一部のレイヤーが非表示のレイヤーに接続されていて、一部が接続されていないのはなぜですか?」
ネットワーク内の切断されたノードは「バイアス」ノードと呼ばれます。ここには本当にいい説明があります。簡単な答えは、回帰の切片項のようなものだということです。
「画像例の「目検出器」の写真はどこから来たのですか?」
リンクした特定の画像を再確認していませんが、一般的に、これらの視覚化は、対応するニューロンの活動を最大化する入力レイヤー内のピクセルのセットを示しています。したがって、ニューロンを目の検出器と考えると、これはニューロンが最も目に似ていると考える画像です。人々は通常、最適化(山登り)手順でこれらのピクセルセットを見つけます。
で、この論文は世界最大のニューラルネットの一つといくつかのGoogleの人々によって、彼らはこの方法だけでなく、第二の方法「顔検出」ニューロンと「猫の検出器」ニューロンを示しています。彼らはまた、表示され、実際の画像を活性化させますニューロンが最も強くなります(図3、図16)。2番目のアプローチは、ネットワークが非常に柔軟で非線形であることを示しているため、優れています。これらの高レベルの「検出器」は、ピクセルレベルで特に似ていなくても、これらすべての画像に敏感です。
ここで何か不明な点がある場合や、質問がある場合はお知らせください。