タグ付けされた質問 「conv-neural-network」

畳み込みニューラルネットワークは、ニューラルネットワークの一種であり、レイヤー間の可能な接続のサブセットのみが存在して、重複領域を作成します。それらは一般的に視覚的なタスクに使用されます。

2
バッチ正規化は、トレーニング後に人口統計をどのように計算しますか?
私はバッチ正規化(BN)ペーパー(1)を読んでいて、それは言った: このため、ネットワークがトレーニングされたら、正規化を使用します バツ^=x − E[ x ]Va r [ x ] + ϵ−−−−−−−−√x^=x−E[x]Var[x]+ϵ\hat{x} = \frac{x - E[x]}{ \sqrt{Var[x] + \epsilon}}ミニバッチではなく、人口統計を使用します。 私の質問は、どのようにしてこの人口統計をどのように計算し、どのトレーニングセット(テスト、検証、トレーニング)を超えているかです。私はそれが何を意味するのかは知っていたと思いましたが、しばらくして、これがどのように計算されるのかわかりません。私はそれがどのように行うかはわかりませんが、それは真の平均と分散を推定しようとしていると思います。おそらく、データセット全体に従って平均と分散を計算し、それらの瞬間を推論に使用します。 しかし、私が間違っているのではないかと疑ったのは、同じセクションの後半の不偏分散の推定についての彼らの議論です。 不偏分散推定を使用します Va r [ x ] =メートルm − 1⋅EB[σ2B]Var[x]=mm−1⋅EB[σB2]Var[x] = \frac{m}{m-1} \cdot E_{\mathcal{B}}[\sigma^2_{\mathcal{B}}] サイズのミニバッチのトレーニングに期待が集まっている場所 メートルmm そして σ2BσB2\sigma^2_{\mathcal{B}} それらは標本分散です。 私たちは人口統計について話しているので、この紙面上のコメントは、どこからともなく(私にとって)出てきたようなものであり、彼らが何について話しているのかわかりませんでした。彼らは(ランダムに)トレーニング中に不偏推定値を使用することを明確にしていますか、それとも不偏推定値を使用して人口統計を計算していますか? 1:Ioffe S.とSzegedy C.(2015)、 「バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速」、 第32回機械学習に関する国際会議の議事録、リール、フランス、2015。Journalof Machine Learning Research: W&CPボリューム37

1
4Dたたみ込みネットワーク
3Dではなく4D入力テンソルで機能する畳み込みネットワークの一般化があるかどうか誰かが知っていますか?一般的に、私が理解しているように、畳み込みネットワークフィルターは、フィルターごとの特定のスパンのx、y座標とそのスパンの深さ全体を受け入れます。入力に意味を持たせるために、フィルター内で必要となる追加のディメンションがあります。 これに従来の畳み込みネットワークを使用することは可能ですか、それともn次元データに対して機能する抽象化がありますか?

2
画像スタイル転送で使用される重み正規化手法
畳み込みニューラルネットワークを使用した紙の画像スタイル転送を実装しようとしています。セクション2-深い画像表現で、著者は次の重み正規化手法について言及しています。 画像と位置に対する各畳み込みフィルターの平均アクティブ化が1に等しくなるように重みをスケーリングすることにより、ネットワークを正規化しました。このような再スケーリングは、出力を変更せずにVGGネットワ​​ークに対して実行できます。これは、線形線形活性化関数のみを修正し、機能マップに対する正規化やプールは含まないためです。 以前に尋ねた関連質問から、著者がILSVRC検証セットの画像からのアクティベーション値を使用して重みを正規化していることがわかりました。 私は自分でそれを思い付くことができなかったので、そのような正規化を実行することの数学的な定式化を知りたかった。 問題の私の理解によると、私はアクティベーションマップ(X)を持ち、それに対応して、前のレイヤーのKアクティベーションマップ(L)と次元3x3xKの重み行列(W)を持っています。 WそれはXを生成します。今度は、検証セットのすべての画像についてレイヤーLのすべてのニューロンの活性化値をキャプチャしたら、検証セットのすべての画像にわたってXのすべてのニューロンの平均を1にすることです。どういうわけかWを調整することによって それを実現するために私がWに何をすべきかわからなかった。 また、これを最初のレイヤーの重みを正規化し、次に新しい機能マップを使用してレイヤーの重みを正規化することにより、カスケード(順次)でこれを実行するかどうかを確認したかったすべてのアクティベーションマップの元の事前トレーニング済みの重みとしての前のレイヤーの値?

1
畳み込みニューラルネットワークに関するいくつかの説明
完全に接続されたレイヤーのたたみ込みレイヤーへの変換について読むときは、http://cs231n.github.io/convolutional-networks/#convertに投稿されています。 次の2つのコメントについて混乱しているだけです。 この変換により、元のConvNetを大きな画像内の多くの空間位置にわたって単一の順方向パスで非常に効率的に「スライド」できることがわかります。 標準のConvNetは、任意のサイズの画像で機能する必要があります。たたみ込みフィルターは画像グリッドを横切ってスライドできるので、元のConvNetをより大きな画像の任意の空間位置でスライドする必要があるのはなぜですか? そして 32ピクセルのストライドで384x384画像の224x224クロップ全体で元のConvNet(FCレイヤー付き)を個別に評価すると、変換されたConvNetを1回転送するのと同じ結果が得られます。 ここで「32ピクセルのストライド」とはどういう意味ですか?それはフィルターサイズを指していますか?384 * 384画像の224 * 224作物について話すとき、それは224 * 224の受容野を使用することを意味しますか? 元のコンテキストでは、これら2つのコメントを赤でマークしました。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.