統計とビッグデータ convolution

6

現在、Udacity Deep Learning Tutorialを行っています。レッスン3では、1x1畳み込みについて説明します。この1x1コンボリューションは、Google Inception Moduleで使用されます。1x1コンボリューションとは何かを理解できません。 Yann Lecunによるこの投稿も見ました。誰かが親切にこれを私に説明できますか？

106 neural-networks deep-learning convolution conv-neural-network

6

CNNでのローカル応答の正規化の重要性

Imagenetやその他の大規模なCNNは、ローカル応答の正規化レイヤーを利用していることがわかりました。しかし、私はそれらに関する多くの情報を見つけることができません。それらはどのくらい重要で、いつ使用する必要がありますか？ http://caffe.berkeleyvision.org/tutorial/layers.html#data-layersから：「ローカル応答正規化レイヤーは、ローカル入力領域を正規化することにより、一種の「横方向抑制」を実行します。ACROSS_CHANNELSモードでは、ローカル領域は近くのチャネルに広がりますが、空間範囲はありません（つまり、local_size x 1 x 1の形状を持ちます） WITHIN_CHANNELモードでは、ローカル領域は空間的に拡張されますが、別々のチャネルにあります（つまり、形状は1 x local_size x local_sizeの形状です）。各入力値は（1+（α/ n）∑ix2i）βで除算されます。は各ローカル領域のサイズであり、合計はその値を中心とする領域で取得されます（必要に応じてゼロパディングが追加されます）。編集：これらの種類のレイヤーの影響は最小限で、使用されなくなったようです。基本的に、それらの役割は、他の正則化技術（ドロップアウトやバッチ正規化など）、より良い初期化、およびトレーニング方法によって実現されています。詳細については、以下の回答を参照してください。

41 deep-learning convolution conv-neural-network

4

コンピュータビジョンと畳み込みニューラルネットワークにおける翻訳不変性とは何ですか？

コンピュータビジョンの背景はありませんが、画像処理や畳み込みニューラルネットワークに関連する記事や論文を読んでいるとき、私は絶えず用語translation invariance、またはに直面していtranslation invariantます。または、畳み込み演算が提供する多くのことを読みますtranslation invariance？!! これは何を意味するのでしょうか？どんな形の画像を変更しても、画像の実際の概念は変わらないという意味で、私自身は常に自分自身に翻訳しました。たとえば、レッツ・セイのツリーの画像を回転させると、その写真に対して何をしても、それは再びツリーになります。そして、私自身は、画像に起こりうるすべての操作を考えて、ある方法で変換（トリミング、サイズ変更、グレースケール、色付けなど）をこのようにすることを考えています。これが本当かどうか分からないので、誰かがこれを説明できればありがたいです。

38 machine-learning conv-neural-network convolution computer-vision

10

なぜ2つのランダム変数の合計が畳み込みなのですか？

長い間、2つの確率変数の「合計」が畳み込みである理由を理解できませんでしたが、と混合密度関数の合計はf(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); 畳み込みではなく算術和。「2つのランダム変数の合計」というフレーズは、googleで146,000回表示され、次のように楕円形です。RVが単一の値を生成すると考える場合、その単一の値を別のRVの単一の値に追加できます。これは、少なくとも直接ではなく、畳み込みとは関係ありません。それは2つの数値の合計です。ただし、統計のRV結果は値の集合であるため、より正確なフレーズは「2つのRVからの関連する個々の値のペアの調整された合計のセットは離散畳み込み」のようになり、...それらのRVに対応する密度関数の畳み込み。さらに単純な言語： 2 RVnnn-サンプルは、事実上、ベクトルの合計として加算される2つのn次元ベクトルです。 2つのランダム変数の合計が畳み込みと合計である方法の詳細を示してください。

33 pdf terminology cdf mixture convolution

2

畳み込みニューラルネットワーク：中央ニューロンは出力で過剰に表現されていませんか？

[この質問はスタックオーバーフローでも発生しました] 要するに質問私は畳み込みニューラルネットワークを研究していますが、これらのネットワークはすべての入力ニューロン（ピクセル/パラメーター）を同等に処理するとは限りません。入力画像に畳み込みを適用する深いネットワーク（多くのレイヤー）があるとします。画像の「中間」にあるニューロンには、多くのより深い層のニューロンへの多くのユニークな経路があります。つまり、中間のニューロンの小さな変動が出力に強い影響を与えます。しかしながら、画像のエッジでのニューロンしか持た（の順序または、正確な実装に応じて、方法1それらの情報はグラフを通って流れる経路）。これらは「過少表示」されているようです。111111 エッジニューロンのこの区別は、ネットワークの深さ（層の数）に応じて指数関数的にスケーリングするため、私はこれを心配しています。最大プーリング層を追加しても指数関数的な増加は止まりません。完全な接続のみがすべてのニューロンを同じ足場にします。しかし、私は自分の推論が正しいと確信していないので、私の質問は次のとおりです。この効果が深い畳み込みネットワークで発生するのは正しいですか？これについて何か理論はありますか、それは文献で言及されたことがありますか？この影響を克服する方法はありますか？これで十分な情報が得られるかどうかわからないので、問題の説明と、これが懸念事項であると考える理由についてもう少し詳しく説明します。より詳細な説明入力として画像を受け取るディープニューラルネットワークがあるとします。画像にピクセルの畳み込みフィルターを適用し、そのたびに畳み込みウィンドウを4ピクセルずつシフトするとします。これは、入力のすべてのニューロンが、活性化をレイヤー2の16 × 16 = 265ニューロンに送信することを意味します。これらのニューロンはそれぞれ、その活性化を別の265に送信し、最上位のニューロンが265 2個の出力ニューロンで表されるようにします。64×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2 ただし、これはエッジのニューロンには当てはまりません。これらは少数の畳み込みウィンドウでのみ表される可能性があり、そのため、次のレイヤーでニューロンのみをアクティブにします。エッジに沿ってミラーリングするなどのトリックを使用しても、これは役に立ちません。投影される第2層ニューロンはまだエッジにあります。エッジニューロンも同様です）。ご覧のように、この不一致は層の数とともに指数関数的に増加します。111 問題を視覚化するために画像を作成しました。これはここにあります（投稿自体に画像を含めることはできません）。このネットワークには、サイズ畳み込みウィンドウがあります。ニューロンの隣の数字は、最深ニューロンまでの経路の数を示しています。画像はパスカルの三角形を連想させます。333 https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0 なぜこれが問題なのですか？この効果は一見問題ではないようです。原則として、ネットワークが機能するように重みを自動的に調整する必要があります。さらに、画像のエッジは、画像認識ではとにかくそれほど重要ではありません。この効果は、日常の画像認識テストでは目立たないかもしれませんが、次の2つの理由で依然として懸念されます。1。他のアプリケーションへの一般化、 2。非常に深いネットワークの場合に発生する問題。 1.音声認識や音声認識など、真ん中のニューロンが最も重要であるとは言えない他のアプリケーションがあるかもしれません。畳み込みの適用はこの分野でよく行われますが、私が関心を持っている効果について言及している論文を見つけることができませんでした。 2.非常に深いネットワークが気づく指数関数的に中枢ニューロンは、大きさの複数の順序によって過剰に存在することができることを意味する境界ニューロンの識別、の悪い効果を（我々は想像の層を、上記の例では、与えること265の10の方法中枢ニューロンを情報を投影できます）。レイヤーの数を増やすと、重みがこの効果を適切に補正できない限界に到達することになります。1010102651026510265^{10} ここで、すべてのニューロンをわずかに摂動させたとします。中央ニューロンは、エッジニューロンと比較して、出力を数桁大きく変化させます。一般的なアプリケーションや、非常に深いネットワークの場合、問題の回避方法を見つける必要があると思いますか？

30 machine-learning neural-networks convolution

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

1

「カーネル密度推定」は、何の畳み込みですか？

カーネル密度推定の理解を深めようとしています。ウィキペディアの定義を使用：https : //en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^(x)=1n∑ni=1Kh(x−xi)=1nh∑ni=1K(x−xih)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) レッツテイク矩形与える関数であるた場合間にあるととさもなければ、及び 1であると（ウィンドウサイズ）。K()K()K()111xxx−0.5−0.5-0.50.50.50.5000hhh 密度は2つの関数の畳み込みであることは理解していますが、これら2つの関数を定義する方法がわかりません。それらの1つは（おそらく）データの関数であり、Rのすべてのポイントに対して、その場所にあるデータポイントの数（ほとんど）を示します。そして、他の関数は、おそらくウィンドウサイズと組み合わされたカーネル関数の何らかの修正であるはずです。しかし、それをどのように定義するのか分かりません。000 助言がありますか？ Bellowは、（私が疑う）上記で定義した設定を（2つのガウスと混合で）複製するRコードの例であり、その上で、畳み込まれる関数が疑わしいという「証明」を見たい。n=100n=100n=100 # example code: set.seed(2346639) x <- c(rnorm(50), rnorm(50,2)) plot(density(x, kernel='rectangular', width=1, n = 10**4)) rug(x)

25 r kernel-smoothing convolution

6

畳み込み層：パディングするかしないか

AlexNetアーキテクチャは、図に示すようにゼロパディングを使用します。ただし、このパディングが導入された理由については、論文には説明がありません。 Standford CS 231nコースでは、空間サイズを保持するためにパディングを使用することを教えています。パディングが必要なのはそれだけなのでしょうか？つまり、空間サイズを保持する必要がない場合は、パディングを削除するだけでいいですか？より深いレベルに進むと、空間サイズが非常に速く減少することを知っています。ただし、プーリング層を削除することでトレードオフできます。ゼロパディングの背後にある理論的根拠を誰かに教えていただければ幸いです。ありがとう！

19 conv-neural-network convolution

2

中央極限定理の動的システムビュー？

（元々MSEに投稿されました。）古典的な中心極限定理のヒューリスティックな議論の多くは、確率密度の空間における「アトラクター」として正規分布（または任意の安定した分布）を語っています。たとえば、Wikipediaの扱いの最上位にあるこれらの文を考えてみましょう。より一般的な使用法では、中心極限定理は確率論における弱収束定理のセットのいずれかです。それらはすべて、多くの独立した同一に分布した（iid）ランダム変数、または特定の種類の依存関係を持つランダム変数の合計が、アトラクタ分布の小さなセットの1つに従って分布する傾向があるという事実を表しています。iid変数の分散が有限の場合、アトラクタ分布は正規分布です。この動的システム言語は非常に暗示的です。フェラーはまたに（つまり、言語のソースである場合、私の不思議）彼の第二のボリュームにCLTの彼の治療に「魅力」のことを話す、とのYuval Flimus このノートさえ話す「の魅力の流域。」（私は彼が本当に「の正確な形式意味はないと思うの魅力の流域は、」の正確な形式推論事前にある「のではなくアトラクターが演繹事前にある」;まだ、言語があります。）私の質問は次のとおりです。これらのことができます動的なアナロジーを正確にできますか？多くの本は、正規分布が畳み込み下での安定性（およびフーリエ変換下での安定性）に特別であることを強調しているが、私はそれらの本を知らない。これは基本的に、固定小数点であるため、法線が重要であることを示しています。CLTはさらに進んで、固定小数点ではなく、アトラクタであることを示しています。この幾何学的な図を正確にするために、位相空間を適切な無限次元関数空間（確率密度の空間）とし、進化演算子を初期条件で畳み込みを繰り返すことを想像します。しかし、私はこの絵をうまく機能させるために必要な技術や、追求する価値があるかどうかについては理解していません。私はこのアプローチを明確に追求する治療法を見つけることができないので、それができる、または面白いという私の感覚に何か間違っているに違いないと思います。その場合は、その理由を聞きたいです。編集：Math Stack ExchangeとMathOverflowには、読者が興味を持ちそうな3つの同様の質問があります。いくつかの分布空間（MO）の固定小数点としてのガウス分布最大エントロピー（MO）による中心極限定理いくつかの不動点定理による中心極限定理の証明はありますか？（MSE）

16 probability mathematical-statistics convergence central-limit-theorem convolution

3

畳み込みニューラルネットワークの畳み込みステップは何をしますか？

コンピュータービジョンへの応用のため、畳み込みニューラルネットワーク（CNN）を研究しています。私はすでに標準のフィードフォワードニューラルネットワークに精通しているので、ここの一部の人々がCNNを理解するための追加のステップを手伝ってくれることを望んでいます。CNNについて私が考えることは次のとおりです。従来のフィードフォワードNNでは、各要素が「入力レイヤー」でNNに入力する特徴ベクトルで構成されるトレーニングデータがあるため、画像認識では、各ピクセルを1つの入力にすることができます。これらは私たちの特徴ベクトルです。または、他の（おそらく小さい）特徴ベクトルを手動で作成することもできます。 CNNの利点は、画像の歪みと位置により不変な、より強力な特徴ベクトルを生成できることです。次の図に示すように（このチュートリアルから）、CNNは機能マップを生成し、それが標準のニューラルネットワークに送られます（実際、これは巨大な前処理ステップです）。これらの「より良い」機能を得る方法は、畳み込みとサブサンプリングを交互に行うことです。サブサンプリングの仕組みを理解しています。各機能マップについて、ピクセルのサブセットを取得するか、ピクセルの値を平均化できます。しかし、私が主に混乱しているのは、畳み込みステップの仕組みです。私は確率理論（2つのランダム変数の合計の密度）からの畳み込みに精通していますが、CNNでどのように機能し、なぜ効果的ですか？私の質問はこれに似ていますが、特に、最初の畳み込みステップが機能する理由がわかりません。

16 neural-networks deep-learning conv-neural-network convolution

2

ニューラルネットワークのコンボリューションが便宜を超えた数学的理由はありますか？

畳み込みニューラルネットワーク（CNN）では、畳み込みを進める前に、各ステップでの重みの行列の行と列を反転させてカーネル行列を取得します。これは、Hugo Larochelleによる一連のビデオで説明されています。隠されたマップを計算する[...]カーネル行列を使用して、前の層からチャネルを持つ離散畳み込みを行うことに対応するであろう、そのカーネルは隠された重み行列から計算されるWijWijW_{ij}、我々は、行を反転して、列。他のタイプのNNのように、畳み込みの縮小ステップを通常の行列乗算と比較する場合、便宜性は明確な説明になります。しかし、これは最も適切な比較ではないかもしれません... デジタルイメージング処理では、画像へのフィルターの畳み込みの適用（これは実用的な直感のための素晴らしいYouTubeビデオです）は次のように関連しているようです：畳み込みは連想的であるが（相互）相関はそうではないという事実。時間領域での畳み込みは周波数領域での乗算と同じであるため、画像の周波数領域でフィルターを乗算として適用する可能性（畳み込み定理）。 DSP 相関のこの特定の技術環境では、次のように定義されます。 F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) これは本質的に、アダマール製品のすべてのセルの合計です。 F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[N,-N]\,I[x+N,y-N]&\cdots&F[N,0]\,I[x+N,y]&\cdots& F[N,N]\,I[x+N,y+N]\\ \end{bmatrix} ここで、はフィルター関数（行列として表される）であり、I （x 、y ）は位置（x 、y ）の画像のピクセル値です。F(i,j)F(i,j)F(i,j)I(x,y)I(x,y)I(x,y)(x,y)(x,y)(x,y) 相互相関の目的は、プローブ画像とテスト画像の類似性を評価することです。相互相関マップの計算は、畳み込み定理に依存しています。一方、畳み込みは次のように定義されます。 F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F∗I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x−i,y−j)F* I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x-i, y-j) これは、フィルターが対称である限り、フィルターの行と列を反転した相関操作と同じです。 F∗I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[N,N]I[x−N,y−N]⋮F[0,N]I[x,y−N]⋮F[−N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[−N,0]I[x+N,y]⋯⋱⋯⋱⋯F[N,−N]I[x−N,y+N]⋮F[0,−N]I[x,y+N]⋮F[−N,−N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∗I(x,y)=[F[N,N]I[x−N,y−N]⋯F[N,0]I[x−N,y−N]⋯F[N,−N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,−N]I[x,y+N]⋮⋱⋮⋱⋮F[−N,−N]I[x+N,y−N]⋯F[−N,0]I[x+N,y]⋯F[−N,−N]I[x+N,y+N]]\small F* I(x,y)=\Tiny\begin{bmatrix}F[N,N]\,I[x-N,y-N]&\cdots&F[N,0]\,I[x-N,y-N]&\cdots& F[N,-N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,-N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[-N,-N]\,I[x+N,y-N]&\cdots&F[-N,0]\,I[x+N,y]&\cdots& F[-N,-N]\,I[x+N,y+N]\\ \end{bmatrix} ⎡⎣⎢⎢⎢⎢⎢⎢⎢1474141626164726412674162616414741⎤⎦⎥⎥⎥⎥⎥⎥⎥[1474141626164726412674162616414741]\small\begin{bmatrix} …

14 machine-learning neural-networks conv-neural-network convolution

2

二乗正規変数とカイ二乗変数の畳み込みの分布？

最近、データの分析中に次の問題が発生しました。確率変数Xが正規分布に従い、Yが分布（n dof）に従う場合、はどのように分布しますか？これまで PDFを思いついた： Z = X 2 + Y 2 Y 2 ψ 2 N（X ）χ2nχn2\chi^2_nZ=X2+Y2Z=X2+Y2Z = X^2 + Y^2Y2Y2Y^2ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} \cdot …

14 probability distributions normal-distribution chi-squared convolution

3

畳み込みニューラルネットワークは、行列乗算の代わりに畳み込みをどのように正確に使用しますか？

ディープラーニングに関するヨシュアベンジオの本を読んでいたところ、224ページに次のように書かれています。畳み込みネットワークは、少なくとも1つの層で一般的な行列乗算の代わりに畳み込みを使用する単純なニューラルネットワークです。しかし、数学的に正確な意味で「畳み込みによる行列乗算を置き換える」方法を100％確信していませんでした。本当に関心私は（のように1次元での入力ベクトルのためにこれを定義しているx∈Rdx∈Rdx \in \mathbb{R}^d Iが画像として入力を持っており、2Dでの畳み込みを回避しようとしませんので、）。たとえば、「通常の」ニューラルネットワークでは、Andrew Ngのメモのように、操作とフィードワードパターンを簡潔に表現できます。 W(l)a(l)=z(l+1)W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} ここで、z(l)z(l)z^{(l)}は、非線形性を通過する前に計算されたベクトルfffです。非線形性は、ベクトル peroエントリに作用しz(l)z(l)z^{(l)}、a(l+1)a(l+1)a^{(l+1)}は、問題のレイヤーの非表示ユニットの出力/アクティブ化です。行列の乗算は明確に定義されているため、この計算は明らかですが、行列の乗算を畳み込みに置き換えるだけでは不明確に思えます。すなわち W(l)∗a(l)=z(l+1)W(l)∗a(l)=z(l+1) W^{(l)} * a^{(l)} = z^{(l+1)} f(z(l+1))=a(l+1)f(z(l+1))=a(l+1) f(z^{(l+1)}) = a^{(l+1)} 上記の方程式を数学的に正確に理解するようにします。行列の乗算を畳み込みに置き換えることに関する最初の問題は、通常、 1行をドット積で識別することです。したがって、a （l ）全体が重みにどのように関係し、W （l ）で示される次元のベクトルz （l + 1 ）にマッピングされるかが明確にわかります。ただし、畳み込みに置き換えた場合、どの行または重みが（l ）のどのエントリに対応するかはわかりませんW(l)W(l)W^{(l)}a(l)a(l)a^{(l)}z(l+1)z(l+1)z^{(l+1)}W(l)W(l)W^{(l)}a(l)a(l)a^{(l)}。重みを行列として表すことは実際にはもう理にかなっていることは私にとっても明らかではありません（その点を後で説明する例を提供します）入力と出力がすべて1Dである場合、その定義に従ってたたみ込みを計算し、特異点を通過させますか？たとえば、入力として次のベクトルがある場合： x=[1,2,3,4]x=[1,2,3,4]x = [1,2,3,4] そして、次の重みがありました（backpropで学習したのかもしれません）： W=[5,6,7]W=[5,6,7]W …

13 machine-learning neural-networks deep-learning convolution

4

独立した対数正規確率変数の合計は対数正規に見えますか？

観測数を増やすと、2つ（以上）の対数正規確率変数の合計が対数正規分布に近づく理由を理解しようとしています。オンラインで調べたところ、これに関する結果は見つかりませんでした。明らかに、とが独立した対数正規変数である場合、指数とガウス確率変数の特性により、も対数正規です。ただし、も対数正規であることを示唆する理由はありません。Y X × Y X + YバツバツXYYYバツ× Yバツ×YX \times Yバツ+ Yバツ+YX+Y しかしながら 2つの独立した対数正規確率変数およびYを生成し、Z = X + Yとし、このプロセスを何度も繰り返すと、Zの分布は対数正規に見えます。観測数を増やすと、対数正規分布に近づくように見えます。バツバツXYYYZ= X+ YZ=バツ+YZ=X+YZZZ 例：100万ペアを生成した後、Zの自然対数の分布が以下のヒストグラムに示されます。これは非常に明らかに正規分布に似ており、が実際に対数正規であることを示唆しています。ZZZ 誰かがこれを理解するのに役立つかもしれないテキストへの洞察または参照を持っていますか？

11 distributions lognormal convolution sum

2

たたみ込み層の複数のフィルターは、トレーニング中に同じパラメーターを学習しませんか？

私が学んだことに基づいて、CNNのConv Layerで複数のフィルターを使用して、さまざまな特徴検出器を学習します。しかし、これらのフィルターは同様に適用される（つまり、スライドして入力の領域に乗算する）ため、トレーニング中に同じパラメーターを学習するだけではないでしょうか。したがって、複数のフィルターを使用すると冗長になりますか？

11 neural-networks conv-neural-network convolution filter

タグ付けされた質問 「convolution」

タグ付けされた質問「convolution」