統計とビッグデータ deep-learning

6

Al Rahimiは最近、NIPS 2017で現在の機械学習とAlchemyを比較する非常に挑発的な講演を行いました。彼の主張の1つは、基本的な結果を証明する簡単な定理を得るために、理論的な発展に戻る必要があるということです。彼がそれを言ったとき、私はMLの主要な定理を探し始めましたが、主要な結果を理解する良い参照を見つけることができませんでした。だからここに私の質問があります：ML / DLの現在の主要な数学的定理（理論）とは何ですか？Vapnikの仕事はここのどこかに行くと思います。余分に、主な理論上の未解決の問題は何ですか？

45 machine-learning deep-learning theory

4

他の機能マップを作成するために、機能マップにカーネルをどのように適用しますか？

畳み込みニューラルネットワークの畳み込み部分を理解しようとしています。次の図を見てください。 4つの異なるマップ（サイズ）がある最初の畳み込み層を理解するのに問題はありません。これは、入力画像と畳み込んで4つの特徴マップを取得します。k×kk×kk \times k 私が理解できないのは、次の畳み込み層で、4つのフィーチャマップから6つのフィーチャマップに移動します。このレイヤーに6つのカーネルがあると想定しています（その結果、6つの出力機能マップが提供されます）が、これらのカーネルはC1に示されている4つの機能マップでどのように機能しますか？カーネルは3次元ですか、それとも2次元であり、4つの入力フィーチャマップにわたって複製されていますか？

44 machine-learning neural-networks deep-learning conv-neural-network

7

初心者向けのニューラルネットワークリファレンス（教科書、オンラインコース）

ニューラルネットワークを学びたいです。私は計算言語学者です。統計的な機械学習のアプローチを知っており、Pythonでコーディングできます。私はその概念から始め、計算言語学の観点から役に立つかもしれない1つまたは2つの人気のあるモデルを知っています。参考のためにWebをブラウズし、いくつかの本や資料を見つけました。リプリー、ブライアンD.（1996）パターン認識とニューラルネットワーク、ケンブリッジ Bishop、CM（1995）パターン認識のためのニューラルネットワーク、オックスフォード：オックスフォード大学出版局。いくつかのリンクなど、この論文、これらのコースノート（トロント大学の心理学科）、これらのコースノート（ウィスコンシンコンピュータサイエンスの大学）と、このスライドショー（Facebookの研究）。 Courseraコースは、だれかが関連する何かを知っている場合、一般的に素晴らしいです。私は明快な言語と豊富な例のある資料を好みます。

43 neural-networks deep-learning references natural-language computer-vision

6

CNNでのローカル応答の正規化の重要性

Imagenetやその他の大規模なCNNは、ローカル応答の正規化レイヤーを利用していることがわかりました。しかし、私はそれらに関する多くの情報を見つけることができません。それらはどのくらい重要で、いつ使用する必要がありますか？ http://caffe.berkeleyvision.org/tutorial/layers.html#data-layersから：「ローカル応答正規化レイヤーは、ローカル入力領域を正規化することにより、一種の「横方向抑制」を実行します。ACROSS_CHANNELSモードでは、ローカル領域は近くのチャネルに広がりますが、空間範囲はありません（つまり、local_size x 1 x 1の形状を持ちます） WITHIN_CHANNELモードでは、ローカル領域は空間的に拡張されますが、別々のチャネルにあります（つまり、形状は1 x local_size x local_sizeの形状です）。各入力値は（1+（α/ n）∑ix2i）βで除算されます。は各ローカル領域のサイズであり、合計はその値を中心とする領域で取得されます（必要に応じてゼロパディングが追加されます）。編集：これらの種類のレイヤーの影響は最小限で、使用されなくなったようです。基本的に、それらの役割は、他の正則化技術（ドロップアウトやバッチ正規化など）、より良い初期化、およびトレーニング方法によって実現されています。詳細については、以下の回答を参照してください。

41 deep-learning convolution conv-neural-network

4

線形活性化関数は、ニューラルネットワークの消失勾配問題をどのように解決しますか？

ニューラルネットワークの消失勾配問題の解決策として、いくつかの場所で称賛された整流線形ユニット（ReLU）が見つかりました。つまり、アクティベーション関数としてmax（0、x）を使用します。活性化が正の場合、その派生は大きなxの任意の小さな値ではなく常に1であるため、これがたとえばシグモイド活性化関数よりも優れていることは明らかです。一方、xが0より小さい場合、導出は正確に0です。最悪の場合、ユニットがアクティブ化されない場合、このユニットの重みも変更されず、ユニットは永久に使用できなくなります。消失するほど小さい勾配よりもはるかに悪い。ReLUを使用する場合、学習アルゴリズムはその問題にどのように対処しますか？

40 machine-learning neural-networks deep-learning gradient-descent

3

ディープラーニングでハイパーパラメーターを選択するためのガイドライン

スタックオートエンコーダーやディープブレイドネットワークなど、ディープアーキテクチャーのハイパーパラメーターを選択する方法に関するガイドラインを提供するのに役立つ論文を探しています。ハイパーパラメーターはたくさんあり、それらの選択方法については非常に混乱しています。また、トレーニングには多くの時間がかかるため、相互検証の使用は選択肢ではありません！

38 machine-learning deep-learning deep-belief-networks hyperparameter

7

なぜ正則化はデータに対するディープニューラルネットの飢えを解決しないのですか？

一般にニューラルネットワーク、特にディープニューラルネットワークのコンテキストで頻繁に発生する問題は、「データを大量に消費する」ことです。つまり、大きなデータセットがないとうまく機能しません。ネットワークのトレーニングに使用します。私の理解では、これはNNet、特にディープNNetには多数の自由度があるという事実によるものです。そのため、モデルとして、NNetには非常に多数のパラメーターがあり、モデルのパラメーターの数がトレーニングデータポイントの数に比べて大きい場合、オーバーフィットする傾向が増加します。しかし、なぜこの問題は正則化によって解決されないのでしょうか？私の知る限り、NNetsはL1とL2の正則化を使用でき、ネットワーク内のパラメーターの数を減らすことができるドロップアウトのような独自の正則化方法もあります。節約を強制し、ネットワークのサイズを制限するような正則化方法を選択できますか？私の考えを明確にするために：データをモデル化するために大きなディープNNetを使用しているが、データセットは小さく、実際には線形モデルでモデル化できるとしましょう。次に、1つのニューロンが線形回帰をシミュレートし、他のすべてのニューロンがゼロに収束するように、ネットワークの重みが収束しないのはなぜですか？なぜ正規化がこれに役立たないのですか？

37 neural-networks deep-learning regularization

4

ニューラルネットワークがうまく一般化されない場合はどうすればよいですか？

私はニューラルネットワークをトレーニングしていますが、トレーニング損失は減少しますが、参照損失または非常に類似したアーキテクチャとデータを使用した実験に基づいて、検証損失は減少しません。どうすれば修正できますか？質問はニューラルネットワークが学習しない場合はどうすればよいですか？この質問に触発された質問は、ニューラルネットワークの一般化誤差を達成可能であることが証明されているレベルまで下げる方法に関する他の質問をこの質問の複製として閉じることができるように、意図的に一般的に残されています。 Metaの専用スレッドも参照してください。「なぜ私のニューラルネットワークが一般化されないのか」というタイプの質問をリダイレクトできる一般的な質問はありますか？

37 neural-networks deep-learning

4

CNNの「カーネル」と「フィルター」の違い

畳み込みニューラルネットワークのコンテキストでの「カーネル」と「フィルター」という用語の違いは何ですか？

37 neural-networks terminology deep-learning conv-neural-network

3

プールレイヤーはドロップアウトレイヤーの前または後に追加されますか？

畳み込みニューラルネットワーク（CNN）を作成しています。畳み込みレイヤーの後にプールレイヤーがあり、ドロップアウトを適用してオーバーフィットを減らします。プールレイヤーの後にドロップアウトレイヤーを適用する必要があると感じていますが、実際にそれをバックアップするものはありません。ドロップアウトレイヤーを追加する適切な場所はどこですか？プール層の前または後？

35 deep-learning conv-neural-network dropout

4

スパースコーディングとオートエンコーダーの違いは何ですか？

スパースコーディングは、入力ベクトル（<-なぜこれが必要なのか）を表すために、基底ベクトルの過剰なセットを学習することと定義されます。スパースコーディングとオートエンコーダーの違いは何ですか？スパースコーディングとオートエンコーダを使用するのはいつですか？

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

3

深い畳み込みニューラルネットワークでの事前トレーニング？

深い畳み込みニューラルネットワークの事前トレーニングに関する文献を見たことがありますか？オートエンコーダーまたは制限付きボルトマンマシンで、教師なしの事前トレーニングを見たことがあります。

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

2

AlphaGoに似た、チェス用の深層強化学習エンジンがないのはなぜですか？

コンピュータは長い間、「ブルートフォース」技術を使用してチェスをプレイし、特定の深さまで検索してから位置を評価することができました。ただし、AlphaGoコンピューターはANNのみを使用して位置を評価します（私が知る限り、深さ検索は行いません）。AlphaGoがGoをプレイするのと同じ方法でチェスをプレイするチェスエンジンを作成することは可能ですか？なぜ誰もこれをしなかったのですか？このプログラムは、今日のトップチェスエンジン（およびチェスプレイヤー）よりも優れたパフォーマンスを発揮しますか？

32 neural-networks deep-learning reinforcement-learning games

2

畳み込みニューラルネットワークの「機能マップ」（別名「活性化マップ」）の定義は何ですか？

イントロの背景たたみ込みニューラルネットワーク内では、通常、次のような一般的な構造/フローがあります。入力画像（つまり、2Dベクトルx）（最初の畳み込み層（Conv1）はここから始まります...） w12D画像に沿ってフィルターのセット（）を畳み込みます（つまり、z1 = w1*x + b1内積の乗算を行います）。ここz1で3D b1はバイアスです。アクティベーション関数（ReLuなど）を適用して、z1非線形（egなどa1 = ReLu(z1)）を作成しa1ます。ここで3Dです。（2番目の畳み込み層（Conv2）はここから始まります...）新しく計算されたアクティベーションに沿って一連のフィルターを畳み込みます（つまり、z2 = w2*a1 + b2内積の乗算を行います）。ここでz2は3Dであり、b2バイアスです。アクティベーション関数（ReLuなど）を適用して、z2非線形（egなどa2 = ReLu(z2)）を作成しa2ます。ここで3Dです。質問「機能マップ」という用語の定義は、文学ごとに異なるようです。具体的に： 1番目の畳み込み層の場合、「機能マップ」は入力ベクトルx、または出力ドット積z1、または出力アクティベーションa1、またはに変換xする「プロセス」a1、または他の何かに対応しますか？同様に、2番目の畳み込み層の場合、「機能マップ」は入力アクティベーションa1、または出力ドット積z2、または出力アクティベーションa2、またはに変換a1する「プロセス」a2、または他の何かに対応しますか？また、「機能マップ」という用語が「アクティベーションマップ」とまったく同じというのは本当ですか？（または、実際には2つの異なる意味ですか？）追加の参照：ニューラルネットワークとディープラーニングのスニペット-章6： *ここで命名法は大まかに使用されています。特に、「機能マップ」を使用して、畳み込み層によって計算された関数ではなく、層から出力される隠されたニューロンの活性化を意味しています。このような命名法の軽度の乱用は、研究文献ではかなり一般的です。 Matt Zeilerによる畳み込みネットワークの視覚化と理解からの抜粋：このペーパーでは、モデル内の任意のレイヤーで個々の機能マップを励起する入力刺激を明らかにする視覚化手法を紹介します。[...]これとは対照的に、アプローチは不変量のノンパラメトリックビューを提供し、トレーニングセットのどのパターンが機能マップをアクティブにするかを示します。[...]フィーチャマップ全体の応答を正規化するローカルコントラスト操作。[...]指定されたconvnetアクティベーションを調べるために、レイヤー内の他のすべてのアクティベーションをゼロに設定し、接続されたdeconvnetレイヤーへの入力として機能マップを渡します。[...] convnetは、relu非線形性を使用します。これにより、フィーチャマップが修正され、フィーチャマップが常に正であることが保証されます。[...] convnetは、学習したフィルターを使用して、前のレイヤーの機能マップを畳み込みます。[...]図6 これらの視覚化は、モデル内の特定の機能マップを刺激する入力パターンの正確な表現です。パターンに対応する元の入力画像の部分が遮られると、機能マップ内のアクティビティが明確に低下します。[...] 備考：図1に「機能マップ」と「修正された機能マップ」という用語も導入されていますスニペットCNNのスタンフォードCS231n章： [...]この視覚化で簡単に気付かれる危険な落とし穴の1つは、いくつかのアクティベーションマップが多くの異なる入力に対してすべてゼロになる可能性があることです。猫の写真を見ている訓練を受けたAlexNetの最初のCONVレイヤー（左）と5番目のCONVレイヤー（右）の典型的な外観のアクティベーション。すべてのボックスには、フィルターに対応するアクティベーションマップが表示されます。アクティベーションがまばらであり（この視覚化では黒で示されているように、ほとんどの値はゼロです）、ほとんどローカルであることに注意してください。 A-Beginner's-Guide-To-Understanding-Convolutional-Neural-Networksのスニペット [...]入力ボリューム上の一意の場所ごとに番号が生成されます。すべての場所でフィルターをスライドすると、残っているのは28 x 28 x 1の数字の配列であり、これをアクティベーションマップまたはフィーチャマップと呼びます。

32 neural-networks deep-learning conv-neural-network

3

TensorflowでPCAを超えるオートエンコーダーを構築する

ニューラルネットワークでデータの次元数を削減するヒントンとサラクーディノフ、サイエンス 2006は、ディープオートエンコーダーの使用による非線形PCAを提案しました。Tensorflowを使用してPCAオートエンコーダーを何度も構築およびトレーニングしようとしましたが、線形PCAよりも良い結果を得ることができませんでした。オートエンコーダを効率的にトレーニングするにはどうすればよいですか？（@amoebaによる後の編集：この質問の元のバージョンには、正しく動作しなかったPython Tensorflowコードが含まれていました。編集履歴で見つけることができます。）

31 pca python deep-learning tensorflow autoencoders

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」