データサイエンス neural-network

3

私はオートエンコーダーやニューラルネットワークの専門家ではありませんので、これがばかげた質問であればご容赦ください。次元削減または高次元データのクラスターの視覚化の目的で、オートエンコーダーを使用して、2つのノードを持つネットワークレイヤーの出力を検査することにより、（損失のある）2次元表現を作成できます。たとえば、次のアーキテクチャでは、3番目の層の出力を検査します [ X] → N1= 100 → N2= 25 → （N3= 2 ）→ N4= 25 → N5= 100 → [ X][バツ]→N1=100→N2=25→（N3=2）→N4=25→N5=100→[バツ][X] \rightarrow N_1=100 \rightarrow N_2=25 \rightarrow (N_3=2) \rightarrow N_4=25 \rightarrow N_5=100 \rightarrow [X] ここで、入力データとなるN L内のノードの数であり、L層目。バツバツXNlNlN_llll さて、私の質問は、なぜ対称アーキテクチャが必要なのかということです。深い「圧縮」フェーズのミラーは、同様に複雑な「圧縮解除」フェーズがあり、非常に直感的であるように強制されない2ノード出力になる可能性があることを意味しませんか？言い換えると、単純なデコードフェーズを使用すると、2つのノードを持つレイヤーの出力も必然的にシンプルになりませんか？ここでの私の考えは、圧縮解除フェーズが複雑でないほど、2D表現はより単純（線形に近い）でなければならないということです。より複雑な解凍フェーズでは、より複雑な2D表現が可能になります。

13 neural-network dimensionality-reduction autoencoder

3

ニューラルネットワークには、ディシジョンツリーのような説明可能性がありますか？

デシジョンツリーでは、ツリー構造の出力を理解でき、デシジョンツリーが決定を下す方法を視覚化することもできます。したがって、決定木には説明可能性があります（その出力は簡単に説明できます）。デシジョンツリーのように、ニューラルネットワークに説明可能性がありますか？

13 neural-network

3

とにかくMax Poolingが単に画像をダウンサンプリングするのであれば、なぜ畳み込みますか？

フィルタを適用してエッジの識別などを行うというアイデアは、かなりクールなアイデアです。たとえば、7の画像を撮影できます。一部のフィルターを使用すると、元の画像のさまざまな特性を強調する変換された画像になります。元の7：ネットワークは次のように体験できます。各画像が元の画像の異なるエッジを抽出していることに注目してください7。これはすべて素晴らしいことですが、ネットワークの次の層は最大プーリング層であると言えます。私の質問は、一般的に、これはちょっとやり過ぎのように思えませんか？フィルターを使用してエッジを特定することは非常に慎重で意図的でした-今では、ピクセル値から地獄を吹き飛ばしたので、それについてはもう気にしません！間違っている場合は修正してください。ただし、25 X 25から2 X 2に変更しました。それでは、なぜマックスプーリングに直行しないのか、基本的に同じことになるのではないでしょうか？私の質問の延長として、偶然にも、4つの正方形のすべてに同じ最大値のピクセルがあった場合、どうなるのか疑問に思わずにはいられません。確かにこれはまれなケースではありませんよね？突然、すべてのトレーニング画像がまったく同じに見えます。

13 neural-network

1

リカレントニューラルネットワーク（RNN）のレイヤーを忘れる-

私は忘却層のRNNの各変数の次元を把握しようとしていますが、正しい軌道に乗っているかどうかはわかりません。次の図と方程式は、Colahのブログ投稿「Understanding LSTM Networks」からのものです。どこ： xtxtx_tはサイズm∗1m∗1m*1ベクトルの入力です ht−1ht−1h_{t-1}はサイズn∗1n∗1n*1ベクトルの隠れ状態です例えば、もしは（連結である X T = [ 1 、2 、3 ] 、時間T - 1 = [ 4 、5 、6 ]、次に [ X 、T、HのT - 1 ] = [ 1 、2 、3 、4 、5 、6 ]）[xt,ht−1][xt,ht−1][x_t, h_{t-1}]xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, …

13 neural-network rnn

3

現在（2016年）のディープラーニングNNは、4年前（2012年）に学習したNNとどう違うのですか？

Wikipediaおよびdeeplearning4jで、ディープラーニングNN（DLNN）は1つ以上の非表示レイヤーを持つNNであると言われています。この種のNNは私にとって大学では標準的でしたが、DLNNは現在非常に宣伝されています。そこに行って、それで終わりです-大したことは何ですか？積み重ねられたNNはディープラーニングと見なされているとも聞きました。ディープラーニングはどのように実際に定義されていますか？私のNNの背景は主に大学出身であり、仕事ではありません。産業におけるNNの応用を研究 Artifについて約5つのコースがありました。インテル。＆マッハ。学ぶ。-たぶんそのうちの2つはNNにあります画像認識に関する小規模でシンプルなプロジェクトにNNを使用-3層フィードフォワードNNを使用それらについて（博士論文のように）実際の研究をしなかった

13 neural-network deep-learning

3

逆伝播におけるバイアス項の勾配

ニューラルネットワークをゼロから実装して、その背後にある数学を理解しようとしました。私の問題は、バイアスに関する導関数を取るときの逆伝播に完全に関連しており、逆伝播で使用されるすべての方程式を導き出しました。これで、バイアスに関する微分を除いて、すべての方程式がニューラルネットワークのコードと一致しています。 z1=x.dot(theta1)+b1 h1=1/(1+np.exp(-z1)) z2=h1.dot(theta2)+b2 h2=1/(1+np.exp(-z2)) dh2=h2-y #back prop dz2=dh2*(1-dh2) H1=np.transpose(h1) dw2=np.dot(H1,dz2) db2=np.sum(dz2,axis=0,keepdims=True) オンラインでコードを検索しましたが、なぜ行列を加算してdb2=np.sum(dz2,axis=0,keepdims=True)からスカラーが元のバイアスから減算されるのか、行列全体が減算されないのはなぜですか。誰かがその背後にある直感を与えるのを手伝ってくれる？バイアスに関して損失の偏微分をとるz2=h1.dot(theta2)+b2と、h1とthetaが0になり、b2が1になるため、dz2である上部勾配のみが得られます。したがって、上部の項は残ります。 b2+=-alpha*db2

13 python neural-network backpropagation

9

Kerasで1つのインスタンスのみの予測を取得するにはどうすればよいですか？

Kerasに、次のようなラベルのない新しいデータセットにフィットモデルを使用した予測を適用するように要求すると、 model1.predict_classes(X_test) それは正常に動作します。しかし、1行だけを予測しようとすると失敗します。 model1.predict_classes(X_test[10]) Exception: Error when checking : expected dense_input_6 to have shape (None, 784) but got array with shape (784, 1) なんでかしら？

13 neural-network keras

2

テンソルフローの1つのホットエンコーディングとは何ですか？

現在、tf.one_hot（indices、depth）を使用したテンソルフローのコースを行っています。今、私はこれらのインデックスがそのバイナリシーケンスにどのように変化するか理解していません。誰かが私に正確なプロセスを説明してもらえますか？？？

12 machine-learning python neural-network deep-learning tensorflow

1

それでは、LSTMの欠点は何ですか？

私はKerasパッケージの知識を拡大しており、利用可能なモデルのいくつかでツールを開発しています。NLPバイナリ分類問題があり、それを解決しようとしており、さまざまなモデルを適用しています。いくつかの結果を処理し、LSTMの詳細を読んだ後、このアプローチは（複数のデータセットにわたって）私が試した他のどの方法よりもはるかに優れているようです。私は、「なぜ/いつLSTMを使用しないのか」と考え続けています。LSTMに固有の追加のゲートを使用することは、勾配が消えてしまうモデルがいくつかあった後、私にとって完全に理にかなっています。それでは、LSTMの欠点は何ですか？どこでうまくいかないのですか？「1つのサイズですべてに適合する」アルゴリズムのようなものはないことを知っているので、LSTMには欠点があるに違いありません。

12 neural-network nlp lstm recurrent-neural-net

1

Kerasでのマルチタスク学習

Kerasで共有レイヤーを実装しようとしています。Kerasにはがあることがわかりますがkeras.layers.concatenate、その使用に関するドキュメントからはわかりません。複数の共有レイヤーを作成するために使用できますか？以下に示すように、Kerasを使用して単純な共有ニューラルネットワークを実装する最良の方法は何でしょうか？ 3つのNNすべての入力、出力、共有レイヤーの形状はすべて同じであることに注意してください。3つのNNには複数の共有レイヤー（および非共有レイヤー）があります。色付きのレイヤーは各NNに固有であり、同じ形状を持っています。基本的に、この図は、複数の共有非表示層が続く3つの同一のNNを表し、その後に複数の非共有非表示層が続きます。 Twitterの例のように複数のレイヤーを共有する方法がわかりません。共有レイヤーは1つしかありません（APIドキュメントの例）。

12 machine-learning neural-network deep-learning keras multitask-learning

1

バイアスはどのように初期化および正則化する必要がありますか？

カーネルの初期化に関するいくつかの論文を読みましたが、多くの論文では、カーネルのL2正則化（多くの場合、）を使用していると述べています。λ=0.0001λ=0.0001\lambda = 0.0001 定数ゼロでバイアスを初期化し、それを正規化しないのとは違う人がいますか？カーネル初期化ペーパー Mishkin and Matas：必要なのは良い初期化だけです Xavier GlorotとYoshua Bengio：ディープフィードフォワードニューラルネットワークのトレーニングの難しさを理解する彼他：整流器を深く掘り下げる：ImageNet分類で人間レベルのパフォーマンスを超える

12 neural-network

5

ニューラルネットワーク用の最高のジュリアライブラリ

基本的なニューラルネットワークの構築と分析にこのライブラリを使用しています。ただし、多層ニューラルネットワークなどの構築はサポートされていません。それで、私はジュリアで高度なニューラルネットワークとディープラーニングを行うための素晴らしいライブラリを知りたいです。

12 machine-learning neural-network julia

2

ニューラルネットワークは

有名なTensorflow Fizz BuzzジョークとXOr問題の精神に基づいて、y= x2y=x2y = x^2関数を実装するニューラルネットワークを設計することが可能であれば、私は考え始めましたか？数値の表現（たとえば、バイナリ形式のベクトルとして、その数5はとして表される[1,0,1,0,0,0,0,...]）が与えられると、ニューラルネットワークはその二乗（この場合は25）を返すことを学習する必要があります。 y= x2y=x2y=x^2実装できれば、おそらくy= x3y=x3y=x^3と一般的にxの任意の多項式を実装できます。次に、テイラー級数を使用して、y= 罪（x ）y=sin⁡(x)y=\sin(x)近似できます。これにより、フィズバズ問題-ニューラルネットワークが解決されます分割の残りを見つけることができます。明らかに、NNの線形部分だけではこのタスクを実行できないため、乗算を実行できれば、アクティベーション関数のおかげでそれが発生します。テーマについてアイデアや読書を提案できますか？

12 machine-learning neural-network

3

ニューラルネットワークを設計するための経験則はありますか？

ニューラルネットワークアーキテクチャは、ほとんどが問題自体と入出力のタイプに基づいていることを知っていますが、それでも、1つを構築し始めると常に「正方形」が存在します。だから私の質問は-MxN（Mはレコード数、Nはフィーチャの数）の入力データセットとCの可能な出力クラスを考えると-何層/ユニットから始める必要があるかについての経験則はありますか？

12 neural-network

4

モデルが過剰適合し始めたことを知る方法は？

次の抜粋が私の質問がどうなるかについての洞察を提供してくれることを願っています。これらはhttp://neuralnetworksanddeeplearning.com/chap3.htmlからのものですその後、学習は徐々に遅くなります。最後に、エポック280前後で、分類精度はほとんど改善しなくなります。後のエポックでは、エポック280での精度の値に近い小さな確率的変動が見られるだけです。これを、トレーニングデータに関連するコストがスムーズに低下し続ける以前のグラフと比較してください。そのコストだけを見ると、モデルはまだ「良くなっている」ように見えます。しかし、テスト精度の結果は、改善が幻想であることを示しています。フェルミが嫌ったモデルのように、エポック280の後で私たちのネットワークが学習するものは、もはやテストデータに一般化されません。そして、それは有用な学習ではありません。私たちは、ネットワークがエポック280を超えて過剰適合または過剰訓練していると言います。ニューラルネットワークをトレーニングしていて、（トレーニングデータの）コストはエポック400まで下がりますが、エポック280の後で分類精度は静的になり（いくつかの確率的変動がない場合）、モデルがエポック280以降のトレーニングデータに適合していると結論付けます。テストデータのコストはエポック15前後まで改善することがわかりますが、トレーニングデータのコストは引き続き改善されていますが、その後は実際に悪化し始めています。これは、モデルが過剰適合であることを示すもう1つの兆候です。しかし、それはパズルを提起します。これは、過適合が学習を支配するようになる時点として、エポック15とエポック280のどちらを考慮すべきかということです。実用的な観点から見ると、テストデータのコストは分類精度の代用に過ぎず、テストデータの分類精度を向上させることが重要です。そして、エポック280は、それを超えて、ニューラルネットワークで学習を支配し過ぎるポイントと見なすのが最も理にかなっています。以前のトレーニングコストと比較したテストデータの分類精度とは対照的に、現在はトレーニングコストに対するテストデータのコストを課しています。次に、この本は、280がオーバーフィッティングが始まった正しい時代である理由を説明しています。それが私の問題です。私はこれに頭を包むことができません。コストを最小限に抑えるようモデルに求めているため、コストは、正確に分類するための独自の強度の尺度として使用するメトリックです。280をオーバーフィッティングが始まった正しいエポックと考える場合、特定のテストデータではより優れた分類子であるにもかかわらず、低い信頼度で意思決定を行っているため、逸脱しやすいバイアスモデルを作成していませんか？テストデータに示された結果から？

12 neural-network overfitting

タグ付けされた質問 「neural-network」

タグ付けされた質問「neural-network」