タグ付けされた質問 「deep-learning」

主にディープニューラルネットワーク(つまり、2つ以上の非表示レイヤーを持つネットワーク)で行われる、データの階層表現を学習するために使用される技術に関する機械学習研究の新しい領域だけでなく、何らかの確率的グラフィカルモデルでも行われます。

3
NLPと機械学習のコミュニティがディープラーニングに関心を持っているのはなぜですか?
このトピックに関する質問がいくつかありますので、お役に立てば幸いです。私はディープラーニングの分野で初めての経験がありますが、いくつかのチュートリアルを行いましたが、概念を互いに関連付けたり区別したりすることはできません。

6
たたみ込みニューラルネットワークが機能する理由
なぜ畳み込みニューラルネットワークがまだよく理解されていないのかと言う人をよく耳にします。畳み込みニューラルネットワークが、層を上るにつれて常に洗練された機能を学習することになります。それらがそのような機能のスタックを作成した原因は何ですか?これは他のタイプのディープニューラルネットワークにも当てはまりますか?



1
ミニバッチのサイズを選択するためのルールはありますか?
ニューラルネットワークをトレーニングする場合、1つのハイパーパラメーターはミニバッチのサイズです。一般的な選択肢は、ミニバッチあたり32、64、128個の要素です。 ミニバッチの大きさのルール/ガイドラインはありますか?トレーニングへの影響を調査する出版物はありますか?

4
勾配降下は常に最適に収束しますか?
勾配降下が最小に収束しないシナリオがあるかどうか疑問に思っています。 勾配降下が常にグローバルな最適値に収束することが保証されているわけではないことを認識しています。また、たとえば、ステップサイズが大きすぎると、最適値から逸脱する可能性があることも認識しています。しかし、ある最適から逸脱すると、最終的には別の最適に移行するように思えます。 したがって、勾配降下はローカルまたはグローバル最適に収束することが保証されます。そうですか?そうでない場合、大まかな反例を示してください。

1
LSTMを使用した時系列予測:時系列を静止させることの重要性
定常性と差分に関するこのリンクでは、ARIMAのようなモデルは平均、分散、自己相関などの統計的特性が時間とともに一定であるため、予測には定常化された時系列が必要であると述べられています。RNNは非線形関係を学習する能力が優れているため(ここでの説明:時系列予測のためのリカレントニューラルネットワークの約束)、データが大きい場合は従来の時系列モデルよりも優れたパフォーマンスを発揮するため、定常化の方法を理解することが不可欠ですデータは結果に影響します。答えを知る必要がある質問は次のとおりです。 従来の時系列予測モデルの場合、時系列データの定常性により、予測が容易になり、その理由と方法がわかります。 LSTMを使用して時系列予測モデルを構築する際、時系列データを固定することは重要ですか?もしそうなら、なぜですか?


3
ディープラーニングライブラリを使用したテキストからのキーワード/フレーズ抽出
おそらくこれは広すぎるかもしれませんが、テキスト要約タスクでディープラーニングを使用する方法に関するリファレンスを探しています。 標準の単語頻度アプローチと文のランク付けを使用してテキストの要約を既に実装していますが、このタスクにディープラーニングテクニックを使用する可能性を調査したいと思います。また、センチメント分析にConvolutional Neural Networks(CNN)を使用してwildml.comで提供されているいくつかの実装も行っています。テキストの要約とキーワード抽出にTensorFlowやTheanoなどのライブラリをどのように使用できるか知りたいのですが。ニューラルネットの実験を始めてから約1週間が経過しました。これらのライブラリのパフォーマンスが、この問題に対する以前のアプローチと比較してどうなるか、とても楽しみです。 これらのフレームワークを使用したテキスト要約に関連する興味深い論文とgithubプロジェクトを特に探しています。誰かが私にいくつかの参照を提供できますか?

2
ケラスvs. tf.keras
私は間を選択する際に混乱ビットだKeras(keras-チーム/ keras)とtf.keras私の新しい研究プロジェクトのために(tensorflow / tensorflow /パイソン/ keras /)。 Kerasは誰にも所有されていないという議論があります。そのため、人々は貢献することに満足しており、将来プロジェクトを管理するのがはるかに容易になります。‬ 他の側では、tf.kerasは、Googleがこれより厳密なテストとメンテナンスを所有しています。さらに、これはTensorflow v.2に存在する新機能を利用するためのより良いオプションのようです。 ですから、データサイエンス(機械学習)プロジェクト(研究段階)を開始するには、最初は両方とも大丈夫ですが、どちらを選択しますか?!‬

4
ケラスモデルの精度、F1、精度、再現率を取得する方法は?
バイナリKerasClassifierモデルの精度、再現率、F1スコアを計算したいのですが、解決策が見つかりません。 これが私の実際のコードです: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) model.add(Dense(1, kernel_initializer='normal', activation='sigmoid')) # Compile model model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) tensorboard = TensorBoard(log_dir="logs/{}".format(time.time())) time_callback = TimeHistory() # Fit the model history …

2
ReLUがアクティベーション機能として使用されるのはなぜですか?
アクティベーション関数はw * x + b、ニューラルネットワークのタイプの線形出力に非線形性を導入するために使用されます。 シグモイドのような活性化機能について、私は直感的に理解することができます。 バックプロパゲーション中に死んだニューロンを回避するReLUの利点を理解しています。しかし、出力が線形の場合にReLUがアクティベーション関数として使用される理由を理解できませんか? アクティベーション関数であることのすべてのポイントは、非線形性を導入しない場合、無効になりませんか?

4
Kerasを使用したLSTM-RNNのハイパーパラメーター検索(Python)
Keras RNNチュートリアルから:「RNNには注意が必要です。バッチサイズの選択が重要であり、損失とオプティマイザーの選択が重要です。いくつかの構成は収束しません。」 したがって、これはKeras上のLSTM-RNNのハイパーパラメーターのチューニングに関するより一般的な質問です。RNNに最適なパラメーターを見つけるためのアプローチについて知りたいです。 KerasのGithubでIMDBの例から始めました。 メインモデルは次のようになります。 (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = Sequential() model.add(Embedding(max_features, 128, input_length=maxlen)) model.add(LSTM(128)) model.add(Dropout(0.5)) model.add(Dense(1)) model.add(Activation('sigmoid')) # try using different optimizers …

2
深層学習における局所最小点とvs点
Andrew Ng(残念ながらもう見つけられないビデオで)が、深層学習問題における局所的最小値の理解が、高次元の空間(ディープラーニング)クリティカルポイントは、ローカルミニマムではなくサドルポイントまたはプラトーになりやすい。 「すべてのローカルミニマムがグローバルミニマムである」という仮定を議論する論文(たとえば、これ)を見てきました。これらの仮定はすべてかなり技術的ですが、私が理解していることから、それらはニューラルネットワークに構造を課し、それをある程度線形にする傾向があります。 ディープラーニング(非線形アーキテクチャを含む)では、プラトーはローカルミニマムよりも可能性が高いという有効な主張ですか?もしそうなら、その背後に(おそらく数学的な)直感がありますか? ディープラーニングとサドルポイントに特別なことはありますか?

1
ReLUが他のアクティベーション機能より優れている理由
ここでの答えは、-のsigmoidような活性化関数にあった勾配の消失と爆発を指しますが、Relu不利な点があり、それはその期待値です。の出力に制限はないReluため、その期待値はゼロではありません。Reluそれtanhが機械学習の専門家の間で最も人気があった前の時代を覚えていsigmoidます。その理由は、の期待値がtanhゼロに等しく、それがより深い層での学習がニューラルネットでより速くなるのを助けたからです。Reluこの特性はありませんが、その派生的な優位性を脇に置いておくとなぜうまく機能するのでしょうか。さらに、派生物も影響を受ける可能性があると思います。アクティベーション(の出力Relu)更新ルールの計算に関与しています。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.