統計とビッグデータ deep-learning

1

LeCun et al（1998）による「Efficient Backprop」によれば、すべての入力が0を中心とし、最大2次導関数の範囲内になるように正規化することをお勧めします。たとえば、「Tanh」関数には[-0.5,0.5]を使用します。これは、ヘッセ行列がより安定したときの逆伝播の進行を助けるためです。しかし、max（0、x）である整流器ニューロンをどうするかわかりませんでした。（それ以降、ロジスティック関数でも[0.1,0.9]のようなものが必要になりますが、0を中心としていません）

9 machine-learning neural-networks normalization deep-learning multidimensional-scaling

2

シーケンスイベント予測内でのLSTMの最適な使用

次の1次元シーケンスを想定します。 A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... A, B, C, ..ここの文字は「通常の」イベントを表しています。 #, $, %, ...ここの記号は「特別な」イベントを表していますすべてのイベント間の時間間隔は均一ではありませんが（数秒から数日まで）、過去のイベントほど、将来のイベントに影響を与える可能性は低くなります。理想的には、これらの時間遅延を明示的に考慮することができます。通常のイベントタイプは約10000、特別なイベントタイプは約100です。特別なイベントに先行する通常のイベントの量はさまざまですが、100〜300を超えることはほとんどありません。基本的に、特別なイベントを予測できるようになる、通常のイベントシーケンスのパターンを探すことに興味があります。これで、さまざまな方法でこれに取り組むことができます：特徴ベクトル+標準分類、相関ルール学習、HMMなどを作成します。この場合、LSTMベースのネットワークがどのように最適になるかについて興味があります。簡単なのは、Karparthyのchar-rnnのようなことを行い、履歴が与えられたら次のイベントを予測することです。次に、新しいシーケンス C, Z, Q, V, V, ... , V, W モデル全体を実行して、次に来る可能性が最も高い特別なイベントを確認できます。しかし、それは適切なフィット感をまったく感じていません。これは一時的な分類の問題なので、Alex Gravesが説明しているように、Connectionistの一時的な分類を使用するのが適切です。ただし、現時点で多額の投資をする前に、LSTMがどれだけ適切にここに収まるかを感じるために、より簡単で迅速に実験できる何かを探しています。Tensorflowは、ある時点でCTCの例を見ますが、まだ見ていません。だから私の（サブ）質問は：上記の問題があり、LSTMを試してみたいのであれば、char-rnnタイプのアプローチを試してみる価値はありますか。イベント間タイミング情報をどのように明示的に組み込みますか。no-opイベントで固定クロックを使用することは明らかに機能しますが、見苦しいようです。 LSTMをトレーニングできたとしたら、モデルを調べて、どのような種類のイベント「モチーフ」を取得したかを確認する方法はありますか？（つまり、convnetsのフィルターに類似）常に役立つサンプルコード（Pythonを推奨）。編集：シーケンスにノイズがあることを追加するだけです。一部のイベントは安全に無視できますが、正確にどのイベントを前もって言うことが常に可能であるとは限りません。したがって、理想的には、モデル（およびモデルから派生したモチーフ）はこれに対して堅牢です。

9 time-series deep-learning rare-events lstm sequential-pattern-mining

2

ディープラーニングを実際に適用する際のボトルネック

たくさんのディープラーニングペーパーを読んだ後、ネットワークをトレーニングして通常よりも優れたパフォーマンスを得るには多くのトリックが存在するという一種の大まかな感じがあります。業界のアプリケーションの観点からすると、この種のトリックを開発することは、グーグルやフェイスブックなどの大手テクノロジー企業のエリート研究グループを除いて、非常に困難です。次に、ディープラーニングアルゴリズムを実際に適用するための最良の方法は何ですか。ご意見やご提案をいただければ幸いです。

9 machine-learning deep-learning deep-belief-networks

2

LeNetのニューロンの受容野

CNNの受容野をよりよく理解しようとしています。そのために、LeNetの各ニューロンの受容野を計算したいと思います。通常のMLPの場合はかなり簡単ですが（http://deeplearning.net/tutorial/lenet.html#sparse-connectivityを参照）、1つまたは複数の畳み込み層に続く層のニューロンの受容野を計算することは困難です。プーリング層。 2.畳み込み層のニューロンの受容野とは何ですか？次のサブサンプリング/プーリングレイヤーではどれくらい大きいですか？そして、これらを計算するための式は何ですか？

9 deep-learning conv-neural-network

1

スパース入力でニューラルネットワークを使用する場合に従う必要があるガイドライン

入力画像の特定の特徴の場所など、入力が非常にまばらです。さらに、各機能は複数の検出を行うことができます（これがシステムの設計に影響するかどうかは不明です）。これは、その機能の存在を表すONピクセルを備えたkチャネル「バイナリイメージ」として提示するものとします。逆も同様です。このような入力は非常にまばらにバインドされていることがわかります。それでは、ニューラルネットでスパースデータ、特に検出/位置を表すデータを使用する場合の推奨事項はありますか？

9 neural-networks deep-learning sparse

1

ガウス混合モデルを使用した変分オートエンコーダ

変オートエンコーダ（VAE）は確率分布学習の方法を提供入力に関するその潜在表現に。特に、エンコーダーは入力を上の分布にマッピングします。典型的なエンコーダーは、ガウス分布を表すパラメーターを出力します ; この分布は、近似として使用されます。p （x 、z）p（バツ、z）p(x,z)バツバツxzzzeeeバツバツxzzz（μ 、σ）= e （x ）（μ、σ）=e（バツ）(\mu,\sigma)=e(x)N（μ 、σ）N（μ、σ）\mathcal{N}(\mu,\sigma)p （z| x）p（z|バツ）p(z|x) 出力がガウスではなくガウス混合モデルであるVAEを検討した人はいますか？これは役に立ちましたか？これが単純なガウス分布よりもはるかに効果的なタスクはありますか？それともほとんどメリットがありませんか？

9 neural-networks deep-learning autoencoders variational-bayes

4

ツリーベースの回帰は、単純な線形回帰よりもパフォーマンスが悪いのでしょうか？

こんにちは私は回帰技法を勉強しています。私のデータには15の機能と6000万の例（回帰タスク）があります。多くの既知の回帰手法（勾配ブーストツリー、ディシジョンツリー回帰、AdaBoostRegressorなど）を試したところ、線形回帰は優れたパフォーマンスを示しました。これらのアルゴリズムの中でほぼ最高のスコアを獲得しました。これの理由は何ですか？私のデータには非常に多くの例があるので、DTベースの方法はうまく適合できます。正則化された線形回帰の尾根、なげなわのパフォーマンスが悪い誰かが他のパフォーマンスの良い回帰アルゴリズムについて教えてもらえますか？因数分解マシンとサポートベクター回帰は、試すのに適した回帰手法ですか？

9 regression modeling deep-learning model cart

1

セマンティックセグメンテーションの出力形式について

セマンティックセグメンテーションペーパーとそれに対応する実装を読んでいると、ソフトレベルを使用するアプローチもあれば、ピクセルレベルのラベリングにシグモイドを使用するアプローチもあることがわかりました。たとえば、u-netペーパーの場合、出力は2つのチャネルを持つ機能マップです。これらの2つのチャネル出力でsoftmaxを使用する実装をいくつか見ました。以下の理解が正しいかどうかわかりません。説明のために、マスクされた部分はクラス1に属し、他の部分はクラス2に属しています。私は、マスクまたは非マスクの2つのクラスのみを想定しています。 xy出力マップを形状（1、image_row、image_col、2）で表すために使用します。次に、xy[1,0,0,0]クラス1に属する（0,0）xy[1,0,0,1]のピクセルの確率を表しますが、クラス2に属するピクセル（0,0）の確率を表します。xy[1,row,col,0]+xy[1,row,col,1]=1 私の理解は正しいですか？

9 machine-learning deep-learning computer-vision tensorflow

3

ドロップアウト：アクティブ化のスケーリングとドロップアウトの反転

ドロップアウトを人工ニューラルネットワークに適用する場合、トレーニング時にニューロンの一部が非アクティブ化されたという事実を補償する必要があります。これを行うには、2つの一般的な戦略があります。テスト時のアクティベーションのスケーリングトレーニング段階でドロップアウトを反転させる Standford CS231n：Convolutional Neural Networks for Visual Recognitionから抜粋した2つの戦略を以下のスライドにまとめます。どちらの戦略が望ましいですか、そしてなぜですか？テスト時のアクティベーションのスケーリング：トレーニングフェーズ中にドロップアウトを反転する：

9 neural-networks deep-learning dropout

4

ディープニューラルネットワークのセノンは何ですか？

私はこの論文を読んでいます。彼らがCD-DNN-HMM（隠れマルコフモデルを使用したコンテキスト依存のディープニューラルネットワーク）を使用するskypeトランスレータです。私はプロジェクトのアイデアと彼らが設計したアーキテクチャを理解することができますが、セノンは何なのかわかりません。定義を探していましたが、何も見つかりませんでした —電話認識に深い信念ネットワークを使用する際の最近の進歩を活用する、大語彙音声認識（LVSR）の新しいコンテキスト依存（CD）モデルを提案します。出力としてセノン（結ばれたトライフォン状態）上の分布を生成するようにDNNをトレーニングする事前トレーニング済みのディープニューラルネットワークの隠れマルコフモデル（DNN-HMM）ハイブリッドアーキテクチャについて説明しますこれについて説明をいただければ幸いです。編集：この定義はこのホワイトペーパーで見つかりました。マルコフ状態でサブフォネティックイベントをモデル化し、音声の隠れマルコフモデルの状態を基本的なサブフォネティック単位であるsenoneとして扱うことを提案します。単語モデルは状態依存のセノンの連結であり、セノンは異なる単語モデル間で共有できます。最初の論文のアーキテクチャの隠しマルコフモデル部分で使用されていると思います。それらはHMMの状態ですか？DNNの出力？

9 neural-networks deep-learning terminology natural-language hidden-markov-model

3

トレーニングセットのみのデータ拡張？

データ拡張をトレーニングセットのみに適用するのか、トレーニングとテストセットの両方に適用するのが一般的な方法ですか？

9 machine-learning deep-learning regularization data-augmentation

1

データセットの確率分布によって生成されるトレーニングデータの意味

私はディープラーニングの本を読んでいて、次のパラ（109ページ、2番目のパラ）に出くわしました。トレーニングデータとテストデータは、データ生成プロセスと呼ばれるデータセットの確率分布によって生成されます。通常、集合的にiid仮定と呼ばれる一連の仮定を作成します。これらの仮定は、各データセットの例が互いに独立していること、およびトレーニングセットとテストセットが同じように分布しており、互いに同じ確率分布から抽出されていることです。この仮定により、1つの例の確率分布を使用してデータ生成プロセスを説明できます。次に、同じ分布を使用して、すべてのトレインの例とすべてのテストの例を生成します。その共有された基礎となる分布をデータ生成分布と呼び、pdatapdatap_{\text{data}}。この確率論的フレームワークとiidの仮定により、トレーニングエラーとテストエラーの関係を数学的に研究できます。誰かがこの段落の意味を説明してくれませんか？ 122ページの最後の段落では、例も示していますサンプルのセット {x(1),…,x(m)}{x(1),…,x(m)}\{x(1), \dots, x(m) \} 平均を伴うベルヌーイ分布に従って独立して同一に分布している θθ\theta。これは何を意味するのでしょうか？ここでは、さらに具体的な質問をいくつか示します。データセットの確率分布：データセットとは何ですか？確率分布はどのように生成されますか？例は互いに独立しています。例が依存している場所の例を教えてもらえますか？互いに同じ確率分布から引き出されます。確率分布がガウスであると仮定します。「同じ確率分布」という用語は、すべての例が同じ平均と分散のガウス分布から抽出されることを意味しますか？「この仮定は私たちを可能にします」。これは何を意味するのでしょうか？最後に、122ページの最後の段落では、サンプルがベルヌーイ分布に従うことが示されています。これは直感的にどういう意味ですか？

9 deep-learning

2

tf.nn.dynamic_rnn（）の出力は何ですか？

私は公式文書から私が何を理解しているかについて確信がありません、それは言う：戻り値：ペア（出力、状態）ここで： outputs：RNN出力テンソル。 time_major == False（デフォルト）の場合、これはTensorシェイプになります： [batch_size, max_time, cell.output_size]。の場合time_major == True、これはTensorシェイプになります[max_time, batch_size, cell.output_size]。場合注は、cell.output_size整数またはTensorShapeオブジェクトの（おそらくネスト）タプルは、次に、出力タプルが、cell.output_sizeと同じ構造を有するにおける形状データに対応する形状を有するテンソルを含むであろうcell.output_size。 state：最終状態。cell.state_sizeがintの場合、これはShapedになります[batch_size, cell.state_size]。TensorShapeの場合、これは整形され[batch_size] + cell.state_sizeます。それが（おそらくネストされた）intまたはTensorShapeのタプルである場合、これは対応する形状を持つタプルになります。セルがLSTMCellsの場合、状態は各セルのLSTMStateTupleを含むタプルになります。であるoutput[-1]は常に（RNN、GRU、LSTMすなわち3つのすべての細胞型において）状態に（リターンタプルの2番目の要素）を等しく？どこにでもある文献は、隠された状態という用語の使用においては自由主義的すぎると思います。3つすべてのセルの非表示状態がスコアになりますか？

8 deep-learning lstm tensorflow rnn gru

2

深層学習はいつ失敗しますか？

深層学習は、今日ますます注目を集めているトピックです。一部のデータセットでディープラーニングを欠く主な前提は何ですか。例：ノイズの多いデータセットでうまく機能しますか？

8 machine-learning mathematical-statistics deep-learning

2

ディープネットの基底展開はどのくらい重要ですか？

ディープニューラルネットがユニバーサル関数近似法であると考えられる場合、基底展開は本当に必要ですか？または、これはケース固有ですか？たとえば、3つの定量的X変数がある場合、交互作用、多項式などを導入することによって変数の数を拡張することで何か利点がありますか？これは、RFやSVMなどで優れたユーティリティを持っているようですが、これがニューラルネットの優れた戦略になるかどうかはわかりません。これが広すぎるか漠然としている場合、ディープネットのコンテキストでの基底の拡張と機能エンジニアリングに関するいくつかの関連情報を誰かに教えてもらえますか？

8 neural-networks deep-learning feature-construction

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」