統計とビッグデータ deep-learning

2

word2vecの元の目的関数に対する負のサンプリング（NS）目的関数の関係はどのようなものですか？

私は、標準/有名な読んでいたword2vecするためのモデルをしてstandordのメモによるとcs224n：から目的関数の変化を JO R I GI N L= −Σj = 0 、j ≠ m2 メートルあなた⊤c − m + jvc+ 2 m l o g（Σk = 1| V|e x p （あなた⊤kvc））Joriginal=−∑j=0,j≠m2muc−m+j⊤vc+2mlog(∑k=1|V|exp(uk⊤vc))J_{original} = -\sum^{2m}_{j=0,j\neq m} u^\top_{c-m+j} v_c + 2m log \left( \sum^{|V|}_{k=1} exp(u^{\top}_k v_c) \right) に： JNS1= − l o gσ（あなた⊤c − m …

8 neural-networks deep-learning natural-language word2vec word-embeddings

1

ディープラーニング：なぜbatch_sizeを増やすとオーバーフィッティングが発生し、どうやってそれを減らすのですか？

以前はローカルマシンでモデルをトレーニングしていましたが、メモリはバッチごとに10のサンプルで十分です。ただし、モデルをAWSに移行し、より大きなGPU（Tesla K80）を使用した場合、バッチサイズ32に対応できました。しかし、AWSモデルはすべて非常に不十分であり、過剰適合を示しています。なぜこれが起こるのですか？私が現在使用しているモデルはinception-resnet-v2モデルであり、対象としている問題はコンピュータービジョンモデルです。私が考えることができる1つの説明は、それがおそらくバッチノルムプロセスであるため、バッチイメージにより慣れているということです。緩和策として、batch_normの減衰移動平均を減らしました。また、dropoutをbatch_normと一緒に使用する必要がありますか？この習慣は一般的ですか？私のトレーニング画像は約5000ですが、約60エポックでトレーニングしました。これはよく考慮されますか、それとも早くトレーニングを中止する必要がありますか？

8 machine-learning deep-learning computer-vision

1

完全畳み込みニューラルネットワークでのパッチごとのトレーニングと完全畳み込みトレーニング

完全畳み込みニューラルネットワークの論文では、著者はパッチワイズトレーニングと完全畳み込みトレーニングの両方に言及しています。トレーニングセットの構築に関する私の理解は次のとおりです。与えられたM*M画像、抽出サブ画像とN*N（、 N<M）を。選択したサブ画像は、他のサブ画像と重複しています。トレーニングプロセスのバッチごとに、特定の画像または複数の画像のすべてのサブ画像を含めることができます。私の理解は正しいですか？それでは、パッチごとのトレーニングと完全なたたみ込みトレーニングの違いは何ですか？関連セクションを参照として含めます。

8 machine-learning deep-learning data-mining conv-neural-network computer-vision

3

Deep Deterministic Policy Gradient（DDPG）アルゴリズムでのActor Gradient Updateの計算

この質問は、DDPGに関するディープマインドペーパー（https://arxiv.org/pdf/1509.02971v5.pdf）に関するものです。私が見たほとんどの（すべて？）実装のDDPGアルゴリズムは、、ここではアクターネットワークのパラメーターを表し、はアクターネットワークを表し、は批評家ネットワークを表し、は状態を表します入力。これを式1と呼びます。∇ （J）=∇μ （s | θ ）（Q （s 、μ （s | θ ））∇θ（μ （s | θ ））∇(J)=∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ))\nabla(J)=\nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta))θθ\thetaμμ\muQQQsss 論文に示されている式1は、チェーンルールをことで得られます。これにより、。∇ （J）=∇θ（Q （s 、μ （s | θ ））∇(J)=∇θ(Q(s,μ(s|θ))\nabla(J)=\nabla_{\theta}(Q(s,\mu(s|\theta))∇μ （s | θ ）（Q （s 、μ （s | θ ））∇θ（μ （s | θ ））∇μ(s|θ)(Q(s,μ(s|θ))∇θ(μ(s|θ)) \nabla_{\mu(s|\theta)}(Q(s,\mu(s|\theta))\nabla_{\theta}(\mu(s|\theta)) 私の質問は、auto-gradソフトウェアパッケージ（Theano / Tensorflow / Torch / etc）を使用して、 wrt出力の勾配を直接計算できなかった理由があるのですか？何らかの理由で、すべての実装は、最初に wrtの出力の勾配を計算してから、チェーンルールに従って wrtからへ勾配を乗算します。彼らがこれを行う理由がわかりません- …

8 machine-learning neural-networks deep-learning reinforcement-learning

2

テストセットを検証セットとして使用できない理由

テストセットを検証セットとして使用しないでください。どうして？検証セットは、モデルパラメーターが修正されたときに実行され、学習はトレーニングバッチのバックプロップを介してのみ行われます。では、なぜ検証データを検証データとして使用できないのでしょうか？

8 machine-learning neural-networks cross-validation deep-learning

1

マルチエージェントの俳優批評家のMADDPGアルゴリズムの混乱

私は、openAIからの論文「Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments」を理解しようとしています論文では、サブポリシーからサンプリングすることにより、環境の非定常性の問題に対処していると述べています。（1）サブサンプリングによって非定常性の問題がどのように解決されるのか、および（2）個々のエージェントに複数の可能な（サブ）ポリシーがある理由-各エージェントに単一の最適なポリシーがあるべきではないのですか？

7 machine-learning deep-learning reinforcement-learning

2

ディープラーニングで機能変換（パワー、ログ、Box-Cox）は必要ですか？

機械学習モデルに到達する前に、特定の一般的な特徴変換をデータセットに適用することが有益であると読みました。これらは、データセットの機能の分布に基づいています。たとえば、歪んだ正規分布機能にログ変換を適用します。ここにいくつかの例があります。私が理解しているように、ディープラーニングの主な恩恵は「自動特徴エンジニアリング」（別名「特徴学習」）です。機能の組み合わせも含まれます。しかし私の直感には、上記の学習された機能変換も含まれていると言いますか？したがって、十分に調整されたハイパーを備えたディープネットワークを使用する場合、機能変換を人間の責任から安全に削除できます。つまり、このlog / square / box-coxのすべてのものを破棄しますか？ [編集]追加：これは、「機能の選択」（含まない入力の決定）も処理しますか？

7 neural-networks deep-learning data-transformation

1

ディープラーニングによるワンショットオブジェクト検出

近年、オブジェクト検出の分野は、ディープラーニングパラダイムの普及後、大きな進歩を遂げました。YOLO、SSD、FasterRCNNなどのアプローチは、オブジェクト検出の一般的なタスクにおいて最新技術を保持します[ 1 ]。ただし、特定のアプリケーションシナリオで、検出するオブジェクト/ロゴの参照画像が1つしか与えられていない場合、ディープラーニングベースの方法は適用性が低く、SIFTやSURFなどの局所特徴記述子がより適切な代替手段として表示されます。導入コストはほぼゼロです。私の質問は、ディープラーニングがオブジェクトクラスごとに1つのトレーニング画像だけでオブジェクト検出にうまく使用されているアプリケーション戦略（できれば、それらを説明する研究論文だけでなく、利用可能な実装）を指摘できますか？アプリケーションシナリオの例：この場合、SIFTは画像内のロゴを正常に検出します。

7 neural-networks deep-learning image-processing computer-vision object-detection

1

ディープラーニングを理解するための情報ボトルネック原則の価値について、現在コンセンサスはありますか？

TishbyとZaslavskyは2015年に、いわゆる情報ボトルネック原理を使用してディープニューラルネットワークのいくつかの動作を理解できると主張する有名な論文を発表しました。で（2017年4月）より最近の論文、シュワルツ-Ziv符号とTishbyは特に結果の一部を可視化する、これらの請求に展開します。 2017年の後半に、Saxeらの批評論文。OpenReviewのWebサイトに投稿されました（最近の改訂は2週間前）。Schwartz-Ziv-Tishbyの論文で出された主張の多くは支持されない、または少なくとも主張されている一般性ではないと主張している。実際、私がそれらを正しく読んでいる場合、視覚化された結果は活性化機能の選択のアーチファクトであると彼らは主張します-理論によれば重要ではない何か。しかし、コメントの中で、シュワルツ-ジブとティシュビーは批評が的を外していると批判的な論文に関するコメントの長いリストを見せてくれます。これに批判的な論文の著者が順番に答えますが、おそらく会話はまだ終わっていません。情報のボトルネックの深層学習の側面についての調査プロジェクトを開始することに関心がありますが、すでに「反駁されている」ことを学ぶのに時間を浪費するのではないかと心配しています。したがって、私の質問は次のとおりです。ディープラーニングを理解するための情報ボトルネック原理の適用性に関する現在の専門家の意見は何ですか？特に、私がリンクしたもの以外のテーマの研究、および専門家による（直接的または間接的な）解説に興味があります。

7 neural-networks references deep-learning information-theory

2

機械学習を使用してテキストから特定の情報を抽出する方法は？

以下のようなテキストがあり、通常2/3の文と100〜200文字のテキストがあるとします。ジョニーはウォルマートから50ドルの牛乳を買いました。今、彼はたったの20ドルしか残していない。抽出したい人名：ジョニー使用済み：50ドル残金：20ドル。使用した場所：ウォルマート。私はリカレントニューラルネットワークに関する多くの資料を調べてきました。RNNでcs231nビデオを見て、次のキャラクター予測を理解しました。これらのケースでは、確率を使用して次の文字を見つけるために出力クラスとして使用できる26文字のセットがあります。しかし、ここでは出力クラスがわからないため、問題はまったく異なるように見えます。出力は、テキスト内の単語や数字に依存します。ランダムな単語や数字を使用できます。畳み込みニューラルネットワークでもテキストの特徴を抽出できることをQuoraで読みました。それもこの特定の問題を解決できるかどうか疑問に思いますか？

7 machine-learning deep-learning data-mining text-mining rnn

3

の勾配降下

新しい蒸留ジャーナルからの投稿、Why Momentum Really Worksを読んでいます。混乱を招く部分に至る主要な方程式を言い換えますが、この投稿では直感について詳しく説明しています。勾配降下アルゴリズムは、次の反復プロセスによって与えられます wk+1=wk−α∇f(wk)wk+1=wk−α∇f(wk)w^{k+1} = w^k-\alpha \nabla f(w^k) どこ wkwkw^k 反復の値です kkk、学習率は αα\alpha そして ∇f(w)∇f(w)\nabla f(w) 関数の勾配です fff で評価された www。関数fff 最小化したい。運動量を伴う勾配降下は、降下に「記憶」を追加することによって与えられます。これは、2つの方程式で表されます。 zk+1wk+1=βzk+∇f(wk)=wk−αzk+1zk+1=βzk+∇f(wk)wk+1=wk−αzk+1\begin{align} z^{k+1} &= \beta z^k + \nabla f(w^k) \\ w^{k+1} &= w^k - \alpha z^{k+1} \end{align} 次のセクション「最初のステップ：勾配降下」では、著者は凸2次関数を検討します。 f(w)=12wTAw−bTw,w∈Rn,A∈Rn,nf(w)=12wTAw−bTw,w∈Rn,A∈Rn,nf(w) = \frac12w^TAw-b^Tw, \quad w \in \mathbb{R}^n, A \in …

7 machine-learning optimization deep-learning

1

深い信念ネットワーク（DBN）がほとんど使用されないのはなぜですか？

私はイアンとアロンによる深層学習についてこの本を読んでいました。DBNの説明では、DBNは支持を失い、めったに使用されていません。深い信念ネットワークは、MNISTデータセットでカーネル化されたサポートベクターマシンよりも優れたパフォーマンスを発揮することで、深いアーキテクチャが成功することを実証しました（Hinton et al。、2006）。今日、ディープビリーフネットワークは、他の教師なしまたは生成型学習アルゴリズムと比較しても、ほとんど支持されなくなっており、ほとんど使用されていませんが、ディープラーニングの歴史における重要な役割が認められています。理由がわかりません。

7 machine-learning deep-learning deep-belief-networks

2

トリプレットネットワークのL2正規化の目的

顔認識のためのトリプレットベースの遠隔学習は非常に効果的です。紙の特定の側面に興味があります。顔の埋め込みを見つける一環として、L2正規化を使用して隠しユニットを正規化します。これにより、表現が超球上にあるように制約されます。なぜそれが役立つか必要なのですか？

7 neural-networks deep-learning normalization image-processing

1

非線形次元削減：幾何学的/トポロジーアルゴリズムと自動エンコーダ

私が理解しているように、非線形次元削減には3つの主要なアプローチがあります。多様体学習（ISOMAP、LLE、LTSAなどの幾何学的/トポロジーアルゴリズム）オートエンコーダー最初の2つのカテゴリに当てはまらないもの（確率に基づくt-SNE、カーネルPCAなど）最初の2つのアプローチの利点と欠点は何ですか？オートエンコーダーが、ディープラーニングのようなマニホールドラーニングを完全に上回って、パフォーマンスの点でほとんどの機械学習アルゴリズムに影を落とすのではないでしょうか。

7 machine-learning deep-learning dimensionality-reduction autoencoders manifold-learning

1

U-Netはどのようにしてピクセル分類を単一の空間領域にグループ化しますか？

「U-Net」として知られるニューラルネットワーク（Ronneberger、Fischer、およびBrox 2015）は、Kaggleの最近の超音波神経セグメンテーションコンテストで著名な技術でした。そこでは、高いスコアが、手描きの領域。（クリストファーヘフェレからの写真）（おそらくダウンサンプリングされた画像から）すべてのピクセルの分類を続行する場合、隣接するピクセルが同じクラスになる傾向があるという事前の知識を組み込む多くの方法が必要であり、さらにすべての正の分類が単一の空間領域。しかし、私はこれらのU-Netsがどのようにそれをしているのか理解できません。畳み込み演算子とプーリング演算子の迷路ではありますが、これらはすべてのピクセルを分類します。分離の境界線が関係していますが、紙はそれらが「形態学的演算を使用して計算される」と述べており、これは私がU-Net自体から完全に分離していることを意味します。これらの境界線は、境界線のピクセルがより強調されるように、重みを変更するためにのみ使用されます。それらは分類タスクを根本的に変えるようには見えません。すべてのピクセルを分類する際、「U-Net」と呼ばれるこの深い畳み込みニューラルネットワークは、予測領域が単一の空間領域になるという事前知識をどのように組み込んでいますか？

7 neural-networks deep-learning biostatistics conv-neural-network image-processing

タグ付けされた質問 「deep-learning」

タグ付けされた質問「deep-learning」