統計とビッグデータ neural-networks

1

非線形境界の分類問題は、単純なパーセプトロンでは解決できません。次のRコードは説明のためのものであり、Python でのこの例に基づいています）。 nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 l1_delta <- l1_error …

10 r neural-networks svm kernel-trick perceptron

2

ニューラルネットワークのクロスエントロピーコスト関数

私はこのチュートリアルにあるクロスエントロピーコスト関数を見ています： C=−1n∑x[ylna+(1−y)ln(1−a)]C=−1n∑x[yln⁡a+(1−y)ln⁡(1−a)]C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] 正確には何を合計しているのですか？それはもちろん、上、あるが、とで変わらない。すべてのは、1つのへの入力です。は、方程式の上の段落で、すべてのとの合計の関数として定義されています。 xxxyyyaaaxxxxxxaaaaaawwwxxx また、はこの特定のニューロンへの入力数として定義されていますよね？「トレーニングデータの総数」と表現されています。nnn 編集：私はそれを正しいと思いますか C=−1n∑x[ylna+(1−y)ln(1−a)]C=−1n∑x[yln⁡a+(1−y)ln⁡(1−a)]C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] ネットワーク全体のコスト関数になりますが、 C=[ylna+(1−y)ln(1−a)]C=[yln⁡a+(1−y)ln⁡(1−a)]C = [y \ln a+(1−y)\ln(1−a)] 個々のニューロンのコストでしょうか？合計は各出力ニューロンを超えるべきではありませんか？

10 neural-networks error-propagation

2

バックプロパゲーションを介してSVMをトレーニングする方法は？

バックプロパゲーションを使用してSVMをトレーニングする（たとえば、物事を簡単にするために線形のものにする）ことが可能かどうか疑問に思いましたか？現在、分類器の出力を f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) したがって、「後方パス」（伝播エラー）を計算して計算すると、以降の誘導体は sgn（x）dsgn（x）∂E∂バツ= ∂E∂f（x ; θ 、b ）∂f（x ; θ 、b ）バツ= ∂E∂f（x ; θ 、b ）∂sgn （g（x ; θ 、b ））∂g（x ; θ 、b ）∂g（x ; θ 、b ）∂バツ= δdsgn （z）dzθ= δ⋅ 0 ⋅ θ= 0∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0 \begin{align} \frac{\partial E}{\partial …

10 machine-learning neural-networks svm gradient-descent backpropagation

3

ニューラルネットワークは、機能とその機能的派生物を学習できますか？

ニューラルネットワーク（NN）は、特定の仮定（ネットワークと近似する関数の両方）の下で、関数とその導関数の両方に対するユニバーサル近似と見なすことができることを理解しています。実際、私は単純であるが自明ではない関数（たとえば、多項式）に対していくつかのテストを行っており、確かにそれらとそれらの1次導関数をよく近似できるようです（例を以下に示します）。しかし、私には明確でないのは、上記につながる定理が汎関数とその汎関数導関数に拡張される（または拡張される可能性がある）かどうかです。たとえば、汎関数：を汎関数微分：考えここで、は、完全かつ非自明に依存します。NNは上記のマッピングとその機能的導関数を学習できますか？より具体的には、ドメインをで離散化し、（離散化された点で）を入力として提供し、F[ f（x ）] = ∫badx f （x ）g（x ）F[f(x)]=∫abdx f(x)g(x)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation}δF[ f（x ）]δf（x ）= g（x ）δF[f(x)]δf(x)=g(x)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation}f（x ）f(x)f(x)g（x ）g(x)g(x)バツxx[ a 、b ][a,b][a,b]f（x ）f(x)f(x)F[ f（x ）]F[f(x)]F[f(x)]出力として、NNはこのマッピングを（少なくとも理論的には）正しく学習できますか？もしそうなら、それはマッピングの機能的導関数も学ぶことができますか？私はいくつかのテストを行いましたが、NNは確かにある程度マッピング学習するようです。ただし、このマッピングの精度は問題ありませんが、それほど優れていません。そして厄介なのは、計算された関数微分が完全なガベージであるということです（これらの両方はトレーニングなどの問題に関連している可能性があります）。以下に例を示します。F[ f（x ）]F[f(x)]F[f(x)] NNが汎関数とその汎関数微分の学習に適していない場合、別の機械学習方法はありますか？例： A NNが関数学習するように訓練された：（1）以下では、関数とその導関数近似の例である範囲[-3,2]の上には：その妥当からへの近似が得られます：予想どおり、へのNN近似とその1次導関数は、トレーニング中により良い最小値が見つかるなど、トレーニングポイントの数、NNアーキテクチャーとともに向上することに注意してください。f（x …

10 machine-learning neural-networks function derivative

2

事前トレーニングとは何ですか？また、どのようにニューラルネットワークを事前トレーニングしますか？

従来のトレーニングの問題の一部を回避するために事前トレーニングが使用されていることを理解しています。オートエンコーダなどでバックプロパゲーションを使用すると、バックプロパゲーションが遅いために時間の問題が発生することを知っています。また、ローカルオプティマで動けなくなり、特定の機能を学習できない場合もあります。私が理解していないのは、ネットワークをどのように事前トレーニングするか、具体的に事前トレーニングするために何をするかです。たとえば、制限されたボルツマンマシンのスタックが与えられた場合、このネットワークをどのように事前トレーニングしますか？

10 machine-learning neural-networks backpropagation rbm pre-training

1

CNNの畳み込み演算子の数を決定する方法は？

オブジェクト分類などのコンピュータービジョンタスクでは、畳み込みニューラルネットワーク（CNN）を使用して、ネットワークが魅力的なパフォーマンスを提供します。しかし、畳み込みレイヤーでパラメーターを設定する方法がわかりません。たとえば、グレースケール画像（480x480）では、最初のたたみ込み層はのようなたたみ込み演算子を使用できます11x11x10。ここで、10はたたみ込み演算子の数を意味します。問題は、CNNの畳み込み演算子の数をどのように決定するかです。

10 neural-networks deep-learning conv-neural-network computer-vision

4

ニューラルネットワーク、auto.arimaおよびetsを使用したR時系列予測

ニューラルネットワークを使用して時系列を予測することについて少し聞いたことがあります。比較するにはどうすればよいですか？auto.arima（x）、ets（x）、またはnnetar（x）の時系列（日次小売データ）を予測する方法はどちらが優れていますか。 auto.arimaとetsをAICまたはBICで比較できます。しかし、どうすればニューラルネットワークと比較できますか？例えば： > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, 1864, 2088, 2084, 594, 884, 1968, 1858, 1640, 1823, 1938, 1490, 1312, 2312, 1937, 1617, 1643, 1468, …

10 r neural-networks forecasting arima exponential-smoothing

1

CPH、加速故障時間モデル、または生存分析のためのニューラルネットワークの比較

私は生存分析が初めてですが、特定の目標を前提としてそれを行うにはさまざまな方法があることを最近知りました。これらの方法の実際の実装と妥当性に興味があります。時間、ステータス、その他の医療データを考慮して患者の生存率を上げる方法として、従来のCox比例ハザード、加速故障時間モデル、ニューラルネットワーク（多層パーセプトロン）が提示されました。研究は5年で決定されると言われ、目標は新しい記録が与えられるために毎年生存リスクを与えることです。 Cox PHで他の方法が選択された2つのインスタンスが見つかりました。「Cox PHモデルから生存時間に関する予測を取得する方法」が見つかり、次のように述べられました。特定の時点での生存確率の推定値に特に関心がある場合は、パラメトリック生存モデル（別名、加速故障時間モデル）を紹介します。これらは、Rの生存パッケージに実装されており、パラメトリックな生存時間分布を提供します。ここで、関心のある時間をプラグインするだけで、生存確率を取得できます。私は推奨サイトに行って、survivalパッケージの 1つ-関数を見つけましたsurvreg。このコメントでニューラルネットワークが提案されました： ...生存分析へのニューラルネットアプローチの1つの利点は、Cox分析の根底にある仮定に依存しないことです... 「生存予測を含む出力としてターゲットベクトルを使用したRニューラルネットワークモデル」という質問を持つ別の人は、ニューラルネットワークとCox PHの両方で生存を決定する包括的な方法を示しました。サバイバルを取得するためのRコードは次のようになります。 mymodel <- neuralnet(T1+T2+T3+T4+T5~covar1+covar2+covar3+..., data=mydata, hidden=1) compute(mymodel,data=mydata) 私はRフォーラムに行って、この回答を質問「predict.coxphとpredict.survreg」で見つけました。実際、のpredict()関数からcoxph直接「時間」予測を取得することはできず、線形で指数的なリスクスコアのみを取得できます。これは、時間を取得するためにベースラインハザードを計算する必要があり、Coxモデルでは暗黙的であるため簡単ではないためです。興味のある期間の生存率を得るのに、3つ（またはCox PHに関する議論を考慮した2つ）が最適かどうか疑問に思っていましたか？どちらを生存分析に使用するか混乱しています。

10 r machine-learning survival neural-networks cox-model

2

ロジスティック関数で変換されたガウス確率変数の期待値

通常、ロジスティック関数と標準偏差はどちらも表されσσ\sigmaます。標準偏差にはσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))とsssを使用します。私はランダムな入力を持つロジスティックニューロンを持っています。その平均μμ\muと標準偏差sssは知っています。平均との差がガウスノイズで近似できることを願っています。したがって、表記を少し乱用して、生成すると仮定しますσ(μ+N(0,s2))=σ(N(μ,s2))σ(μ+N(0,s2))=σ(N(μ,s2))\sigma(\mu + N(0,s^2))=\sigma(N(\mu,s^2))。σ （N （μ 、s 2））の期待値は何ですか？σ(N(μ,s2))σ(N(μ,s2))\sigma(N(\mu,s^2))標準偏差sssは、μμ\muまたはと比較して大きい場合と小さい場合があります111。期待値の適切な閉じた形の近似は、閉じた形の解とほぼ同じです。閉じた形のソリューションは存在しないと思います。これは、畳み込みとみなすことができ、およびロジスティック密度のための特徴的な機能が知られている（）が、私は確かにそれがどのように役立つかあまりないです。逆シンボリック計算機はで密度を認識することができませんでした0ロジスティック分布の密度の畳み込みと示唆しているが、単純な基本整数が存在しないことを証明しない標準正規分布、の。より状況証拠：ロジスティックニューロンを含むニューラルネットワークにガウス入力ノイズを追加することに関するいくつかの論文では、これらの論文は閉形式の式も提供していませんでした。πt csch πtπt csch πt\pi t ~\text{csch} ~\pi t000 この質問は、ボルツマンマシンの平均場近似の誤差を理解しようとするときに生じました。

10 distributions normal-distribution neural-networks mathematical-statistics expected-value

4

ニューラルネットワークとディープラーニングの違い

ニューラルネットワークとディープラーニングの違いに関しては、より多くのレイヤーが含まれている、大規模なデータセット、強力なコンピューターハードウェアなど、複雑なモデルのトレーニングを可能にするいくつかの項目をリストできます。これらに加えて、NNとDLの違いに関する詳細な説明はありますか？

10 machine-learning neural-networks deep-learning conv-neural-network deep-belief-networks

3

ニューラルネットワークをトレーニングして特定のスタイルで絵を描くことはできますか？

特定のスタイルで絵を描くようにニューラルネットワークをトレーニングすることは可能ですか？（つまり、画像を取得し、トレーニングされたスタイルで再描画します。）そのようなことについて承認された技術はありますか？DeepArtアルゴリズムについて知っています。メイン画像を特定のパターン（たとえば、vangoghify画像）で塗りつぶすのは良いことですが、たとえば、入力されたポートレートから特定のスタイルで漫画を作成するなど、別のものを探しています。

10 machine-learning neural-networks deep-learning

4

ニューラルネットワークの重みの収束

500回繰り返してもニューラルネットワークの重みが収束しない状況になりました。ニューラルネットワークには、1つの入力レイヤー、1つの非表示レイヤー、および1つの出力レイヤーが含まれています。それらは、入力層に約230ノード、非表示層に9ノード、出力層に1出力ノードです。早期停止条件（たとえば、100回の反復後にニューラルネットワークのトレーニングを停止する）を実行する場合、これはモデルにどのような影響を与えますか？また、ニューラルネットワークの重みが収束していない場合の業界標準の作業標準について教えてください。

10 machine-learning neural-networks

2

AlphaZeroペーパーにおけるディリクレノイズの目的

DeepMindのAlphaGo ZeroとAlphaZeroの論文では、モンテカルロツリー検索でルートノード（ボード状態）からのアクションの以前の確率にディリクレノイズを追加することについて説明しています。追加の探査は、ルートノードに事前確率にノイズディリクレを添加することによって達成される、具体的にはP （S 、）= （1 - ε ）P A + ε η A、ここでη 〜ディレクトリ（0.03 ）およびε = 0.25 ; このノイズにより、すべての動きが試行される可能性がありますが、検索は依然として悪い動きを無効にする可能性があります。s0s0s_0P(s,a)=(1−ε)pa+εηaP(s,a)=(1−ε)pa+εηaP(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_aη∼Dir(0.03)η∼Dir(0.03)\eta \sim \text{Dir}(0.03)ε=0.25ε=0.25\varepsilon = 0.25 （AlphaGo Zero）そして：ディリクレノイズがルートノードの以前の確率に追加されました。これは、典型的な位置での法的な動きのおおよその数に反比例して、α = { 0.3の値にスケーリングされました。Dir(α)Dir(α)\text{Dir}(\alpha)チェス、将棋、囲碁はそれぞれ 0.03 }。α={0.3,0.15,0.03}α={0.3,0.15,0.03}\alpha = \{0.3, \; 0.15, \; 0.03\} （AlphaZero）私が理解していない2つのこと： P(s, a)ある次元ベクトル。あるディレクトリ（α ）とディリクレ分布のための速記Nパラメータ値と各αは？nnnDir(α)Dir(α)\text{Dir}(\alpha)nnnαα\alpha 私は多項分布の前の共役としてディリクレに出くわしました。なぜここで選ばれたのですか？ …

10 machine-learning neural-networks dirichlet-distribution

2

WaveNetは拡張された畳み込みではありませんか？

最近のWaveNetの論文では、著者はモデルを拡張された畳み込みの層が積み重なっていると言及しています。彼らはまた、「通常の」畳み込みと拡張された畳み込みの違いを説明する次のチャートを作成します。通常の畳み込みは次のようになります。これは、フィルターサイズが2でストライドが1の畳み込みで、4層で繰り返されます。次に、モデルで使用されるアーキテクチャを示します。これは、拡張畳み込みと呼ばれます。こんな感じです。彼らは、各層の膨張が（1、2、4、8）増加していると言います。しかし、私にとってこれは、フィルターサイズが2でストライドが2の通常の畳み込みのように見え、4つのレイヤーで繰り返されます。私が理解しているように、フィルターサイズが2、ストライドが1、拡張が（1、2、4、8）の拡張畳み込みは次のようになります。 WaveNetダイアグラムでは、どのフィルターも使用可能な入力をスキップしません。穴はありません。私の図では、各フィルターは（d-1）の利用可能な入力をスキップします。これは、拡張が機能しないことになっていますか？だから私の質問は、次の命題のどれが（もしあれば）正しいですか？拡張された畳み込みや定期的な畳み込みが理解できません。 Deepmindは実際には拡張された畳み込みを実装していませんが、ストライドされた畳み込みを実装していましたが、拡張という単語を誤用していました。 Deepmindは拡張された畳み込みを実装しましたが、チャートを正しく実装しませんでした。 TensorFlowコードを十分に理解していないため、コードが正確に何をしているのかを理解できませんが、この質問に答えられるコードが含まれているStack Exchangeに関連する質問を投稿しました。

10 neural-networks deep-learning conv-neural-network tensorflow

4

複数の出力回帰のためのニューラルネットワーク

34の入力列と8つの出力列を含むデータセットがあります。問題を解決する1つの方法は、34の入力を受け取り、各出力列に対して個別の回帰モデルを構築することです。この問題は、特にニューラルネットワークを使用して、1つのモデルだけで解決できるかどうか疑問に思っています。多層パーセプトロンを使用しましたが、線形回帰のように複数のモデルが必要です。シーケンスツーシーケンス1の学習は実行可能なオプションですか？TensorFlowを使用してみましたが、float値を処理できないようです。特にニューラルネットワークを使用して1つの統合モデルのみを使用してこの問題に取り組むための提案があれば、高く評価されます。 Ilya Sutskever、Oriol Vinyals、＆Quoc V. Le（2014）。ニューラルネットワークを使用したシーケンス間学習神経情報処理システムの進歩、27。（pdf）

10 neural-networks deep-learning multivariate-regression

タグ付けされた質問 「neural-networks」

タグ付けされた質問「neural-networks」