統計とビッグデータ derivative

6

私は、ソフトマックス/クロスエントロピー出力層での逆伝播の仕組みを理解しようとしています。クロスエントロピー誤差関数は E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j とニューロンにおける目標出力としてそれぞれ。合計は、出力層の各ニューロンに対するものです。自体は、関数の結果です。tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} この場合も、合計は出力層の各ニューロンあり、はニューロンへの入力です。zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b これは、対応する出力とニューロンに対する重みにバイアス加えた、前の層のすべてのニューロンの合計です。oioio_iwijwijw_{ij}jjjbbb ここで、出力層のニューロンを前の層のニューロンに接続する重みを更新するには、チェーンルールを使用して誤差関数の偏微分を計算する必要があります。wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} ニューロンへの入力として、。zjzjz_jjjj 最後の用語は非常に簡単です。と間に重みが1つしかないため、導関数は次のようになります。iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i 最初の項は、出力に関するエラー関数の導出です。ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j} 中間項は、その入力に対する関数のが難しいことです。zjzjz_j ∂oj∂zj=∂∂zjezj∑jezj∂oj∂zj=∂∂zjezj∑jezj\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j …

40 backpropagation derivative softmax cross-entropy

4

ロジスティック回帰のコスト関数はどのように導出されますか

Courseraで機械学習のスタンフォードコースを受講しています。ロジスティック回帰の章では、コスト関数は次のとおりです。次に、ここから派生します。コスト関数の導関数を取得しようとしましたが、まったく異なるものが得られました。導関数はどのように取得されますか？中間ステップはどれですか？

29 regression logistic gradient-descent derivative

1

リバースモード自動微分のステップバイステップの例

この質問がここに属するかどうかはわかりませんが、最適化における勾配法と密接に関連しています。これはここではトピックのようです。とにかく、他のコミュニティがこのトピックについてより良い専門知識を持っていると思うなら、気軽に移行してください。要するに、私は逆モード自動微分の段階的な例を探しています。トピックに関する文献はそれほど多くなく、既存の実装（TensorFlowのようなもの）は、その背後にある理論を知らずに理解するのは困難です。したがって、私たちが何を渡し、どのように処理し、計算グラフから何を取り出すかを誰かが詳細に示すことができれば、非常に感謝しています。私が最も苦労しているいくつかの質問：種 -なぜそれらが必要なのですか？逆微分ルール -前方微分を行う方法を知っていますが、どのように後方に進みますか？たとえば、このセクションの例では、をどのように知ることがますか？w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 我々はして作業を行うだけで、シンボルの実際を介して、またはパス値は？たとえば、同じ例では、と記号または値はありますか？wiwiw_iwi¯wi¯\bar{w_i}

27 optimization derivative tensorflow automatic-differentiation

1

確率密度関数の変数の変化の導出？

本のパターン認識と機械学習（式1.27）では、 py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | ここで、x=g(y)x=g(y)x=g(y)、px(x)px(x)p_x(x)は、変数の変化に関して対応するpdfpy(y)py(y)p_y(y)です。書籍は、その観察が範囲に入るので、それがだと言う、の値が小さいためであろうδ X、範囲に変換する（Y 、Y + δ Y ）。(x,x+δx)(x,x+δx)(x, x + \delta x)δxδx\delta x(y,y+δy)(y,y+δy)(y, y + \delta y) これは正式にどのように導出されますか？ Dilip Sarwateからの更新結果は、が厳密に単調な増加または減少関数である場合にのみ保持されます。ggg LV Raoの回答にいくつかのマイナーな編集場合したがってGP(Y≤y)=P(g(X)≤y)={P(X≤g−1(y)),P(X≥g−1(y)),if g is monotonically increasingif g is monotonically decreasingP(Y≤y)=P(g(X)≤y)={P(X≤g−1(y)),if g is monotonically increasingP(X≥g−1(y)),if g is …

15 machine-learning probability self-study derivative jacobian

3

値と1次/ 2次導関数を含むデータにスプラインを適合させるにはどうすればよいですか？

たとえば、位置、速度、加速度の測定値を含むデータセットがあります。すべて同じ「実行」から来ます。線形システムを構築し、それらの測定すべてに多項式を当てはめることができました。しかし、スプラインでも同じことができますか？これを行う「R」方法とは何ですか？当てはめたいシミュレーションデータをいくつか示します。 f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- rbind(data, …

13 r model fitting splines derivative

2

ガウス過程の微分

ガウス過程（GP）の導関数は別のGPであると考えているため、GPの導関数の予測方程式に閉形式の方程式があるかどうかを知りたいですか？特に、二乗指数（ガウスとも呼ばれます）共分散カーネルを使用しており、ガウス過程の微分についての予測について知りたいです。

12 stochastic-processes gaussian-process derivative

1

損失関数の2次近似（ディープラーニングブック、7.33）

ディープラーニングに関するGoodfellow（2016）の本で、彼はL2正則化への早期停止の同等性について話しました（https://www.deeplearningbook.org/contents/regularization.html 247ページ）。コスト関数jjj 2次近似は、次の式で与えられます。 J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

1

確率測度間のラドン-ニコディム微分の解釈？

私はいくつかの点で見た別のに対して一方確率測度のラドンNikodym誘導体の使用、最も顕著には、それはいくつかの任意のパラメータのモデルの確率測度の誘導体であるカルバック・ライブラー情報量、におけると実際のパラメータに関してθ 0：θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} ：これらは、パラメータ値を条件とデータポイントのスペースの両方の確率測度である場合。Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) カルバックライブラーダイバージェンス、またはより一般的には2つの確率測度の間のそのようなラドンニコディム導関数の解釈は何ですか？

11 mathematical-statistics kullback-leibler derivative measure-theory

1

行列関数の導関数のこの計算を正当化するものは何ですか？

Andrew Ngの機械学習コースでは、次の式を使用しています。 ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T そして彼は以下に示される簡単な証明をします： ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB 証拠はコメントなしで非常に密に見え、私はそれを理解するのに苦労しています。2番目から3番目の平等から具体的に何が起こりましたか？

10 machine-learning matrix derivative

3

ニューラルネットワークは、機能とその機能的派生物を学習できますか？

ニューラルネットワーク（NN）は、特定の仮定（ネットワークと近似する関数の両方）の下で、関数とその導関数の両方に対するユニバーサル近似と見なすことができることを理解しています。実際、私は単純であるが自明ではない関数（たとえば、多項式）に対していくつかのテストを行っており、確かにそれらとそれらの1次導関数をよく近似できるようです（例を以下に示します）。しかし、私には明確でないのは、上記につながる定理が汎関数とその汎関数導関数に拡張される（または拡張される可能性がある）かどうかです。たとえば、汎関数：を汎関数微分：考えここで、は、完全かつ非自明に依存します。NNは上記のマッピングとその機能的導関数を学習できますか？より具体的には、ドメインをで離散化し、（離散化された点で）を入力として提供し、F[ f（x ）] = ∫badx f （x ）g（x ）F[f(x)]=∫abdx f(x)g(x)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation}δF[ f（x ）]δf（x ）= g（x ）δF[f(x)]δf(x)=g(x)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation}f（x ）f(x)f(x)g（x ）g(x)g(x)バツxx[ a 、b ][a,b][a,b]f（x ）f(x)f(x)F[ f（x ）]F[f(x)]F[f(x)]出力として、NNはこのマッピングを（少なくとも理論的には）正しく学習できますか？もしそうなら、それはマッピングの機能的導関数も学ぶことができますか？私はいくつかのテストを行いましたが、NNは確かにある程度マッピング学習するようです。ただし、このマッピングの精度は問題ありませんが、それほど優れていません。そして厄介なのは、計算された関数微分が完全なガベージであるということです（これらの両方はトレーニングなどの問題に関連している可能性があります）。以下に例を示します。F[ f（x ）]F[f(x)]F[f(x)] NNが汎関数とその汎関数微分の学習に適していない場合、別の機械学習方法はありますか？例： A NNが関数学習するように訓練された：（1）以下では、関数とその導関数近似の例である範囲[-3,2]の上には：その妥当からへの近似が得られます：予想どおり、へのNN近似とその1次導関数は、トレーニング中により良い最小値が見つかるなど、トレーニングポイントの数、NNアーキテクチャーとともに向上することに注意してください。f（x …

10 machine-learning neural-networks function derivative

1

クロスエントロピーの微分

私のコンピューターでニューラルネットワークをトレーニングするプログラムを作成しようとしています。問題のネットワークでは、クロスエントロピーエラー関数を使用することにしました。 E= − ∑jtjlnojE=−∑jtjln⁡ojE = -\sum_jt_j\ln o_j ここで、はNeuron jのターゲット出力であり、o jはそのニューロンの出力であり、t jを予測しようとします。tjtjt_jjjjojojo_jtjtjt_j 私が何を知りたい、いくつかのニューロンのためであるJ。私の直感（プラス微積分の私の限られた知識）この値がなければならないことを信じるように私を導く-トンのJδEδojδEδoj\frac{\delta E}{\delta o_j}jjj。− tjoj−tjoj-\frac{t_j}{o_j} ただし、これは正しくないようです。クロスエントロピーは、o j = e z jのように、softmax関数と併用されることがよくあります。ここで、zはソフトマックスレイヤー内のすべてのニューロンへの入力のセットです（ここを参照）。oj= ezjΣkezkoj=ezj∑kezko_j = \frac{e^{z_j}}{\sum_ke^{z_k}} このファイル、私はそれを集める：δojδzj= oj（1 − oj）δojδzj=oj(1−oj)\frac{\delta o_j}{\delta z_j} = o_j(1 - o_j) よると、この質問：しかし、私の以前の推測と、この競合δEδEδzj= tj− ojδEδzj=tj−oj\frac{\delta E}{\delta z_j} = t_j - o_j。どうして？δEδojδEδoj\frac{\delta E}{\delta o_j} 。⇒δEJδEjδzj= δEjδojδojδzjδEjδzj=δEjδojδojδzj\frac{\delta E_j}{\delta z_j}=\frac{\delta …

9 machine-learning neural-networks derivative cross-entropy differential-equations

1

勾配とベクトルの導関数：行または列ベクトル？

非常に多くのリファレンス（ウィキペディア、およびhttp://www.atmos.washington.edu/~dennis/MatrixCalculus.pdfおよびhttp://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.phpを含む）は、行に配置された関数の偏導関数としてのベクトルによる関数（したがって、スカラー値関数の導関数は行ベクトルです）。この規則では、勾配とベクトル導関数は互いに転置されます。この規則の利点は、導関数の意味を各方向の線形変化率を示す関数として解釈できることです。勾配はベクトルのままで、最大の変化率の方向と大きさを示します。最近、Gentleの行列代数（http://books.google.com/books/about/Matrix_Algebra.html?id=Pbz3D7Tg5eoC）を読みましたが、彼は別の規約を使用しているようです。列の配置（スカラー値関数の導関数は列ベクトルです）。この配置の結果として、すべての微分結果は、他の規則の結果の転置になります。この規則の利点は、ここで推測しているように、勾配と導関数が等しいことです。したがって、最適化タスクの場合、微分してから転置する代わりに、微分することができます。緊張はヤコビアンと勾配の間にあると思います。行の規則では、ヤコビ行列は導関数の定義から直接従いますが、勾配を取得するには転置を適用する必要があります。一方、列の規則では、勾配は転置する必要がない勾配ですが、ヤコビアンを取得するには転置を適用する必要があります。したがって、導関数の結果を線形マップと見なしたい場合は、最初の規則が理にかなっています。結果をベクトル/方向と見なしたい場合は、2番目の規則が理にかなっています。だからあなたは一貫している必要があります。これらの規則のうち、機械学習でより一般的に使用されるものはどれですか？「間違った」コンベンションで仕事を読むのに時間をかけすぎると、どうしようもなく混乱するでしょうか。

9 linear-algebra derivative

2

重みに関するSoftmaxの導関数

私はディープラーニングが初めてで、行列に関して次の関数の導関数を計算しようとしています：ww\mathbf w p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} 商規則を使用すると、次のようになります： ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0 ソフトマックス関数は一般的にディープラーニングのアクティベーション関数として使用されているため、私は何か間違っていると思います（したがって、常に導関数を持つことはできません）。私は同様の質問をしましたが、計算のこの部分については光沢がないようです。000 私は正しい方向へのポインタをいただければ幸いです。

8 machine-learning self-study neural-networks derivative softmax

タグ付けされた質問 「derivative」

タグ付けされた質問「derivative」