統計とビッグデータ gradient-descent

2

10個の例をバッチで処理すると、各例の損失を合計できることは理解できますが、各例の重みの更新に関して逆伝播はどのように機能しますか？例えば：例1->損失= 2 例2->損失= -2 この結果、平均損失は0（E = 0）になるので、これにより各重みが更新されて収束するでしょうか。遅かれ早かれ「うまくいけば」収束するのは、単にバッチのランダム化によるものですか？また、これは処理された最後の例の最初の重みのセットの勾配のみを計算しませんか？

12 neural-networks gradient-descent backpropagation tensorflow

1

ロジスティック損失関数の勾配

これに関する質問をします。私はここでxgboostのカスタム損失関数を書く例を見つけました： loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) grad <- preds …

12 r machine-learning gradient-descent boosting loss-functions

2

エラー分布のファミリとしてポアソン、ガンマ、またはトゥイーディー分布を使用して、Python / scikit-learnでGLMを評価することは可能ですか？

いくつかのPythonとSklearnを学習しようとしていますが、私の仕事では、ポアソン、ガンマ、特にTweedieファミリの誤差分布を使用する回帰を実行する必要があります。それらについてのドキュメントには何も見当たらないが、それらはRディストリビューションのいくつかの部分にあるので、誰かがPythonのどこかで実装を見たのではないかと思っていた。あなたがTweedieディストリビューションのSGD実装に向けて私を向けることができれば、それはさらに格好良いでしょう！

12 generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

1

「バニラ」とはどういう意味ですか？

機械学習のブログでは、「バニラ」という言葉に頻繁に出会います。たとえば、「バニラグラディエントディセント」や「バニラメソッド」などです。この用語は、最適化の教科書では文字通り見られません。たとえば、この投稿では、次のように述べています。これは、勾配降下法の最も単純な形式です。ここで、バニラとは、純粋な/不純物のないものを意味します。その主な特徴は、コスト関数の勾配をとることにより、最小値の方向に小さなステップを踏むことです。この文脈で「姦淫」は何を意味するのでしょうか。著者は、バニラ勾配降下と運動量を伴う勾配降下を対比することでさらに進んでいます。したがって、この場合、バニラ勾配降下法は勾配降下法の別の言葉です。別の投稿では、バニラ勾配降下、別名バッチ勾配降下、... 悲しいことに、バッチ勾配降下法について聞いたことがありません。ああ少年。誰かが「バニラ」の意味を明確にできますか、そしてそれに対してより確固たる数学的な定義があるかどうか。

12 machine-learning optimization terminology gradient-descent

2

残差ネットワークは勾配ブースティングに関連していますか？

最近、Residual Neural Netが登場しました。各レイヤーは、計算モジュールと、i番目のレイヤーの出力などのレイヤーへの入力を保持するショートカット接続で構成されています：ネットワークは、残差の特徴を抽出し、より深い深度を可能にすると同時に、消失する勾配の問題に対してより堅牢になり、最先端のパフォーマンスを実現します。y i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 機械学習の世界で非常に強力な技術である勾配ブースティングを掘り下げましたが、これも損失の残差に対して勾配の最適化の形式を実行しているようです。何らかの形の類似性を確認することは困難です。私はそれらが類似しているが同じではないことを知っています -私が気付いた1つの大きな違いは、残差ネットがネットワーク全体を最適化する一方で、勾配ブースティングが加法項で最適化を実行することです。彼が元の論文で彼らの動機の一部としてこれに言及しているのを見なかった。だから私はこのトピックに関するあなたの洞察は何であるかと思っていて、あなたが持っている興味深いリソースを共有するようにお願いしました。ありがとうございました。

11 machine-learning neural-networks deep-learning gradient-descent residual-networks

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

4

数値最適化手法として勾配降下法とモンテカルロ法を使用する場合

一連の方程式を解析的に解くことができない場合、勾配降下アルゴリズムを使用できます。しかし、解析解がない問題を解決するために使用できるモンテカルロシミュレーションの方法もあるようです。勾配降下法を使用する場合とモンテカルロを使用する場合を区別する方法は？それとも、「シミュレーション」という用語と「最適化」という用語を混同しているだけなのでしょうか。どうもありがとうございました！

11 monte-carlo gradient-descent

2

バックプロパゲーションを介してSVMをトレーニングする方法は？

バックプロパゲーションを使用してSVMをトレーニングする（たとえば、物事を簡単にするために線形のものにする）ことが可能かどうか疑問に思いましたか？現在、分類器の出力を f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) したがって、「後方パス」（伝播エラー）を計算して計算すると、以降の誘導体は sgn（x）dsgn（x）∂E∂バツ= ∂E∂f（x ; θ 、b ）∂f（x ; θ 、b ）バツ= ∂E∂f（x ; θ 、b ）∂sgn （g（x ; θ 、b ））∂g（x ; θ 、b ）∂g（x ; θ 、b ）∂バツ= δdsgn （z）dzθ= δ⋅ 0 ⋅ θ= 0∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0 \begin{align} \frac{\partial E}{\partial …

10 machine-learning neural-networks svm gradient-descent backpropagation

1

P（Y | X）の非iidサンプルとP（Y | X）のiidサンプルからの確率的勾配降下法を介してP（Y | X）のモデルをトレーニングできますか？

一部のデータセットで確率勾配降下法を介して（たとえば、可能性を最大化するために）パラメーター化されたモデルをトレーニングする場合、トレーニングサンプルはトレーニングデータ分布からiidで描画されると一般に想定されています。したがって、目標が共同分布をモデル化することである場合、各トレーニングサンプルはその分布からiidで描画されます。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 代わりに条件付き分布をモデル化することが目的である場合、iid要件はどのように変化しますか？P(Y|X)P(Y|X)P(Y|X) それでも、共同分布から各サンプル iidを描画する必要がありますか？(xi,yi)(xi,yi)(x_i,y_i) から iid を描画し、次にから iidを描画しますか？xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 私たちが描くことができからIIDない（例えば、時間を超える相関）、そして描きからIID？xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 確率的勾配降下法に対するこれら3つのアプローチの妥当性についてコメントできますか？（または、必要に応じて質問を言い換えてください。）できれば＃3をやりたいです。私のアプリケーションは強化学習であり、パラメーター化された条件付きモデルを制御ポリシーとして使用しています。状態のシーケンスは高度に相関していますが、アクションは、状態を条件とする確率的ポリシーからサンプリングされます。結果のサンプル（またはそれらのサブセット）は、ポリシーのトレーニングに使用されます。（言い換えると、ある環境で制御ポリシーを長時間実行し、状態/アクションサンプルのデータセットを収集することを想像してください。その後、状態が経時的に相関している場合でも、アクションは独立して生成され、状態を条件とします。）これは、このホワイトペーパーの状況と多少似ています。xixix_iyiyiy_i(xi,yi)(xi,yi)(x_i,y_i) 私はRyabko、2006年の「条件付き独立データのパターン認識」という論文を見つけました。ただし、状況は私が必要としているものとは逆になり、（ラベル/カテゴリ/アクション）はからiidではなく描画でき、（オブジェクト/パターン/状態）はからiidで描画されます。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新： Ryabko論文で言及された2つの論文（hereとhere）は、ここで関連性があるようです。彼らは、が任意のプロセス（たとえば、iidではなく、おそらく非定常）からのものであると想定しています。彼らは、この場合、最近傍とカーネル推定量が一致していることを示しています。しかし、私はこの状況で確率的勾配降下に基づく推定が有効であるかどうかにもっと興味があります。xixix_i

10 machine-learning conditional-probability reinforcement-learning gradient-descent

2

ケラスのSGDでミニバッチサイズを設定する方法

私はケラスが初めてで、あなたの助けが必要です。私はケラスでニューラルネットをトレーニングしており、損失関数は二乗差b / wネットの出力とターゲット値です。勾配降下法を使用してこれを最適化したいと思います。ネット上のリンクをたどると、一般的に使用される3種類の勾配降下法があることがわかりました。単一サンプル勾配降下：ここで、勾配は反復ごとに1つのサンプルのみから計算されます->勾配はノイズが多い場合があります。バッチ勾配降下：ここで、勾配はデータセット内のすべてのサンプルから計算された勾配の平均です->勾配はより一般的ですが、巨大なデータセットには扱いにくいです。ミニバッチ勾配降下：バッチGDに似ています。データセット全体を使用する代わりに、いくつかのサンプル（batch_sizeによって決定される）のみを使用して、すべての反復で勾配を計算します->あまりノイズが多くなく、計算上扱いにくい->両方の長所。質問：ケラスでミニバッチ勾配降下法を実行したいと思います。これどうやってするの？SGDオプティマイザーを使用する必要がありますか？ SGDを使用する場合、batch_sizeを設定するにはどうすればよいですか？batch_sizeを設定するためのSGD関数のパラメーターがないようです。 optimizer = keras.optimizers.SGD(lr=0.01, decay=0.1, momentum=0.1, nesterov=False) Kerasのmodel.fit（）にbatch_sizeパラメータがあります。 history = model.fit(x, y, nb_epoch=num_epochs, batch_size=20, verbose=0, validation_split=0.1) これはミニバッチ勾配降下法のバッチサイズと同じですか？そうでない場合、入力のバッチでトレーニングするとはどういう意味ですか？「batch_size」という意味ではありませんか。のスレッドが並列に実行され、モデルの重みを並列に更新しますか？それが役立つ場合は、これまでに書いたpythonコードスニペットを次に示します。

10 neural-networks python gradient-descent keras sgd

2

最尤推定（MLE）のためのマルコフ連鎖モンテカルロ（MCMC）

以下にリンクされている1991年のGeyerの会議論文を読んでいます。その中で彼は、MLEパラメータ推定にMCMCを使用できる方法を回避しているようです私はBFGSアルゴリズム、GA、およびMLEからパラメーターの推定値を抽出するために必要なグローバルミニマムを見つけるこれらの恐ろしい手の波状ラッキーディップ法のすべての種類をコーディングして以来、これは私を興奮させます。それが私を興奮させる理由は、MCMCの固定点への収束を保証できる場合（たとえば、十分な基準が詳細なバランスを満たす場合）、MLEを最小化せずにパラメーターを取得できるためです。したがって、結論は、これにより、上記および論文に課せられたグローバルな最小値、モジュロ制約を取得するための一般的な方法が提供されるということです。高次元のMCMC問題に対して適切にマッピングされているHMCなどのMCMCにはいくつかのアルゴリズムがあり、従来の勾配降下法よりもパフォーマンスが優れていると思います。質問このホワイトペーパーは、MCMCを使用してMLEからパラメーター推定値を取得するための理論的な基礎を提供することを理解していますか？この論文で概説されているように、特定の状況でMCMCアルゴリズムを使用して、遺伝的アルゴリズムやBFGSなどのメソッドの必要性を回避してMLEからパラメーターを抽出できます。論文 Geyer、CJ（1991）。マルコフ連鎖モンテカルロ最大尤度。計算科学と統計：Proc。23番目のシンプ。インターフェイス、156–163。概要マルコフ連鎖モンテカルロ（たとえば、メトロポリスアルゴリズムやギブスサンプラー）は、多くのタイプの統計的推論で役立つ複雑な確率過程のシミュレーションのための一般的なツールです。アルゴリズムの選択や分散推定など、マルコフ連鎖モンテカルロの基本を復習し、いくつかの新しい方法を紹介します。最尤推定のためのマルコフ連鎖モンテカルロの使用について説明し、そのパフォーマンスを最大疑似尤度推定と比較します。注：セクション1から6は退屈なものであり、ここまでたどり着いたのであれば、おそらくすでに知っているでしょう。セクション7で、彼は興味深いものを手に入れましたが、彼は「モンテカルロ最大尤度」と呼んでいます。その他のリソース「Geyer」のcontrol + f http://www.stats.ox.ac.uk/~snijders/siena/Mcpstar.pdf http://ecovision.mit.edu/~sai/12S990/besag.pdf（セクション2.4）

10 maximum-likelihood mcmc gradient-descent minimum

4

勾配降下最適化

ML（機械学習）アルゴリズムの勾配降下最適化を理解しようとしています。私は、コスト関数-目的は、エラー最小化することでありますことを理解し、Y - yは。重みw 1、w 2が最小誤差を与えるように最適化されており、偏微分が使用されているシナリオでは、各ステップでw 1とw 2の両方を変更しますか、それとも組み合わせですか（例：いくつかの反復のみ）w 1が変更され、w 1によってエラーが減少しなくなった場合、導関数はw 2から始まります。y^− yy^−y\hat y-yw1、w2w1,w2w_1, w_2w1w1w_1w2w2w_2w1w1w_1w1w1w_1w2w2w_2）？アプリケーションは、線形回帰モデル、ロジスティック回帰モデル、またはブースティングアルゴリズムです。

9 optimization gradient-descent

2

勾配降下法で固定ステップサイズを使用すると、ステップが小さくなるのはなぜですか？

一定のステップサイズα = 0.03を使用して、2次関数最小化して、勾配が適切なおもちゃの例を実行するとします。（A = [ 10 、2 、2 、3 ]）バツTA xxTAxx^TAxα = 0.03α=0.03\alpha=0.03A = [ 10 、2 。2 、3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 各反復でのトレースをプロットすると、次の図が得られます。固定ステップサイズを使用すると、ポイントが「非常に密」になるのはなぜですか。直感的には、固定ステップサイズではなく、減少ステップサイズのように見えます。バツxx PS：Rコードにはプロットが含まれます。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, 1, …

9 r machine-learning optimization gradient-descent

1

Lassoの単純な劣勾配法ではなく、なぜ近位勾配降下法なのですか？

ラッソをバニラ劣勾配法で解こうと考えていました。しかし、私は近位勾配降下法の使用を提案する人々を読みました。Lassoでバニラ劣勾配法の代わりに近位GDを使用する理由を誰かが強調できますか？

9 machine-learning optimization lasso gradient-descent

1

勾配降下法のような勾配ブースティングはどうですか？

私は勾配ブースティングに関する有用なWikipediaエントリ（https://en.wikipedia.org/wiki/Gradient_boosting）を読んでおり、最急降下ステップ（疑似勾配とも呼ばれる）によって残差を近似できる方法/理由を理解しようとしています）。誰かが私に最も急な降下が残差にリンクされている/類似している方法の直感を教えてもらえますか？どうぞよろしくお願いいたします。

9 self-study gradient-descent

タグ付けされた質問 「gradient-descent」

タグ付けされた質問「gradient-descent」