タグ付けされた質問 「gradient-descent」

勾配降下法は、1次の反復最適化アルゴリズムです。勾配降下法を使用して関数の極小値を見つけるには、現在の点での関数の勾配(または近似勾配)の負に比例するステップを実行します。確率的勾配降下法には、[sgd]タグもあります。

2
ミニバッチ勾配降下法は、バッチ内の各例の重みをどのように更新しますか?
10個の例をバッチで処理すると、各例の損失を合計できることは理解できますが、各例の重みの更新に関して逆伝播はどのように機能しますか? 例えば: 例1->損失= 2 例2->損失= -2 この結果、平均損失は0(E = 0)になるので、これにより各重みが更新されて収束するでしょうか。遅かれ早かれ「うまくいけば」収束するのは、単にバッチのランダム化によるものですか?また、これは処理された最後の例の最初の重みのセットの勾配のみを計算しませんか?

1
ロジスティック損失関数の勾配
これに関する質問をします。 私はここでxgboostのカスタム損失関数を書く例を見つけました: loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) grad <- preds …

2
エラー分布のファミリとしてポアソン、ガンマ、またはトゥイーディー分布を使用して、Python / scikit-learnでGLMを評価することは可能ですか?
いくつかのPythonとSklearnを学習しようとしていますが、私の仕事では、ポアソン、ガンマ、特にTweedieファミリの誤差分布を使用する回帰を実行する必要があります。 それらについてのドキュメントには何も見当たらないが、それらはRディストリビューションのいくつかの部分にあるので、誰かがPythonのどこかで実装を見たのではないかと思っていた。あなたがTweedieディストリビューションのSGD実装に向けて私を向けることができれば、それはさらに格好良いでしょう!

1
「バニラ」とはどういう意味ですか?
機械学習のブログでは、「バニラ」という言葉に頻繁に出会います。たとえば、「バニラグラディエントディセント」や「バニラメソッド」などです。この用語は、最適化の教科書では文字通り見られません。 たとえば、この投稿では、次のように述べています。 これは、勾配降下法の最も単純な形式です。ここで、バニラとは、純粋な/不純物のないものを意味します。その主な特徴は、コスト関数の勾配をとることにより、最小値の方向に小さなステップを踏むことです。 この文脈で「姦淫」は何を意味するのでしょうか。著者は、バニラ勾配降下と運動量を伴う勾配降下を対比することでさらに進んでいます。したがって、この場合、バニラ勾配降下法は勾配降下法の別の言葉です。 別の投稿では、 バニラ勾配降下、別名バッチ勾配降下、... 悲しいことに、バッチ勾配降下法について聞いたことがありません。ああ少年。 誰かが「バニラ」の意味を明確にできますか、そしてそれに対してより確固たる数学的な定義があるかどうか。

2
残差ネットワークは勾配ブースティングに関連していますか?
最近、Residual Neural Netが登場しました。各レイヤーは、計算モジュールと、i番目のレイヤーの出力などのレイヤーへの入力を保持するショートカット接続で構成されています: ネットワークは、残差の特徴を抽出し、より深い深度を可能にすると同時に、消失する勾配の問題に対してより堅牢になり、最先端のパフォーマンスを実現します。y i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i 機械学習の世界で非常に強力な技術である勾配ブースティングを掘り下げましたが、これも損失の残差に対して勾配の最適化の形式を実行しているようです。何らかの形の類似性を確認することは困難です。 私はそれらが類似しているが同じではないことを知っています -私が気付いた1つの大きな違いは、残差ネットがネットワーク全体を最適化する一方で、勾配ブースティングが加法項で最適化を実行することです。 彼が元の論文で彼らの動機の一部としてこれに言及しているのを見なかった。だから私はこのトピックに関するあなたの洞察は何であるかと思っていて、あなたが持っている興味深いリソースを共有するようにお願いしました。 ありがとうございました。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

4
数値最適化手法として勾配降下法とモンテカルロ法を使用する場合
一連の方程式を解析的に解くことができない場合、勾配降下アルゴリズムを使用できます。しかし、解析解がない問題を解決するために使用できるモンテカルロシミュレーションの方法もあるようです。 勾配降下法を使用する場合とモンテカルロを使用する場合を区別する方法は?それとも、「シミュレーション」という用語と「最適化」という用語を混同しているだけなのでしょうか。 どうもありがとうございました!

2
バックプロパゲーションを介してSVMをトレーニングする方法は?
バックプロパゲーションを使用してSVMをトレーニングする(たとえば、物事を簡単にするために線形のものにする)ことが可能かどうか疑問に思いましたか? 現在、分類器の出力を f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) したがって、「後方パス」(伝播エラー)を計算して計算すると、 以降の誘導体は sgn(x)dsgn(x)∂E∂バツ= ∂E∂f(x ; θ 、b )∂f(x ; θ 、b )バツ= ∂E∂f(x ; θ 、b )∂sgn (g(x ; θ 、b ))∂g(x ; θ 、b )∂g(x ; θ 、b )∂バツ= δdsgn (z)dzθ= δ⋅ 0 ⋅ θ= 0∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0 \begin{align} \frac{\partial E}{\partial …

1
P(Y | X)の非iidサンプルとP(Y | X)のiidサンプルからの確率的勾配降下法を介してP(Y | X)のモデルをトレーニングできますか?
一部のデータセットで確率勾配降下法を介して(たとえば、可能性を最大化するために)パラメーター化されたモデルをトレーニングする場合、トレーニングサンプルはトレーニングデータ分布からiidで描画されると一般に想定されています。したがって、目標が共同分布をモデル化することである場合、各トレーニングサンプルはその分布からiidで描画されます。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 代わりに条件付き分布をモデル化することが目的である場合、iid要件はどのように変化しますか?P(Y|X)P(Y|X)P(Y|X) それでも、共同分布から各サンプル iidを描画する必要がありますか?(xi,yi)(xi,yi)(x_i,y_i) から iid を描画し、次にから iidを描画しますか?xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 私たちが描くことができからIIDない(例えば、時間を超える相関)、そして描きからIID?xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 確率的勾配降下法に対するこれら3つのアプローチの妥当性についてコメントできますか?(または、必要に応じて質問を言い換えてください。) できれば#3をやりたいです。私のアプリケーションは強化学習であり、パラメーター化された条件付きモデルを制御ポリシーとして使用しています。状態のシーケンスは高度に相関していますが、アクションは、状態を条件とする確率的ポリシーからサンプリングされます。結果のサンプル(またはそれらのサブセット)は、ポリシーのトレーニングに使用されます。(言い換えると、ある環境で制御ポリシーを長時間実行し、状態/アクションサンプルのデータセットを収集することを想像してください。その後、状態が経時的に相関している場合でも、アクションは独立して生成され、状態を条件とします。)これは、このホワイトペーパーの状況と多少似ています。xixix_iyiyiy_i(xi,yi)(xi,yi)(x_i,y_i) 私はRyabko、2006年の「条件付き独立データのパターン認識」という論文を見つけました。ただし、状況は私が必要としているものとは逆になり、(ラベル/カテゴリ/アクション)はからiidではなく描画でき、(オブジェクト/パターン/状態)はからiidで描画されます。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新: Ryabko論文で言及された2つの論文(hereとhere)は、ここで関連性があるようです。彼らは、が任意のプロセス(たとえば、iidではなく、おそらく非定常)からのものであると想定しています。彼らは、この場合、最近傍とカーネル推定量が一致していることを示しています。しかし、私はこの状況で確率的勾配降下に基づく推定が有効であるかどうかにもっと興味があります。xixix_i

2
ケラスのSGDでミニバッチサイズを設定する方法
私はケラスが初めてで、あなたの助けが必要です。 私はケラスでニューラルネットをトレーニングしており、損失関数は二乗差b / wネットの出力とターゲット値です。 勾配降下法を使用してこれを最適化したいと思います。ネット上のリンクをたどると、一般的に使用される3種類の勾配降下法があることがわかりました。 単一サンプル勾配降下:ここで、勾配は反復ごとに1つのサンプルのみから計算されます->勾配はノイズが多い場合があります。 バッチ勾配降下:ここで、勾配はデータセット内のすべてのサンプルから計算された勾配の平均です->勾配はより一般的ですが、巨大なデータセットには扱いにくいです。 ミニバッチ勾配降下:バッチGDに似ています。データセット全体を使用する代わりに、いくつかのサンプル(batch_sizeによって決定される)のみを使用して、すべての反復で勾配を計算します->あまりノイズが多くなく、計算上扱いにくい->両方の長所。 質問: ケラスでミニバッチ勾配降下法を実行したいと思います。これどうやってするの?SGDオプティマイザーを使用する必要がありますか? SGDを使用する場合、batch_sizeを設定するにはどうすればよいですか?batch_sizeを設定するためのSGD関数のパラメーターがないようです。 optimizer = keras.optimizers.SGD(lr=0.01, decay=0.1, momentum=0.1, nesterov=False) Kerasのmodel.fit()にbatch_sizeパラメータがあります。 history = model.fit(x, y, nb_epoch=num_epochs, batch_size=20, verbose=0, validation_split=0.1) これはミニバッチ勾配降下法のバッチサイズと同じですか?そうでない場合、入力のバッチでトレーニングするとはどういう意味ですか?「batch_size」という意味ではありませんか。のスレッドが並列に実行され、モデルの重みを並列に更新しますか? それが役立つ場合は、これまでに書いたpythonコードスニペットを次に示します。

2
最尤推定(MLE)のためのマルコフ連鎖モンテカルロ(MCMC)
以下にリンクされている1991年のGeyerの会議論文を読んでいます。その中で彼は、MLEパラメータ推定にMCMCを使用できる方法を回避しているようです 私はBFGSアルゴリズム、GA、およびMLEからパラメーターの推定値を抽出するために必要なグローバルミニマムを見つけるこれらの恐ろしい手の波状ラッキーディップ法のすべての種類をコーディングして以来、これは私を興奮させます。 それが私を興奮させる理由は、MCMCの固定点への収束を保証できる場合(たとえば、十分な基準が詳細なバランスを満たす場合)、MLEを最小化せずにパラメーターを取得できるためです。 したがって、結論は、これにより、上記および論文に課せられたグローバルな最小値、モジュロ制約を取得するための一般的な方法が提供されるということです。高次元のMCMC問題に対して適切にマッピングされているHMCなどのMCMCにはいくつかのアルゴリズムがあり、従来の勾配降下法よりもパフォーマンスが優れていると思います。 質問 このホワイトペーパーは、MCMCを使用してMLEからパラメーター推定値を取得するための理論的な基礎を提供することを理解していますか? この論文で概説されているように、特定の状況でMCMCアルゴリズムを使用して、遺伝的アルゴリズムやBFGSなどのメソッドの必要性を回避してMLEからパラメーターを抽出できます。 論文 Geyer、CJ(1991)。マルコフ連鎖モンテカルロ最大尤度。計算科学と統計:Proc。23番目のシンプ。インターフェイス、156–163。 概要 マルコフ連鎖モンテカルロ(たとえば、メトロポリスアルゴリズムやギブスサンプラー)は、多くのタイプの統計的推論で役立つ複雑な確率過程のシミュレーションのための一般的なツールです。アルゴリズムの選択や分散推定など、マルコフ連鎖モンテカルロの基本を復習し、いくつかの新しい方法を紹介します。最尤推定のためのマルコフ連鎖モンテカルロの使用について説明し、そのパフォーマンスを最大疑似尤度推定と比較します。 注:セクション1から6は退屈なものであり、ここまでたどり着いたのであれば、おそらくすでに知っているでしょう。セクション7で、彼は興味深いものを手に入れましたが、彼は「モンテカルロ最大尤度」と呼んでいます。 その他のリソース 「Geyer」のcontrol + f http://www.stats.ox.ac.uk/~snijders/siena/Mcpstar.pdf http://ecovision.mit.edu/~sai/12S990/besag.pdf(セクション2.4)

4
勾配降下最適化
ML(機械学習)アルゴリズムの勾配降下最適化を理解しようとしています。私は、コスト関数-目的は、エラー最小化することでありますことを理解し、Y - yは。重みw 1、w 2が最小誤差を与えるように最適化されており、偏微分が使用されているシナリオでは、各ステップでw 1とw 2の両方を変更しますか、それとも組み合わせですか(例:いくつかの反復のみ)w 1が変更され、w 1によってエラーが減少しなくなった場合、導関数はw 2から始まります。y^− yy^−y\hat y-yw1、w2w1,w2w_1, w_2w1w1w_1w2w2w_2w1w1w_1w1w1w_1w2w2w_2)?アプリケーションは、線形回帰モデル、ロジスティック回帰モデル、またはブースティングアルゴリズムです。

2
勾配降下法で固定ステップサイズを使用すると、ステップが小さくなるのはなぜですか?
一定のステップサイズα = 0.03を使用して、2次関数最小化して、勾配が適切なおもちゃの例を実行するとします。(A = [ 10 、2 、2 、3 ])バツTA xxTAxx^TAxα = 0.03α=0.03\alpha=0.03A = [ 10 、2 。2 、3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 各反復でのトレースをプロットすると、次の図が得られます。固定ステップサイズを使用すると、ポイントが「非常に密」になるのはなぜですか。直感的には、固定ステップサイズではなく、減少ステップサイズのように見えます。バツxx PS:Rコードにはプロットが含まれます。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, 1, …


1
勾配降下法のような勾配ブースティングはどうですか?
私は勾配ブースティングに関する有用なWikipediaエントリ(https://en.wikipedia.org/wiki/Gradient_boosting)を読んでおり、最急降下ステップ(疑似勾配とも呼ばれる)によって残差を近似できる方法/理由を理解しようとしています)。誰かが私に最も急な降下が残差にリンクされている/類似している方法の直感を教えてもらえますか?どうぞよろしくお願いいたします。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.