タグ付けされた質問 「optimization」

統計内で最適化を使用する場合は、このタグを使用してください。

4
勾配降下最適化
ML(機械学習)アルゴリズムの勾配降下最適化を理解しようとしています。私は、コスト関数-目的は、エラー最小化することでありますことを理解し、Y - yは。重みw 1、w 2が最小誤差を与えるように最適化されており、偏微分が使用されているシナリオでは、各ステップでw 1とw 2の両方を変更しますか、それとも組み合わせですか(例:いくつかの反復のみ)w 1が変更され、w 1によってエラーが減少しなくなった場合、導関数はw 2から始まります。y^− yy^−y\hat y-yw1、w2w1,w2w_1, w_2w1w1w_1w2w2w_2w1w1w_1w1w1w_1w2w2w_2)?アプリケーションは、線形回帰モデル、ロジスティック回帰モデル、またはブースティングアルゴリズムです。

1
私のニューラルネットワークはユークリッド距離も学習できません
だから私は自分自身にニューラルネットワークを教えようとしています(猫の写真を分類するのではなく、回帰アプリケーションのために)。 私の最初の実験は、FIRフィルターと離散フーリエ変換を実装するためのネットワークのトレーニング(「前」と「後」の信号でトレーニング)でした。これらはどちらも活性化機能のない単一のレイヤーで実装できる線形演算だからです。 どちらもうまくいきました。 それで、私はを追加してabs()、振幅スペクトルを学習させることができるかどうかを見たかったのです。最初に、非表示層に必要なノードの数を考え、3のReLUがの大まかな近似に十分であることを認識したabs(x+jy) = sqrt(x² + y²)ので、その操作を単独の複素数(2入力→3 ReLUノードの非表示層→1)で単独でテストしました出力)。時々それは動作します: しかし、私がそれを試すほとんどの場合、それは極小値で行き詰まり、正しい形を見つけることができません: KerasですべてのオプティマイザーとReLUバリアントを試してみましたが、それほど違いはありません。このような単純なネットワークを確実に収束させるために他に何かできることはありますか?それとも私は間違った態度でこれに近づいていますか、そしてあなたは問題で必要以上に多くのノードを投げるはずであり、それらの半分が死んだとしても大したこととは考えられませんか?

2
勾配降下法で固定ステップサイズを使用すると、ステップが小さくなるのはなぜですか?
一定のステップサイズα = 0.03を使用して、2次関数最小化して、勾配が適切なおもちゃの例を実行するとします。(A = [ 10 、2 、2 、3 ])バツTA xxTAxx^TAxα = 0.03α=0.03\alpha=0.03A = [ 10 、2 。2 、3 ]A=[10,2;2,3]A=[10, 2; 2, 3] 各反復でのトレースをプロットすると、次の図が得られます。固定ステップサイズを使用すると、ポイントが「非常に密」になるのはなぜですか。直感的には、固定ステップサイズではなく、減少ステップサイズのように見えます。バツxx PS:Rコードにはプロットが含まれます。 A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, 1, …

4
ニューラルネットワークを回帰用にトレーニングすると、常に平均が予測されます
私は回帰のための単純な畳み込みニューラルネットワークをトレーニングしています。ここでのタスクは、画像内のボックスの(x、y)位置を予測することです。例: ネットワークの出力には、x用とy用の2つのノードがあります。ネットワークの残りの部分は、標準の畳み込みニューラルネットワークです。損失は​​、ボックスの予測位置とグラウンドトゥルースの位置との間の標準的な平均二乗誤差です。私はこれらの画像の10000でトレーニングをしており、2000で検証しています。 私が抱えている問題は、重要なトレーニングを行った後でも、損失が実際には減少しないことです。ネットワークの出力を観察すると、両方の出力ノードで、ネットワークがゼロに近い値を出力する傾向があることに気付きました。そのため、ボックスの位置の予測は常に画像の中心になります。予測には多少のずれがありますが、常にほぼゼロです。以下は損失を示しています: このグラフに示されているよりも多くのエポックでこれを実行しましたが、損失はまだ減少していません。ここで興味深いことに、実際にはある時点で損失が増加しています。 したがって、ネットワークは、適切な適合を学習するのではなく、トレーニングデータの平均を予測しているだけのようです。なぜこれがそうなのかについてのアイデアはありますか?Adamをオプティマイザとして使用しています。初期学習率は0.01で、relusをアクティベーションとして使用しています。 私のコード(Keras)の一部に興味がある場合は、以下に示します。 # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, image_height))) model.add(Convolution2D(64, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Convolution2D(128, 5, 5, border_mode='same', subsample=(2, 2), activation='relu')) model.add(Flatten()) model.add(Dense(100, activation='relu')) model.add(Dense(2, activation='linear')) # Compile the model adam = Adam(lr=0.01, beta_1=0.9, …

1
複数の期待を計算するときにドローを最適に分散する方法
期待値を計算したいとします。 EYEバツ| Y[ f(X、Y)]EYEX|Y[f(X,Y)]E_YE_{X|Y}[f(X,Y)] モンテカルロシミュレーションを使用してこれを近似したいとします。 EYEバツ| Y[ f(X、Y)] ≈ 1R SΣr = 1RΣs = 1Sf(xr 、s、yr)EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) しかし、両方の分布からサンプルを抽出するのはコストがかかるため、固定数のみを抽出する余裕があると想定します。 KKK どのようにを割り当てるべきですか?例には、各分布へのK / 2ドロー、または極端な場合、外側の1ドローと内側のK − 1ドロー、その逆などが含まれます。KKKK/ 2K/2K/2K− 1K−1K-1 私の直感は、それが互いに対する分布の分散/エントロピーと関係があるはずだと私に教えてくれます。外側の点が質点であるとすると、MCエラーを最小化するの除算は、Yの 1を描画し、XのK − 1を描画します。Y。 KKKYYYK−1K−1K-1X|YX|YX|Y うまくいけば、これは明確でした。



1
さまざまなR 2次計画ソルバーの違いは何ですか?
二次最適化の問題を解決するのに役立つパッケージを探しています。少なくとも6種類のパッケージがあることがわかりました。このページによると: QP(二次プログラミング、90C20):cplexAPI、kernlab、limSolve、LowRankQP、quadprog、Rcplex、Rmosek これらの一部(RmosekおよびcplexAPI)は他の独自のパッケージに依存しているので、私はそれらに興味がありません。 他のQPパッケージの注目すべき違いは何ですか?
9 r  optimization 

2
一般化線形モデルによるパラメーター推定
デフォルトglmでは、Rで関数を使用する場合、反復再重み付け最小二乗(IWLS)メソッドを使用して、パラメーターの最尤推定を見つけます。さて、二つ質問があります。 IWLS推定は、尤度関数のグローバル最大値を保証しますか?このプレゼンテーションの最後のスライドに基づいて、私はそうではないと思います!それを確かめたかっただけです。 上記の質問1の理由は、ほとんどすべての数値最適化メソッドがグローバルな最大値ではなくローカルな最大値でスタックする可能性があるという事実のためであると言えるでしょうか?

2
Rのoptimを使用して対数尤度関数を最大化することにより推定されたパラメーターのプロファイリングを使用して、95%の信頼区間をどのように推定できますか?
Rのoptimを使用して対数尤度関数を最大化することにより推定されたパラメーターのプロファイリングを使用して、95%の信頼区間をどのように推定できますか? hessianを反転させることで、共分散行列を漸近的に推定できることはわかっていますが、この方法が有効であるために必要な前提条件がデータに適合していないことが心配です。他の方法を使用して信頼区間を推定したいと思います。 StryhnとChristensen、およびVenables and RipleyのMASSの本、§8.4、pp。220-221で説明されているように、プロファイル尤度法は適切ですか? もしそうなら、Rでこれを行うのに役立つパッケージはありますか?そうでない場合、そのようなメソッドの疑似コードはどのようになりますか?

2
グローバルに最適化可能なコスト関数を定式化することによって問題に取り組む利点
これはかなり一般的な質問です(つまり、必ずしも統計に固有ではありません)が、著者が次のアプローチに従うことを好む機械学習および統計文献の傾向に気づきました。 アプローチ1:(たとえば、計算の観点から)大域的に最適なソリューションを見つけることができるコスト関数を(たとえば、凸コスト関数を公式化することによって)公式化することにより、実際的な問題の解決策を取得します。 のではなく: アプローチ2:グローバルに最適なソリューションを取得できない可能性があるコスト関数を定式化して、同じ問題のソリューションを取得します(たとえば、ローカルに最適なソリューションしか取得できない)。 厳密に言えば2つの問題は異なることに注意してください。前提は、最初の解決策ではグローバルに最適な解を見つけることができるが、2番目の解決策では見つからないことです。 その他の考慮事項(つまり、速度、実装の容易さなど)は別として、私は次のことを探しています。 この傾向の説明(例:数学的または歴史的な議論) 実用的な問題を解決する際に、2ではなくアプローチ1に従う利点(実用的および/または理論的)。

4
統計学者のための数値最適化に関するリファレンス
統計学者向けの数値最適化手法に関する確かなリファレンスを探しています。つまり、これらの手法をいくつかの標準的な推論問題(たとえば、一般的なモデルのMAP / MLE)に適用します。勾配降下法(直線的で確率的)、EMとそのスピンオフ/一般化、シミュレーテッドアニーリングなど。 私はそれが実装に関するいくつかの実用的なメモを持っていることを望んでいます(それでしばしば論文が不足しています)。完全に明示的である必要はありませんが、少なくとも確かな参考文献を提供する必要があります。 おおざっぱな検索の結果、いくつかのテキストが見つかりました。ケン・ランゲによる統計学者のための数値分析とジョン・モナハンによる統計学の数値的方法。それぞれのレビューは混合されている(そしてまばらな)ようです。2つのうち、目次をよく読んで、Langeの本の第2版が私が求めているものに最も近いことを示唆しています。

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

1
モデルのパラメーターを推定する際の条件付き(対数)尤度または結合(対数)尤度の最大化の違いは何ですか?
応答yとデータ行列Xについて考えます。フォームのモデルを作成しているとしましょう- y〜g(X、)θθ\theta (g()はXおよび任意の関数である可能性があります)θθ\theta 最尤法(ML)を使用してを推定するために、条件付きML(条件付き密度f(y | X)の形式がわかっていると仮定)または結合ML(結合の形式がわかっていると仮定)密度f(y、X)または同等に、f(X | y)* f(y))θθ\theta 密度についての仮定以外に、上記の2つの方法のいずれかを続行する際に考慮事項があるかどうか疑問に思っていました。また、ほとんどの場合、1つのメソッドが他のメソッドを圧倒するインスタンス(特定のタイプのデータ)はありますか?

1
非ガウスノイズのベイズ最適化
ブラックボックス関数、ガウスノイズの影響を受けて点ごとに評価されます。つまり、は、ガウスプロセスがノイズの多い関数モデルとして使用されるベイジアン最適化を使用して最小化できます。 f (x )+ N(μ (x )、σ (x )2)f:Rん→ Rf:Rn→Rf: \mathbb{R}^n \rightarrow \mathbb{R}f(x )+ N(μ (x )、σ(x )2)f(x)+N(μ(x),σ(x)2)f(x) + \mathcal{N}(\mu(x),\sigma(x)^2) ベイズ最適化は、歪んだ分布など、非ガウスノイズの影響を受ける関数にどのように使用できますか? この設定をサポートする実装はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.