タグ付けされた質問 「optimization」

統計内で最適化を使用する場合は、このタグを使用してください。

1
シミュレーテッドアニーリングと複数の貪欲の違い
シミュレーテッドアニーリングと複数の貪欲な山登りアルゴリズムの実行の違いを理解しようとしています。 私の理解では、貪欲アルゴリズムはスコアを極大値にプッシュしますが、複数のランダム構成から始めて、それらすべてに貪欲を適用すると、複数の極大値になります。次に、それらの最大値を選択します。 これはシミュレーテッドアニーリングと同じように再現されますか?

1
ベイジアンハイパーパラメーター最適化の不利な点は何ですか?
私は機械学習と統計にかなり慣れていませんが、アルゴリズムのハイパーパラメーターを最適化するために機械学習を学習するときに、ベイジアン最適化がオンラインで頻繁に参照されないのはなぜですか?たとえば、次のようなフレームワークを使用します。https://github.com/fmfn/BayesianOptimization ハイパーパラメーターのベイズ最適化には、グリッド検索やランダム検索などの手法に比べて、制限や大きな欠点がありますか?

1
ネストされた相互検証後に最適なハイパーパラメーターを取得するにはどうすればよいですか?
一般的に、大きなデータセットがある場合は、(1)トレーニング、(2)検証、(3)テストに分割できます。検証を使用して相互検証(SVMのCなど)で最適なハイパーパラメーターを特定し、トレーニングセットで最適なハイパーパラメーターを使用してモデルをトレーニングし、トレーニングされたモデルをテストに適用してパフォーマンスを取得します。 データセットが小さい場合、トレーニングとテストセットを作成できません(サンプルが不十分)。したがって、モデルのパフォーマンスを評価するために、交差検証(k-fold、leave-one-outなど)を行います。 ネストされた交差検証(繰り返しまたは層別)が小さなデータセットの設定で使用されていることを確認しました。つまり、パラメーター選択を最適化しながら一般化モデルのパフォーマンスを生成します。私の質問は、ネストされた交差検証で最高のハイパーパラメーターを取得するにはどうすればよいですか(繰り返される/繰り返されない)? 可能であれば、scikit-learnでこれを行うことに興味があります。私はそれを行う方法について少し混乱しています。 私はいくつかのリソースを読みましたが、この質問に対する明確な答えはありませんでした。 モデル選択のためのネストされた相互検証 入れ子の交差検証と機能選択:機能選択を実行するタイミング?

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
ベイジアン最適化(ガウスプロセス)とシミュレーテッドアニーリングの実際の違いは何ですか
両方のプロセスは、未知の関数の最大値を推定するために使用されているようであり、明らかにその方法が異なります。 しかし、実際にはどちらの方法も本質的に交換可能ですか?どこで使用したいですか? https://en.wikipedia.org/wiki/Simulated_annealing http://www.iro.umontreal.ca/~bengioy/cifar/NCAP2014-summerschool/slides/Ryan_adams_140814_bayesopt_ncap.pdf 同様の質問 ベイズ最適化または勾配降下?

1
ベイジアン最適化の実用的な実装の詳細
GPML [ http://www.gaussianprocess.org/gpml/code/matlabを使用して、Snoek、Larochelle、およびAdams [ http://arxiv.org/pdf/1206.2944.pdf]に続いて、ベイジアン最適化を試みています。 / doc /]。3ページで説明した期待される改善の取得関数を実装しました。次のクエリのどこで目的をクエリするかを決定するには、最大化するを使用する必要があります。バツバツ\bf{x} aE私(x ; (xん、yん、θ ))aE私(バツ;(バツん、yん、θ))a_{EI}(\bf{x}; (\bf{x}_n,y_n,\theta)) しかし、の候補セットを考慮すべきかについてのガイダンスを見つけることができないようです。理論的には、ドメイン全体で最高のを見つけたいと考えています。この論文は、これが可能であると思われる方法で書かれています(「[EI]もガウス過程で閉じた形をしています」 )。しかし、実際問題として、私は、を計算する前に、これらの後任者が持っている間に検討する可能性のあるで事後予測平均と分散を計算する必要があります閉じた形でも、行列代数を使ってそれらを計算する必要があるため、の束を選択する方法をことができません。x x ∗ a E I(x ∗)xバツバツ\bf{x}バツバツ\bf{x}バツ∗バツ∗\bf{x}^*aE私(x∗)aE私(バツ∗)a_{EI}(\bf{x}^*)バツバツ\bf{x} 質問: EI(または他の取得関数)を最大化する候補のの大(中?小?)セットを選択するための実用的な方法は何ですか?(これは論文のどこかにあり、見逃しただけですか?)バツバツ\bf{x} 現時点では、現在のセットを取得し、それを2000回置き換えてサンプリングしてから、各ポイントにガウスノイズを追加しています。大丈夫だと思います。バツ私バツ私{x_i}

2
R1の最適化にL1ペナルティを追加すると、(ペナルティやL2がない場合と比較して)速度が大幅に低下するのはなぜですか?
私はBFGSのoptimの実装でいくつかの最適化を実行しています。目的関数は実際には単なる計算ではなく計算アルゴリズムです。L1ペナルティを追加すると、状況がかなり遅くなります。これはなぜでしょうか?物事を遅くするL1について何かありますか?glmnetでは、LASSOの実装はどのように高速なのでしょうか。 Googleのクイック検索により、「最適な目標と問題のパラメーターのL1ノルムを検出する」「lbfgs」というパッケージ呼び出しが見つかりました。「これらの最適化ルーチンの高速でメモリ効率の高い実装は、特に高次元の問題。」このような解決策を探すべきですか?
8 r  optimization  lasso 

1
ボールへの正則化と投影
私はボールへの射影とシンプレックスへのユークリッド射影に関して正則化がどのように機能するかを理解しようとしています。l∗l∗l_* 重みベクトルをまたはボールに投影したときの意味がよくわかりません。l1l1l_1l2l2l_2 正則化の概念をプログラムで理解できます。、重みベクトルの各要素を、を適用して、小さい重みを0に駆動します。l1l1l_1signum(w) * max(0.0, abs(w) - shrinkageValue)shrinkageValue = regularizationParameter * eta 私はここでいくつかの数学が欠けていると思うので、私の質問は、ベクトルの投影を先ほど説明したプログラムにどのように変換するのですか?正則化とベクトル投影はどのように関連していますか? 編集:私はこの論文をうとしています高次元で学習するためのボールへの効率的な投影l1l1l_1

2
名前EMアルゴリズムにEがあるのはなぜですか?
Eステップがアルゴリズムのどこで発生するかを理解しています(以下の数学セクションで説明されています)。私の考えでは、アルゴリズムの重要な工夫は、対数尤度の下限を作成するためのジェンセンの不等式の使用です。その意味でExpectationは、対数尤度を再定義してJensenの不等式(つまり、凹関数の場合はに適合するように単純に行われます。E(f(x))&lt;f(E(x))E(f(x))&lt;f(E(x))E(f(x)) < f(E(x)) Eステップがいわゆると呼ばれる理由はありますか?期待していること(意味はありますか?単に予期せずに発生するのではなく、期待が中心的である理由の背後にある直感が欠けているように感じますジェンセンの不等式の使用。p(xi,zi|θ)p(xi,zi|θ)p(x_i, z_i| \theta) 編集:チュートリアルは言う: 「Eステップ」という名前は、通常、完了に対する確率分布を明示的に形成する必要はなく、これらの完了に対して「期待される」十分な統計を計算するだけでよいという事実に由来しています。 「通常、完了に対する確率分布を明示的に形成する必要がない」とはどういう意味ですか?その確率分布はどのようになりますか? 付録:EMアルゴリズムのEステップ l l= ∑私ログp (x私; θ )= ∑私ログΣz私p (x私、z私; θ )= ∑私ログΣz私Q私(z私)p (x私、z私; θ )Q私(z私)= ∑私ログEz私[ p (x私、z私; θ )Q私(z私)]≥ Σ Ez私[ ログp (x私、z私; θ )Q私(z私)]≥ Σ私Σz私Q私(z私)ログp (x私、z私; θ )Q私(z私)対数尤度の定義潜在変数zで補強 Q私zの 分布です 私期待に応える-したがって、EMのE 凹型のログにジェンセンのルールを 使用する最大化するQ関数ll=∑ilog⁡p(xi;θ)definition of log likelihood=∑ilog⁡∑zip(xi,zi;θ)augment with latent variables …

2
2次元ヒストグラムの最適なビン幅
1Dヒストグラムで最適なビン幅を選択するための多くのルールがあります(例を参照) 2次元のヒストグラムに最適な等ビン幅の選択を適用するルールを探しています。 そのようなルールはありますか?おそらく、1Dヒストグラムのよく知られたルールの1つは簡単に適応できます。

2
スパースオートエンコーダー[ハイパー]パラメーター
Rでautoencoderパッケージを使い始めました。 autoencode()関数への入力には、ラムダ、ベータ、ロー、イプシロンが含まれます。 これらの値の境界は何ですか?アクティベーション機能ごとに異なりますか?これらのパラメーターは「ハイパーパラメーター」と呼ばれますか? スパースオートエンコーダーを想定すると、rho = .01はロジスティックアクティベーション関数に、rho =-。9は双曲線正接アクティベーション関数に適していますか? マニュアルでイプシロンが.001に設定されているのはなぜですか?私の記憶が正しければ、LeCunの「Efficient Backpropagation」では、ゼロにそれほど近い値ではない開始値を推奨しています。 ベータの「良い」値はどのくらい重要ですか? 隠れ層のヌエロンの数を選択するための「経験則」はありますか?たとえば、入力層にN個のノードがある場合、非表示層のに2N個のヌロンを含めるのは妥当ですか? オートエンコーダの実際の使用に関するいくつかの文献をお勧めできますか?

1
ロジスティック回帰モデルを最適化する場合、データが増えると、処理が*速く*なります。なぜか?
私は、さまざまなバッチ最適化アルゴリズム(共役勾配法、ニュートンラプソン、およびさまざまな準ニュートン法)を使用したロジスティック回帰をいじっています。気づいたことの1つは、モデルにデータを追加すると、モデルのトレーニングにかかる​​時間が大幅に短縮される場合があることです。各反復では、より多くのデータポイントを調べる必要がありますが、データを追加すると、必要な反復の総数が大幅に減少する可能性があります。もちろん、これは特定のデータセットでのみ発生し、ある時点でデータを追加すると、最適化の速度が低下します。 これはよく研究された現象ですか?これが発生する理由/時期に関する詳細情報はどこで入手できますか?

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

2
行列が正定でない場合の二次計画法
http://cran.r-project.org/web/packages/quadprog/quadprog.pdf Rパッケージquadprogは、行列が正定の場合にのみ、2次計画問題を解くことができるようです。DDD ただし、行列が正定でない場合があります。といったDDD 最小(x2+ y2− 6 x y)従うx + y3 x + yx 、y≤≤≥1 、1.5 、0。分(バツ2+y2−6バツy)従うバツ+y≤1、3バツ+y≤1.5、バツ、y≥0。\begin{eqnarray} \min(x^2 + y^2 - 6xy) \\ \text{subject to}\quad\quad x + y &\leq& 1,\\ 3x + y &\leq& 1.5,\\ x,y &\geq& 0. \end{eqnarray} この種の問題を解決するにはどうすればよいですか?
8 r  optimization 

4
2つのデータポイントと専門家の制約に一致する、おそらく珍しい分布を求めていますか?
ベイジアンメタアナリシスの以前の分布を述べようとしています。 確率変数に関する次の情報があります。 2つの観察:3.0、3.6 変数を研究する科学者は、であり、6という高い値はゼロ以外の確率を持つと私に言っています。P(X&lt;2)=P(X&gt;8)=0P(X&lt;2)=P(X&gt;8)=0P(X<2)=P(X>8)=0 私は、最適化に次のアプローチを使用している(ログ-Nのモードを= :eμ−σ2)eμ−σ2)e^{\mu-\sigma^2)} prior &lt;- function(parms, x, alpha) { a &lt;- abs(plnorm(x[1], parms[1], parms[2]) - (alpha/2)) b &lt;- abs(plnorm(x[2], parms[1], parms[2]) - (1-alpha/2)) mode &lt;- exp(parms[1] - parms[2]^2) c &lt;- abs(mode-3.3) return(a + b + c) } v = nlm(prior,c(log(3.3),0.14),alpha=0.05,x=c(2.5,7.5)) x &lt;- seq(1,10,0.1) plot(x, dlnorm(x, v$estimate[1], v$estimate[2])) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.