タグ付けされた質問 「optimization」

統計内で最適化を使用する場合は、このタグを使用してください。



1
Gaussian Process Regressionのハイパーパラメーター調整
私が実装したガウスプロセス回帰アルゴリズムのハイパーパラメーターを調整しようとしています。式によって与えられる対数限界尤度を最大化したいだけです ここで、Kは、要素K_ {ij} = k(x_i、x_j)= b ^ {-1} \ exp(-\ frac {1} {2}(x_i-x_j)^ TM(x_i-x_j))+ a ^ {-1 } \ delta_ {ij}ここで、M = lI、a、b、lはハイパーパラメーターです。KKIJ=K(XI、XJ)=B-1つのEXP(-1ログ(y | X、θ)= − 12yTK− 1yy − 12ログ(det (K))− n2ログ(2 π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKK、M=LIA、BLK私はj= k (x私、xj)= b− 1exp(− 12(x私− xj)TM(x私− xj))+ a− 1δ私はjKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M= l IM=lIM=lIa 、ba,ba,blll パラメータの対数周辺尤度の偏微分は、次の\ frac {\ log(\ …

3
PCA最適化は凸型ですか?
主成分分析(PCA)の目的関数は、セクション2.12を参照してください(L2ノルムに再構成誤差を最小化され、ここで。別のビューが投影上の分散を最大化しようとしている我々はまた、ここでは優れた記事があります。PCAの目的関数とは何ですか?)。 私の質問は、PCA最適化は凸ですか?(ここでいくつかの議論を見つけましたが、CVで誰かがここで素晴らしい証拠を提供できることを願っています)。

2
シンプレックス法で最小絶対偏差を解決するには?
argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n しかし、私はLPの初心者なので、段階的に解決する考えはありません。何かアイデアはありますか?前もって感謝します! 編集: これが私がこの問題に到達した最新の段階です。私はこのメモに続く問題を解決しようとしています: ステップ1:標準形式に定式化する minZ=∑ni=1uiminZ=∑i=1nui\min Z=\sum_{i=1}^{n}u_{i} xTw−ui+s1=yii=1,…,nxTw−ui+s1=yii=1,…,n \textbf{x}^T\textbf{w} -u_i+s_1=y_{i} \; i = 1,\ldots,n xTw+ui+s2=−yii=1,…,nxTw+ui+s2=−yii=1,…,n \textbf{x}^T\textbf{w} +u_i+s_2=-y_{i} \; i = 1,\ldots,n s_1 \ ge 0の対象s1≥0;s2≥0;ui≥0 i=1,...,ns1≥0;s2≥0;ui≥0 i=1,...,ns_1 \ge 0; s_2\ge 0; …

1
デフォルトのlme4オプティマイザーでは、高次元のデータに対して多くの反復が必要です
TL; DR:lme4最適化は、デフォルトではモデルパラメータの数に直線的であるように思われる、とある道遅く同等以上glmのグループのためのダミー変数を持つモデル。高速化するためにできることはありますか? 私はかなり大きな階層型ロジットモデル(〜5万行、100列、50グループ)に適合させようとしています。データへの通常のロジットモデルのフィッティング(グループのダミー変数を使用)は正常に機能しますが、階層モデルはスタックしているように見えます:最初の最適化フェーズは正常に完了しますが、2番目は何も変更せずに停止せずに多くの反復を実行します。 編集:私は問題が主に非常に多くのパラメータを持っていると疑っています、maxfnより低い値に設定しようとすると警告が表示されるためです: Warning message: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. ただし、最適化の過程でパラメーターの推定値はまったく変化しないため、何をすべきかについてはまだ混乱しています。maxfn(警告にもかかわらず)オプティマイザーコントロールに設定しようとしたときに、最適化が終了した後にハングしたように見えました。 ランダムデータの問題を再現するコードを次に示します。 library(lme4) set.seed(1) SIZE <- 50000 NGRP <- 50 NCOL <- 100 test.case <- data.frame(i=1:SIZE) test.case[["grouping"]] <- sample(NGRP, size=SIZE, replace=TRUE, prob=1/(1:NGRP)) test.case[["y"]] <- sample(c(0, 1), size=SIZE, replace=TRUE, prob=c(0.05, 0.95)) …


1
RMSPropとAdamとSGD
RMSProp、Adam、SGDのネットワークを使用して、EMNIST検証セットの実験を行っています。SGD(学習率0.1)とドロップアウト(0.1ドロップアウト確率)、およびL2正則化(1e-05ペナルティ)で87%の精度を達成しています。同じ正確な構成をRMSPropとAdamでテストし、初期学習率0.001をテストすると、85%の精度と大幅に滑らかでないトレーニングカーブが得られます。この動作を説明する方法がわかりません。トレーニング曲線が滑らかでなく、精度が低く、エラー率が高い理由は何ですか?


2
ピアソンの相関係数を機械学習の最適化目標として使用する
機械学習(回帰問題の場合)では、最小化する誤差関数(および正則化項)として平均二乗誤差(MSE)または平均絶対誤差(MAE)が使用されることがよくあります。相関係数を使用する方が適切な状況があるのでしょうか。そのような状況が存在する場合: MSE / MAEと比較して、どのような状況で相関係数が優れたメトリックになりますか? これらの状況で、MSE / MAEはまだ使用するのに適したプロキシコスト関数ですか? 相関係数の最大化は直接可能ですか?これは使用する安定した目的関数ですか? 相関係数が直接最適化の目的関数として使用されるケースは見つかりませんでした。このエリアの情報を教えていただければ幸いです。

1
正則化とラグランジュ乗数の方法との関係は何ですか?
人々の過剰適合を防ぐために、人々は線形回帰のコスト関数に正則化パラメーターを持つ正則化項(モデルのパラメーターの二乗和に比例)を追加します。このパラメータはラグランジュ乗数と同じですか?正則化はラグランジュ乗数の方法と同じですか?または、これらのメソッドはどのように関連付けられていますか? λλ\lambdaλλ\lambda

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

2
二次計画法によるサポートベクターマシンの最適化
線形サポートベクターマシンのトレーニングプロセスを理解しようとしています。SMVのプロパティを使用すると、2次プログラミングソルバーを使用するよりもはるかに速く最適化できることを理解していますが、学習目的でこれがどのように機能するかを確認したいと思います。 トレーニングデータ set.seed(2015) df <- data.frame(X1=c(rnorm(5), rnorm(5)+5), X2=c(rnorm(5), rnorm(5)+3), Y=c(rep(1,5), rep(-1, 5))) df X1 X2 Y 1 -1.5454484 0.50127 1 2 -0.5283932 -0.80316 1 3 -1.0867588 0.63644 1 4 -0.0001115 1.14290 1 5 0.3889538 0.06119 1 6 5.5326313 3.68034 -1 7 3.1624283 2.71982 -1 8 5.6505985 3.18633 -1 9 4.3757546 …
12 r  svm  optimization 

1
「バニラ」とはどういう意味ですか?
機械学習のブログでは、「バニラ」という言葉に頻繁に出会います。たとえば、「バニラグラディエントディセント」や「バニラメソッド」などです。この用語は、最適化の教科書では文字通り見られません。 たとえば、この投稿では、次のように述べています。 これは、勾配降下法の最も単純な形式です。ここで、バニラとは、純粋な/不純物のないものを意味します。その主な特徴は、コスト関数の勾配をとることにより、最小値の方向に小さなステップを踏むことです。 この文脈で「姦淫」は何を意味するのでしょうか。著者は、バニラ勾配降下と運動量を伴う勾配降下を対比することでさらに進んでいます。したがって、この場合、バニラ勾配降下法は勾配降下法の別の言葉です。 別の投稿では、 バニラ勾配降下、別名バッチ勾配降下、... 悲しいことに、バッチ勾配降下法について聞いたことがありません。ああ少年。 誰かが「バニラ」の意味を明確にできますか、そしてそれに対してより確固たる数学的な定義があるかどうか。

2
KKTを使用した Norm正則回帰と Norm制約付き回帰の同等性の表示
参考文献によると、ブック1、ブック2および紙。 正則化された回帰(Ridge、LASSO、Elastic Net)とそれらの制約式の間には同等性があると述べられています。 私も見てきましたクロス検証済み1、およびクロス検証済み2、私は明確な答え等価ショーやロジックを見ることができません。 私の質問は Karush–Kuhn–Tucker(KKT)を使用してその同等性を示す方法は? 次の式はリッジ回帰用です。 注意 この質問は宿題ではありません。このトピックの理解を深めるだけです。 更新 私はまだアイデアを思いつきません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.