タグ付けされた質問 「optimization」

統計内で最適化を使用する場合は、このタグを使用してください。

4
次数を下げるのではなく、多項式回帰で正則化を使用するのはなぜですか?
たとえば、回帰を行う場合、選択する2つのハイパーパラメーターは、多くの場合、関数の容量(たとえば、多項式の最大指数)と正則化の量です。私が混乱しているのは、なぜ低容量の機能を選択し、正規化を無視しないのですか?そのように、それは過剰適合しません。正則化とともに高容量機能を持っている場合、それは低容量機能と正則化を持たないことと同じではありませんか?

1
PCA目的関数:分散の最大化とエラーの最小化の関係は何ですか?
PCAアルゴリズムは、相関行列の観点から定式化できます(データはすでに正規化されており、最初のPCへの投影のみを検討していると仮定します)。目的関数は次のように記述できます。XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. これは問題ありません。ラグランジュ乗数を使用して解決します。つまり、次のように書き換えます。 maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], これは maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, そのため(ここでMathworldを参照)は\ max_w \ sum_ {i = 1} ^ n \ text {(ポイント$ x_i $からライン$ w $までの距離)} ^ 2と等しいようmaxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi …
32 pca  optimization 


1
XGBoost損失関数テイラー展開による近似
例として、番目の反復でXGBoostモデルの目的関数を使用します。ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ここで、は損失関数、は番目のツリー出力、は正則化です。高速計算のための(多くの)重要なステップの1つは近似です:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), ここで、およびは損失関数の1次および2次導関数です。gigig_ihihih_i 私が求めているのは、上記の近似がなぜ機能するのかを説明する説得力のある説得です: 1)上記の近似のXGBoostは、完全な目的関数のXGBoostと比較してどうですか?どのような潜在的に興味深い、高次の動作が近似で失われますか? 2)視覚化するのは少し難しい(損失関数に依存する)が、損失関数に大きな3次成分がある場合、近似は失敗する可能性が高い。これがXGBoostに問題を引き起こさないのはどうしてですか?

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか
一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります(0-1損失など)。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。 次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。 (ヒンジ損失とロジスティック損失の)そのような設計がある理由は、目的関数を凸にしたいからです。 ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。 私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか?


6
なぜ重みが小さくなると正則化のモデルが単純になるのですか?
私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。 正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。 これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。 私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか?ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか?Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み(x ^ 3およびx ^ 4)がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。 私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります(重みの小さい特徴は関数の基礎に似ているため)。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

1
リバースモード自動微分のステップバイステップの例
この質問がここに属するかどうかはわかりませんが、最適化における勾配法と密接に関連しています。これはここではトピックのようです。とにかく、他のコミュニティがこのトピックについてより良い専門知識を持っていると思うなら、気軽に移行してください。 要するに、私は逆モード自動微分の段階的な例を探しています。トピックに関する文献はそれほど多くなく、既存の実装(TensorFlowのようなもの)は、その背後にある理論を知らずに理解するのは困難です。したがって、私たちが何を渡し、どのように処理し、計算グラフから何を取り出すかを誰かが詳細に示すことができれば、非常に感謝しています。 私が最も苦労しているいくつかの質問: 種 -なぜそれらが必要なのですか? 逆微分ルール -前方微分を行う方法を知っていますが、どのように後方に進みますか?たとえば、このセクションの例では、をどのように知ることがますか?w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 我々はして作業を行うだけで、シンボルの実際を介して、またはパス値は?たとえば、同じ例では、と記号または値はありますか?wiwiw_iwi¯wi¯\bar{w_i}

1
統計、線形代数、機械学習の古典的な表記法は何ですか?そして、これらの表記法の間の関係は何ですか?
本を読むとき、表記を理解することは、内容を理解する上で非常に重要な役割を果たします。残念ながら、異なるコミュニティでは、モデルと最適化問題の定式化に関して異なる表記規則があります。ここに定式化表記をまとめて考えられる理由を教えてください。 ここで例を示します:線形代数の文学では、古典的な本はStrangの線形代数入門です。本で最も使用されている表記は Ax=bAx=b A x=b ここで、は係数行列、は解く変数、は方程式の右側のベクトルです。その理由本はこの表記法を選択するには、線形代数の主な目的は、ベクターが何であるかを線形システムと数字解決されている。そのような定式化を考えると、OLS最適化問題はAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 統計または機械学習リテラシー(書籍統計学習の要素)で、人々は同じ表記を表すために異なる表記法を使用します。 Xβ=yXβ=yX \beta= y どこにXXXあるデータマトリックス、ββ\betaある係数または重みが学習を学習する、yyy応答です。理由統計や機械学習コミュニティの人々がされているため、人々はこれを使用するには、あるデータを駆動して、データおよび応答は彼らが使用する場合には、それらの最も興味深いものですXXXとyyy表現するために。 ここで、考えられるすべての混乱が存在することがわかります。最初の方程式のAは2番目の方程式のXAAAと同じです。そして、2番目の式Xでは、解決する必要はありません。また、用語について:Aは線形代数の係数行列ですが、統計のデータです。\ betaは「係数」とも呼ばれます。XXXXXXAAAββ\beta さらに、Xβ=yXβ=yX \beta=yは機械学習で広く使用されているものではなく、すべてのデータポイントを要約するハーフベクトル化バージョンを使用していることを述べました。といった min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) この理由は、確率的勾配降下法や他のさまざまな損失関数について話すときに良いからだと思います。また、線形回帰以外の問題については、簡潔なマトリックス表記が消えます。 ロジスティック回帰の行列表記 誰もが異なる文学にまたがる表記法についてより多くの要約を与えることができますか?この質問に対する賢明な回答が、異なる文学を横断する本を読んでいる人々のための良いリファレンスとして使用できることを望みます。 私の例 および制限されないでください。他にもたくさんあります。といったAx=bAx=bA x=bXβ=yXβ=yX \beta=y なぜ2つの異なるロジスティック損失定式化/表記法があるのですか?

6
凸問題の場合、確率的勾配降下(SGD)の勾配は常にグローバルな極値を指しますか?
最適化にSGDを使用する凸型コスト関数を考えると、最適化プロセス中の特定のポイントに勾配(ベクトル)があります。 私の質問は、凸面上の点を考えると、勾配は関数が最も速く増加/減少する方向だけを指すのですか、それとも勾配は常にコスト関数の最適/極値を指すのですか? 前者はローカルコンセプトであり、後者はグローバルコンセプトです。 SGDは、最終的にコスト関数の極値に収束できます。凸面上の任意の点に与えられた勾配の方向と、グローバルな極値を指す方向との違いについて疑問に思っています。 グラデーションの方向は、関数がそのポイントで最も速く増加/減少する方向である必要がありますよね?

3
Adam Optimizerがそのハイパーパラメーターの値に対して堅牢であると考えられる理由は何ですか?
私はディープラーニング用のAdamオプティマイザーについて読んでいて、Bengio、Goodfellow、Courvilleの新しい本Deep Learningで次の文章を見つけました。 Adamは通常、ハイパーパラメーターの選択に対してかなり堅牢であると見なされていますが、学習率を推奨されるデフォルトから変更する必要がある場合があります。 ディープラーニングシステムの統計的パフォーマンスにおいて(少なくとも私の経験では)ハイパーパラメーター検索が非常に重要になる可能性があるため、これが事実であれば大したことです。したがって、私の質問は、なぜそのような重要なパラメーターに対してアダムがロバストなのですか?特別および?β1β1\beta_1β2β2\beta_2 私はAdamの論文を読みましたが、なぜそれらのパラメーターで機能するのか、なぜ堅牢なのかについては説明していません。彼らは他の場所でそれを正当化しますか? 私は紙を読んでも、ために、彼らは非常に小さくしようとしたハイパーパラメータの数、ということらしいわずか2とするためにβ 2、それが唯一の2x3のハイパーパラメータで動作している場合にのみ3.どのようにこれは徹底的に実証研究することができ?β1β1\beta_1β2β2\beta_2

1
勾配降下の終了条件を定義する方法は?
実際、勾配降下の終了条件をどのように定義できるかを尋ねたいと思いました。 繰り返しの数に基づいて、たとえば100回の繰り返しのパラメーター値を考慮して停止できますか? または、2つのパラメーター値「new」と「old」の違いがように非常に小さくなるまで待つ必要がありますか?これには間違いなく時間がかかります。10− 610−610^{-6} 最善の方法は何ですか?私の場合、1回の反復でもかなりの時間がかかります。この状況では、2番目の条件を待つと、数週間かかることもあります。 したがって、どのアプローチを使用する必要があります。このシナリオに取り組む方法は?

4
ワイブル分布のEM最尤推定
注: 私は、技術的な理由で自分で投稿できない元学生の質問を投稿しています。 pdfを持つワイブル分布からの iidサンプル与えられた場合、 は有用な欠損変数表現 、したがって、直接的な方法を使用する代わりにのMLEを見つけるために使用できる関連EM(期待値最大化)アルゴリズム数値最適化?バツ1、… 、xnバツ1、…、バツnx_1,\ldots,x_nfk(x )= k xk − 1e− xkx > 0fk(バツ)=kバツk−1e−バツkバツ>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x )= ∫Zgk(x 、z)d zfk(バツ)=∫Zgk(バツ、z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.