統計とビッグデータ optimization

4

たとえば、回帰を行う場合、選択する2つのハイパーパラメーターは、多くの場合、関数の容量（たとえば、多項式の最大指数）と正則化の量です。私が混乱しているのは、なぜ低容量の機能を選択し、正規化を無視しないのですか？そのように、それは過剰適合しません。正則化とともに高容量機能を持っている場合、それは低容量機能と正則化を持たないことと同じではありませんか？

32 regression machine-learning optimization regularization polynomial

1

PCA目的関数：分散の最大化とエラーの最小化の関係は何ですか？

PCAアルゴリズムは、相関行列の観点から定式化できます（データはすでに正規化されており、最初のPCへの投影のみを検討していると仮定します）。目的関数は次のように記述できます。XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. これは問題ありません。ラグランジュ乗数を使用して解決します。つまり、次のように書き換えます。 maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], これは maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, そのため（ここでMathworldを参照）は\ max_w \ sum_ {i = 1} ^ n \ text {（ポイント$ x_i $からライン$ w $までの距離）} ^ 2と等しいようmaxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi …

32 pca optimization

6

なぜ数値最適化に3次導関数を使用しないのですか？

ヘッシアンが最適化に非常に優れている場合（たとえば、ニュートンの方法を参照）、そこで停止するのはなぜですか？三次、四次、五次、六次導関数を使用してみましょう。何故なの？

29 optimization gradient-descent hessian

1

XGBoost損失関数テイラー展開による近似

例として、番目の反復でXGBoostモデルの目的関数を使用します。ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ここで、は損失関数、は番目のツリー出力、は正則化です。高速計算のための（多くの）重要なステップの1つは近似です：ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), ここで、およびは損失関数の1次および2次導関数です。gigig_ihihih_i 私が求めているのは、上記の近似がなぜ機能するのかを説明する説得力のある説得です： 1）上記の近似のXGBoostは、完全な目的関数のXGBoostと比較してどうですか？どのような潜在的に興味深い、高次の動作が近似で失われますか？ 2）視覚化するのは少し難しい（損失関数に依存する）が、損失関数に大きな3次成分がある場合、近似は失敗する可能性が高い。これがXGBoostに問題を引き起こさないのはどうしてですか？

28 optimization loss-functions boosting xgboost taylor-series

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

自由度は非整数の数値にできますか？

GAMを使用すると、残留DFは（コードの最終行）になります。どういう意味ですか？GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか？26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

0-1の損失を近似するために分類で異なる損失関数を選択することの影響は何ですか

一部の目的関数は最適化が容易であり、一部は困難であることがわかっています。また、使用したいが使いにくい損失関数が多数あります（0-1損失など）。そのため、作業を行うためのプロキシ損失関数をいくつか見つけました。たとえば、ヒンジ損失またはロジスティック損失を使用して、0-1の損失を「概算」します。次のプロットは、Chris BishopのPRML本からのものです。ヒンジ損失は青、ログ損失は赤、平方損失は緑、0/1エラーは黒でプロットされます。（ヒンジ損失とロジスティック損失の）そのような設計がある理由は、目的関数を凸にしたいからです。ヒンジ損失とロジスティック損失を調べることにより、強く誤分類されたインスタンスに対してよりペナルティを課し、興味深いことに、正しく分類されたインスタンスが弱く分類された場合にもペナルティを課します。それは本当に奇妙なデザインです。私の質問は、ヒンジ損失やロジスティック損失など、さまざまな「プロキシ損失関数」を使用して支払う必要がある価格はいくらですか？

27 machine-learning classification optimization loss-functions

6

理論的な機械学習のために凸最適化を研究する理由

私は博士号のために、理論的な機械学習、具体的には転移学習に取り組んでいます。好奇心から、なぜ凸最適化のコースを取る必要があるのですか？理論的機械学習の研究で、凸最適化から得られることは何ですか？

27 machine-learning optimization convex transfer-learning

6

なぜ重みが小さくなると正則化のモデルが単純になるのですか？

私は1年ほど前にAndrew Ngの機械学習コースを修了し、現在、ロジスティック回帰の仕組みとパフォーマンスを最適化する手法について高校数学の調査を書いています。これらの手法の1つは、もちろん正規化です。正則化の目的は、モデルを単純化するという目標を含めるようにコスト関数を拡張することにより、過剰適合を防ぐことです。これは、正方化パラメーターを掛けた二乗された各重みをコスト関数に追加することにより、重みのサイズにペナルティを課すことで実現できます。これで、機械学習アルゴリズムは、トレーニングセットの精度を維持しながら、重みのサイズを小さくすることを目指します。アイデアは、データを一般化するモデルを作成できる中間点に到達し、それほど複雑ではないためにすべての確率的ノイズに適合しようとしないというものです。私の混乱は、私たちがウェイトのサイズにペナルティを科す理由ですか？ウェイトが大きいほどより複雑なモデルが作成され、ウェイトが小さいほどよりシンプルな/より滑らかなモデルが作成されるのはなぜですか？Andrew Ngは、講義で説明を教えるのは難しいと主張していますが、私は今この説明を探していると思います。 Ng教授は、モデルの次数が低下するように、新しいコスト関数によってフィーチャの重み（x ^ 3およびx ^ 4）がゼロになる傾向がある例を実際に示しましたが、これは完全なものではありません説明。私の直感では、指数が小さいものは指数が小さいものよりも、指数が大きいものの方が重みが小さくなる傾向があります（重みの小さい特徴は関数の基礎に似ているため）。重みが小さいほど、高次のフィーチャへの「寄与」が小さくなります。しかし、この直感はあまり具体的ではありません。

27 regression machine-learning optimization regularization overfitting

1

リバースモード自動微分のステップバイステップの例

この質問がここに属するかどうかはわかりませんが、最適化における勾配法と密接に関連しています。これはここではトピックのようです。とにかく、他のコミュニティがこのトピックについてより良い専門知識を持っていると思うなら、気軽に移行してください。要するに、私は逆モード自動微分の段階的な例を探しています。トピックに関する文献はそれほど多くなく、既存の実装（TensorFlowのようなもの）は、その背後にある理論を知らずに理解するのは困難です。したがって、私たちが何を渡し、どのように処理し、計算グラフから何を取り出すかを誰かが詳細に示すことができれば、非常に感謝しています。私が最も苦労しているいくつかの質問：種 -なぜそれらが必要なのですか？逆微分ルール -前方微分を行う方法を知っていますが、どのように後方に進みますか？たとえば、このセクションの例では、をどのように知ることがますか？w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 我々はして作業を行うだけで、シンボルの実際を介して、またはパス値は？たとえば、同じ例では、と記号または値はありますか？wiwiw_iwi¯wi¯\bar{w_i}

27 optimization derivative tensorflow automatic-differentiation

1

統計、線形代数、機械学習の古典的な表記法は何ですか？そして、これらの表記法の間の関係は何ですか？

本を読むとき、表記を理解することは、内容を理解する上で非常に重要な役割を果たします。残念ながら、異なるコミュニティでは、モデルと最適化問題の定式化に関して異なる表記規則があります。ここに定式化表記をまとめて考えられる理由を教えてください。ここで例を示します：線形代数の文学では、古典的な本はStrangの線形代数入門です。本で最も使用されている表記は Ax=bAx=b A x=b ここで、は係数行列、は解く変数、は方程式の右側のベクトルです。その理由本はこの表記法を選択するには、線形代数の主な目的は、ベクターが何であるかを線形システムと数字解決されている。そのような定式化を考えると、OLS最適化問題はAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 統計または機械学習リテラシー（書籍統計学習の要素）で、人々は同じ表記を表すために異なる表記法を使用します。 Xβ=yXβ=yX \beta= y どこにXXXあるデータマトリックス、ββ\betaある係数または重みが学習を学習する、yyy応答です。理由統計や機械学習コミュニティの人々がされているため、人々はこれを使用するには、あるデータを駆動して、データおよび応答は彼らが使用する場合には、それらの最も興味深いものですXXXとyyy表現するために。ここで、考えられるすべての混乱が存在することがわかります。最初の方程式のAは2番目の方程式のXAAAと同じです。そして、2番目の式Xでは、解決する必要はありません。また、用語について：Aは線形代数の係数行列ですが、統計のデータです。\ betaは「係数」とも呼ばれます。XXXXXXAAAββ\beta さらに、Xβ=yXβ=yX \beta=yは機械学習で広く使用されているものではなく、すべてのデータポイントを要約するハーフベクトル化バージョンを使用していることを述べました。といった min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) この理由は、確率的勾配降下法や他のさまざまな損失関数について話すときに良いからだと思います。また、線形回帰以外の問題については、簡潔なマトリックス表記が消えます。ロジスティック回帰の行列表記誰もが異なる文学にまたがる表記法についてより多くの要約を与えることができますか？この質問に対する賢明な回答が、異なる文学を横断する本を読んでいる人々のための良いリファレンスとして使用できることを望みます。私の例および制限されないでください。他にもたくさんあります。といったAx=bAx=bA x=bXβ=yXβ=yX \beta=y なぜ2つの異なるロジスティック損失定式化/表記法があるのですか？

26 machine-learning probability self-study optimization

6

凸問題の場合、確率的勾配降下（SGD）の勾配は常にグローバルな極値を指しますか？

最適化にSGDを使用する凸型コスト関数を考えると、最適化プロセス中の特定のポイントに勾配（ベクトル）があります。私の質問は、凸面上の点を考えると、勾配は関数が最も速く増加/減少する方向だけを指すのですか、それとも勾配は常にコスト関数の最適/極値を指すのですか？前者はローカルコンセプトであり、後者はグローバルコンセプトです。 SGDは、最終的にコスト関数の極値に収束できます。凸面上の任意の点に与えられた勾配の方向と、グローバルな極値を指す方向との違いについて疑問に思っています。グラデーションの方向は、関数がそのポイントで最も速く増加/減少する方向である必要がありますよね？

25 neural-networks optimization gradient-descent sgd convex

3

Adam Optimizerがそのハイパーパラメーターの値に対して堅牢であると考えられる理由は何ですか？

私はディープラーニング用のAdamオプティマイザーについて読んでいて、Bengio、Goodfellow、Courvilleの新しい本Deep Learningで次の文章を見つけました。 Adamは通常、ハイパーパラメーターの選択に対してかなり堅牢であると見なされていますが、学習率を推奨されるデフォルトから変更する必要がある場合があります。ディープラーニングシステムの統計的パフォーマンスにおいて（少なくとも私の経験では）ハイパーパラメーター検索が非常に重要になる可能性があるため、これが事実であれば大したことです。したがって、私の質問は、なぜそのような重要なパラメーターに対してアダムがロバストなのですか？特別および？β1β1\beta_1β2β2\beta_2 私はAdamの論文を読みましたが、なぜそれらのパラメーターで機能するのか、なぜ堅牢なのかについては説明していません。彼らは他の場所でそれを正当化しますか？私は紙を読んでも、ために、彼らは非常に小さくしようとしたハイパーパラメータの数、ということらしいわずか2とするためにβ 2、それが唯一の2x3のハイパーパラメータで動作している場合にのみ3.どのようにこれは徹底的に実証研究することができ？β1β1\beta_1β2β2\beta_2

24 neural-networks deep-learning optimization hyperparameter adam

1

勾配降下の終了条件を定義する方法は？

実際、勾配降下の終了条件をどのように定義できるかを尋ねたいと思いました。繰り返しの数に基づいて、たとえば100回の繰り返しのパラメーター値を考慮して停止できますか？または、2つのパラメーター値「new」と「old」の違いがように非常に小さくなるまで待つ必要がありますか？これには間違いなく時間がかかります。10− 610−610^{-6} 最善の方法は何ですか？私の場合、1回の反復でもかなりの時間がかかります。この状況では、2番目の条件を待つと、数週間かかることもあります。したがって、どのアプローチを使用する必要があります。このシナリオに取り組む方法は？

24 algorithms optimization gradient-descent

4

ワイブル分布のEM最尤推定

注：私は、技術的な理由で自分で投稿できない元学生の質問を投稿しています。 pdfを持つワイブル分布からの iidサンプル与えられた場合、は有用な欠損変数表現、したがって、直接的な方法を使用する代わりにのMLEを見つけるために使用できる関連EM（期待値最大化）アルゴリズム数値最適化？バツ1、… 、xnバツ1、…、バツnx_1,\ldots,x_nfk（x ）= k xk − 1e− xkx > 0fk（バツ）=kバツk−1e−バツkバツ>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk（x ）= ∫Zgk（x 、z）d zfk（バツ）=∫Zgk（バツ、z）dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

24 optimization missing-data expectation-maximization weibull gumbel

タグ付けされた質問 「optimization」

タグ付けされた質問「optimization」