統計とビッグデータ optimization

4

機械学習の最適化手法に関するいくつかの研究を行っていますが、他の最適化問題に関して多数の最適化アルゴリズムが定義されていることに驚いています。以下にいくつかの例を示します。たとえば、https：//arxiv.org/pdf/1511.05133v1.pdf すべてが素晴らしくて良いように見えが、更新にはこのがあります。...を解決するアルゴリズムは何ですか？私たちは知りません、そしてそれは言いません。魔法のように、内積が最小になるように最小化ベクトルを見つけるという別の最適化問題を解決します。これはどのように行うことができますか？z k + 1 argminargminバツargminx\text{argmin}_xzk + 1zk+1z^{k+1}argminargmin\text{argmin} 別の例をご覧ください：https : //arxiv.org/pdf/1609.05713v1.pdf アルゴリズムの途中でその近位の演算子をヒットするまで、すべてが素晴らしくて見栄えがよく、その演算子の定義は何ですか？ブーム：さて、近位オペレーターでこのをどのように解決したらよいでしょうか。それは言いません。いずれにせよ、その最適化問題はが何であるかに応じて困難に見えます（NP HARD）。 fargminバツargminx\text{argmin}_xfff 誰かが私に啓発してください：なぜ他の最適化問題に関して非常に多くの最適化アルゴリズムが定義されているのですか？（これはある種の鶏と卵の問題ではありません。問題1を解決するには、問題3を解決する方法を使用して問題2を解決する必要があります。これらのアルゴリズムに組み込まれているこれらの最適化問題をどのように解決しますか？たとえば、、右側のを見つける方法は？バツk + 1= argminバツ本当に複雑な損失関数xk+1=argminxreally complicated loss functionx^{k+1} = \text{argmin}_x \text{really complicated loss function} 最終的に、これらのアルゴリズムを数値的に実装する方法について私は困惑しています。ベクトルの追加と乗算はPythonでは簡単な操作であると認識していが、については、関数の最小化を魔法のように与える関数（スクリプト）はありますか？argminバツargminx\text{argmin}_x （報奨金：著者が高レベル最適化アルゴリズムに埋め込まれた副問題のアルゴリズムを明確にしている論文を参照できますか？）

23 machine-learning svm optimization

2

機械学習技術は「近似アルゴリズム」ですか？

最近cstheory stackexchangeについてMLのような質問があり、Powellの方法、勾配降下法、遺伝的アルゴリズム、またはその他の「近似アルゴリズム」を推奨する回答を投稿しました。コメントで、これらの方法は「近似アルゴリズム」ではなく「ヒューリスティック」であり、理論的な最適値に近づかないことが多いと言われました（「極小値にしばしば行き詰まる」ため）。他の人はそれに同意しますか？また、探索空間の大部分を探索するように設定されている場合（たとえば、パラメータ/ステップサイズを小さく設定する）、どのヒューリスティックアルゴリズムが理論的な最適値に近づくことを保証できるという感覚があるように思えますが、論文ではそれを見ませんでした。これが論文で示されているか証明されているかどうかは誰にもわかりませんか？（アルゴリズムの大規模なクラスではない場合、多分小さなクラスの場合はNNなど）

23 machine-learning optimization approximation

4

MLEの問題には常にマキシマイザーがありますか？

最大（対数）尤度推定問題には常に最大化器があるのだろうか？言い換えれば、MLE問題に最大化機能がない分布とパラメーターがありますか？私の質問は、MLEのコスト関数（尤度または対数尤度、どちらが意図されたのかわからない）は常に凹であるため、常に最大化されているというエンジニアの主張から来ています。よろしくお願いします！

23 maximum-likelihood optimization

3

座標降下と勾配降下

2つのアルゴリズムCoordinate DescentとGradient Descentの異なるユースケースは何だろうと思っていました。座標降下には、滑らかでない関数に問題があることを知っていますが、SVMやLASSOなどの一般的なアルゴリズムで使用されています。しかし、勾配降下法は、特にANNの復活や他の多くの機械学習タスクで、より広く使用されていると思います。私の質問は次のとおりです。どのタイプの問題が一方に適合し、他方には適合しないか、その点でSVMおよびLASSOの座標降下フィッティングを作成しますが、ANNの勾配降下フィッティングを作成します。最適化アルゴリズムを選択するときに、2つのうちどちらを選択する必要がありますか？

23 optimization gradient-descent

1

ニューラルネットワークのコスト関数が非凸であるのはなぜですか？

ここにも同様のスレッドがあります（ニューラルネットワークのコスト関数は非凸状ですか？）差の二乗コスト関数の合計を使用している場合、最終的にという形式の何かを最適化します。ここではトレーニング中の実際のラベル値ですphaseおよびは予測ラベル値です。これは正方形の形をしているので、これは凸コスト関数でなければなりません。それでは、NNで非凸になる可能性があるのは何ですか？ΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

22 machine-learning neural-networks optimization loss-functions convex

4

最尤法を使用して多変量正規モデルを近似するときに共分散行列のプロパティを保証する方法は？

私は次のモデルを持っているとします yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i ここで、、は説明変数のベクトル、は非線形関数およびのパラメーターです。ここで当然行列。X I θ F ε I〜N （0 、Σ ）Σ K × Kyi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K 目標は、およびを推定することです。明白な選択は最尤法です。このモデルの対数尤度（サンプルがあると仮定）は次のようになりますΣ （Y iは、X I）、iは= 1 、。。。、nθθ\thetaΣΣ\Sigma(yi,xi),i=1,...,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n l(θ,Σ)=−n2log(2π)−n2logdetΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) これは簡単に思えますが、対数尤度が指定され、データが入力され、非線形最適化のために何らかのアルゴリズムが使用されます。問題は、ΣΣ\Sigmaが正定であることを確認する方法です。たとえばoptimR（またはその他の非線形最適化アルゴリズム）で使用しても、ΣΣ\Sigmaが正定であることは保証されません。質問は、ΣΣ\Sigmaが確実に正定値を維持するようにする方法ですか？次の2つの解決策があります。 Rが上三角行列または対称行列である場合、RRとしてΣΣ\Sigmaを再設定します。その場合、\ Sigmaは常に正定値になり、Rは制約なしになります。RR′RR′RR'RRRΣΣ\SigmaRRR プロファイル尤度を使用します。およびの式を導き出します。いくつかのから開始して、、収束するまで。θ^(Σ)θ^(Σ)\hat\theta(\Sigma)Σ^(θ)Σ^(θ)\hat{\Sigma}(\theta)θ0θ0\theta_0Σ^j=Σ^(θ^j−1)Σ^j=Σ^(θ^j−1)\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1})θ^j=θ^(Σ^j−1)θ^j=θ^(Σ^j−1)\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1}) 他の方法はありますか？これらの2つのアプローチはどうですか？それらは機能しますか？それらは標準ですか？これはかなり標準的な問題のように思えますが、クイック検索では何の指針も得られませんでした。ベイジアン推定も可能であることは知っていますが、当面はそれを行いたくありません。

22 maximum-likelihood optimization covariance

3

なぜ最大尤度であり、予想尤度ではないのですか？

なぜパラメーターの最尤推定値を取得するのがそれほど一般的であるのに、予想尤度パラメーター推定値についてはほとんど聞いていません（つまり、尤度関数のモードではなく期待値に基づいています）。これは主に歴史的な理由によるものですか、それともより実質的な技術的または理論的な理由によるものですか？最尤推定値ではなく予想尤度推定値を使用することには、大きな利点や欠点がありますか？予想尤度推定が日常的に使用される領域はありますか？

22 probability mathematical-statistics maximum-likelihood optimization expected-value

2

学習アルゴリズムの選択方法

いくつかのトレーニングデータに基づいてレコードを2つのカテゴリ（true / false）に分類するプログラムを実装する必要があり、どのアルゴリズム/方法論を検討すべきか疑問に思っていました。人工ニューラルネットワーク、遺伝的アルゴリズム、機械学習、ベイジアン最適化など、多くの選択肢があるようで、どこから始めればよいのかわかりませんでした。したがって、私の質問は次のとおりです。問題に使用する学習アルゴリズムをどのように選択すればよいですか。これが役立つ場合、ここに私が解決する必要がある問題があります。トレーニングデータ：トレーニングデータは、次のような多くの行で構成されます。 Precursor1, Precursor2, Boolean (true/false) 実行には、多くの前駆体が与えられます。その後、さまざまなアルゴリズムからアルゴリズムAを選択し（またはアルゴリズムを動的に生成し）、これらの前駆体のあらゆる可能な組み合わせに適用し、放出される「レコード」を収集します。「レコード」は、いくつかのキーと値のペアで構成されています*。いくつかの素晴らしいアルゴリズムを適用し、これらのレコードを2つのカテゴリ（true / false）に分類します。電車のデータと同じ形式のテーブルを生成します。 Precursor1, Precursor2, Boolean そして、プログラム全体は、正解/不正解の数に基づいて採点されます。 *：「レコード」は次のようになります（これが理にかなっていることを願っています） Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 可能なキーの数は限られています。レコードにはこれらのキーの異なるサブセットが含まれます（一部のレコードにはkey1、key2、key3 ...があり、他のレコードにはkey3、key4 ...などがあります）。実際に2つの学習が必要です。1つはステップ1です。前駆体のペアなどを調べて、比較のためにレコードを発行するために適用するアルゴリズムを決定するモジュールが必要です。もう1つは、ステップ2です。レコードのコレクションを分析し、それらを2つのカテゴリ（true / false）に分類するモジュールが必要です。前もって感謝します！

21 machine-learning bayesian optimization genetic-algorithms

1

ロジスティック回帰が完全な分離の場合に機能しない理由について直感的な説明はありますか？そして、なぜ正規化を追加すると修正されるのでしょうか？

ロジスティック回帰における完全な分離について多くの良い議論があります。以下のような、R内のロジスティック回帰は、完全な分離（ハウク-ドナー現象）をもたらしました。それで？そして、ロジスティック回帰モデルは収束しません。個人的には、なぜそれが問題になるのか、なぜ正則化を追加するとそれが修正されるのか、直観的ではないと感じています。私はいくつかのアニメーションを作成し、それが役立つと思います。そこで、彼の質問を投稿し、自分で答えてコミュニティと共有してください。

20 logistic generalized-linear-model optimization intuition separation

7

対称正定値（SPD）行列がそれほど重要なのはなぜですか？

対称正定値（SPD）行列の定義は知っていますが、もっと理解したいです。なぜ、直感的に重要なのですか？これが私が知っていることです。ほかに何か？特定のデータの場合、共分散行列はSPDです。共分散行列は重要なメトリックです。直感的な説明については、この優れた投稿を参照してください。二次形式12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cあれば、凸状であり、AAASPDです。凸は、ローカルソリューションがグローバルソリューションであることを確認できる関数の優れたプロパティです。Convexの問題には、解決すべき多くの優れたアルゴリズムがありますが、covex以外の問題にはありません。 AAAがSPDの場合、2次形式の最適化ソリューションはminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cと線形システムのための溶液Ax=bAx=bAx=b同じです。したがって、2つの古典的な問題間で変換を実行できます。これは、あるドメインで発見されたトリックを別のドメインで使用できるため、重要です。たとえば、共役勾配法を使用して線形システムを解くことができます。コレスキー分解など、SPDマトリックスに適した多くの優れたアルゴリズム（高速で安定した数値）があります。編集：私はSPD行列のアイデンティティを尋ねるのではなく、重要性を示すためにプロパティの背後にある直観を求めています。たとえば、@ Matthew Druryが述べたように、行列がSPDの場合、固有値はすべて正の実数ですが、なぜすべてが正であるかが重要です。@Matthew Druryはフローに対して素晴らしい回答をしてくれました。

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

2

ニューラルネットでは、なぜ他のメタヒューリスティックではなく勾配法を使用するのですか？

深くて浅いニューラルネットワークのトレーニングでは、他のメタヒューリスティックとは対照的に、勾配法（勾配勾配、Nesterov、Newton-Raphsonなど）が一般的に使用されるのはなぜですか？メタヒューリスティックとは、シミュレートされたアニーリング、アリのコロニーの最適化などの方法を意味します。これらの方法は、局所的な最小値にとどまることを避けるために開発されました。

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

LSTMに最適な最適化方法は何ですか？

theanoを使用してLSTMを実験してきましたが、どの最適化方法（SGD、Adagrad、Adadelta、RMSprop、Adamなど）がLSTMに最適か疑問に思っていましたか？このトピックに関する研究論文はありますか？また、答えは、私がLSTMを使用しているアプリケーションのタイプに依存しますか？もしそうなら、私はテキスト分類のためにLSTMを使用しています（テキストは最初に単語ベクトルに変換されます）。最後に、RNNの回答は同じですか、それとも異なりますか？研究論文へのポインタ、または個人的な洞察は大歓迎です！ LSTMは非常に強力であると思われるため、LSTMの最適な使用方法について詳しく知りたいと思っています。

20 machine-learning neural-networks optimization lstm

3

遺伝的アルゴリズムはいつ最適化に適していますか？

遺伝的アルゴリズムは、最適化手法の1つの形式です。多くの場合、関数の最適化には確率的勾配降下法とその導関数が最適な選択ですが、遺伝的アルゴリズムが依然として使用されることもあります。たとえば、NASAのST5宇宙船のアンテナは、遺伝的アルゴリズムを使用して作成されました。一般的な勾配降下法よりも遺伝的最適化法の方が適しているのはいつですか？

20 machine-learning optimization gradient-descent genetic-algorithms

2

規範の文脈でのスーパースクリプト2サブスクリプト2の意味は何ですか？

最適化は初めてです。ノルムの右側に上付き文字2と下付き文字2がある方程式を見続けています。たとえば、ここに最小二乗方程式があります分| | Ax−b | |22||Aバツ−b||22 ||Ax-b||^2_2 上付き文字2を理解していると思います：それは標準の値を二乗することを意味します。しかし、下付き文字2とは何ですか？これらの方程式はどのように読むべきですか？

20 regression optimization notation

1

オーバーフィッティングの数学的/アルゴリズム的定義

オーバーフィッティングの数学的またはアルゴリズム的な定義はありますか？多くの場合、定義は、ポイントが1つ1つのポイントを通過し、検証損失曲線が突然上昇する、ポイントの古典的な2次元プロットです。しかし、数学的に厳密な定義はありますか？

18 mathematical-statistics optimization overfitting

タグ付けされた質問 「optimization」

タグ付けされた質問「optimization」