タグ付けされた質問 「optimization」

統計内で最適化を使用する場合は、このタグを使用してください。

2
勾配降下を使用してk-meansが最適化されないのはなぜですか?
私が知っているK-手段が通常使用して最適化された期待値最大化を。ただし、他の最適化と同じ方法で損失関数を最適化できます! 大規模なk-meansに確率的勾配降下法を実際に使用している論文をいくつか見つけましたが、私の質問に答えることができませんでした。 だから、誰がそれがなぜだか知っていますか?期待値の最大化がより速く収束するためでしょうか?特別な保証はありますか?それとも歴史的な理由ですか?

2
最適化:統計のすべての悪の根源?
以前に次の表現を聞いたことがあります。 「最適化は統計上のすべての悪の根源です」。 たとえば、このスレッドの一番の答えは、モデルの選択中に過度に最適化する危険性について言及しています。 私の最初の質問は次のとおりです。この引用は特定の人に起因するものですか?(例えば、統計文献など) 私が理解していることから、声明は過剰適合のリスクに言及しています。従来の知恵では、適切な相互検証はすでにこの問題と戦っていると言われていましたが、この問題にはそれ以上のものがあるようです。 統計学者とMLプラクティショナーは、厳密な相互検証プロトコル(例:100個のネストされた10倍CV)を順守している場合でも、モデルの過剰最適化に注意する必要がありますか?もしそうなら、「最高の」モデルの検索をいつ停止するかをどのようにして知るのでしょうか?

1
等式および不等式制約のための制約付き最適化ライブラリ
最適化機能に適した制約付き最適化ライブラリの選択に関する推奨事項はありますか?私はai)線形等式および不等式制約のある非線形関数を最小化し、ii)関数の勾配とヘシアンを利用可能にしました。 それが役立つ場合、私が最小化している関数はKullback-Liebler divergenceです。 constrOptimは不等式制約のみを扱います。Quadprogは二次関数を処理します。信頼は制約をサポートしていません。したがって、KLの発散はこれらのソリューションに適合しません。 最適化のためのR Cranタスクページには、かなりの数のソリューションがあります。Iam は、interior-pointまたはtrust-region-reflectiveを使用していると思われるfmincon()関数を使用して、MATLABで最適化を実行できます。理想的には、定義された問題に適したライブラリがあります。

1
ディープラーニングのAdamオプティマイザーにバイアス補正用語を含めることが重要なのはなぜですか?
私はディープラーニングのAdamオプティマイザーについて読んでいて、Begnio、Goodfellow、Courtville の新しい本Deep Learningで次の文章に出会いました。 Adamは、原点での初期化を説明するために、1次モーメント(運動量項)と(非中心化)2次モーメントの両方の推定値に対するバイアス補正を含めます。 これらのバイアス補正項を含める主な理由は、mt=0mt=0m_t = 0およびvt=0vt=0v_t = 0の初期化のバイアスを何らかの形で除去するためだと思われます。 私はそれが何を意味するのか100%確信していませんが、おそらく1番目と2番目の瞬間がゼロから始まり、何らかの形でゼロから始まることはトレーニングに不公平な(または有用な)方法で値をゼロに近づけることを意味するようです? 私はそれがもう少し正確に何を意味するのか、そしてそれがどのように学習にダメージを与えるのかを知りたいのですが。特に、オプティマイザーにバイアスをかけないことは、最適化に関してどのような利点がありますか? これは、ディープラーニングモデルのトレーニングにどのように役立ちますか? また、偏りがない場合はどういう意味ですか?偏りのない標準偏差の意味はよく知っていますが、この文脈でそれが何を意味するのかは明確ではありません。 バイアス補正は本当に大したことなのか、それともAdamオプティマイザーの論文で誇張されているのか? 私が元の紙を理解しようと一生懸命努力したことは知っているが、元の紙を読んだり再読したりすることはほとんどない。私はこれらの質問のいくつかがそこで答えられるかもしれないと思いますが、答えを解析できないようです。

3
機械学習パイプラインで機能選択とハイパーパラメーター最適化をどのように順序付けすればよいですか?
私の目的は、センサー信号を分類することです。これまでの私のソリューションのコンセプトは次のとおりです。i)生の信号からのエンジニアリング機能ii)ReliefFおよびクラスタリングアプローチを使用して関連する機能を選択するiii)NN、ランダムフォレスト、SVMを適用する しかし、私はジレンマに陥っています。ii)とiii)には、ReliefFのk-Nearest Neigboursのようなハイパーパラメーター、またはセンサー信号が評価されるウィンドウの長さ、またはNNの各レイヤーの隠れたユニットの数があります。 ここに3つの問題があります。1)特徴選択パラメーターの調整は分類子のパフォーマンスに影響します。2)分類子のハイパーパラメーターを最適化すると、特徴の選択に影響します。3)構成の可能な組み合わせをそれぞれ評価することは困難です。 だから私の質問は次のとおりです:a)単純化の仮定を行うことができますか?stチューニング機能選択パラメーターをチューニング分類子パラメーターから分離できますか?b)他に可能な解決策はありますか?

1
L-BFGSはどのように機能しますか?
このペーパーの目的は、正則化された対数尤度を最大化することにより、いくつかのパラメーターを最適化することでした。次に、偏微分を計算します。そして、著者らは、L-BFGSを使用して方程式を最適化し、標準的な準ニュートン法で多くの変数の滑らかな関数を最適化すると述べています(詳細はありません)。 それはどのように機能しますか?

5
ロジスティック回帰に関する哲学的質問:最適なしきい値がトレーニングされないのはなぜですか?
通常、ロジスティック回帰では、モデルを近似し、トレーニングセットでいくつかの予測を取得します。次に、これらのトレーニング予測(こちらのようなもの)を相互検証し、ROC曲線のようなものに基づいて最適なしきい値を決定します。 しきい値の交差検証を実際のモデルに組み込んで、全体をエンドツーエンドでトレーニングしてみませんか?

2
最適化と機械学習
機械学習で最適化が必要な量を知りたいと思いました。私が聞いたことから、統計は機械学習で働く人々にとって重要な数学的トピックです。同様に、機械学習で働いている人にとって、凸または非凸の最適化について学ぶことはどれほど重要ですか?

2
KKTの概要
目的 KKTの理解が正しいかどうかを確認します。KKTに関する詳細な説明と確認を求めてください。 バックグラウンド KKTの条件、特に補完的な条件を理解しようとしています。これは、SVMの記事で常に青く表示されます。抽象式のリストは必要ありませんが、具体的で直感的でグラフィカルな説明が必要です。 質問 コスト関数f(X)を最小化するPが制約(g(P)> = 0)内にある場合、それは解です。この場合、KKTは関係ないようです。 Pが制約内にない場合、KKTが言うように、解Xは図の下で満たす必要があります。それはすべてKKTですか、それとも他の重要な側面を見逃していますか? その他の説明 KKTを適用するには、f(x)を凸にする必要がありますか? KKTを適用するには、g(x)を線形にする必要がありますか? λは、λ* g(X)= 0で必要ですか?なぜg(X)= 0またはg(Xi)= 0では不十分なのですか? 参照資料 ラグランジュ乗数KKT条件 SVMのすべてのガターポイントには正の乗数がありますか? http://fnorio.com/0136Lagrange_method_of_undetermined_multipliers/Lagrange_method_of_undetermined_multipliers.html アップデート1 答えてくれてありがとう、それでも理解するのに苦労しています。ここでのみ必要性に焦点を当てます。 マシュー・ガンの非最適点(緑色の円)に関する回答の条件(2)とKKTはそこで満たされませんか?そして、マーク・L・ストーンの答えのようにヘッシアンを見ると、その点が特定されるでしょうか? 別の状況は点であると思いますが、同じことが当てはまりますか? user23658

1
協調フィルタリングの最新技術
私は共同フィルタリング(CF)のプロジェクトに取り組んでいます。つまり、部分的に観測された行列またはより一般的にはテンソルを完成させています。私はこの分野の初心者であり、このプロジェクトでは、最終的に、現在の手法とCFの最新技術を比較する他の有名な手法とこの手法を比較する必要があります。 私の検索では、次の方法が明らかになりました。確かに、これらの論文とその参考文献のいくつかを見たり、比較を行う際に実験セクションを見たりすることで、彼らに出会いました。新しい提案された方法について知り、SoTAと比較したいのですが、次のうちどれが良い選択でしょうか?それらの間でなかったら、私はよい代表を知りたいです。 行列分解に基づく: 加重低ランク近似(ICML 2003) 協調フィルタリングのユーザー評価プロファイルのモデリング(NIPS 2003) 協調フィルタリングの多重乗数因子モデル(ICML 2004) 協調的予測のための高速最大マージンマトリックス因数分解(ICML 2005) 確率的行列因子分解(NIPS 2007) ベイジアン確率行列因子分解(ICML 2008) 回帰ベースの潜在因子モデル(KDD 2009) ガウス過程による非線形行列因子分解(ICML 2009) Dynamic Poission Factorization(Recommender Systems 2015に関するACM会議) テンソル分解に基づく: 多次元アプローチを使用したリコメンダーシステムへのコンテキスト情報の組み込み(ACM Transactions on Information Systems(TOIS)2005) ベイズ確率的テンソル因数分解(SIAMデータマイニング2010) リーマン最適化による低ランクテンソルの完了(BIT Numerical Mathematics 54.2(2014))

2
p> nの場合、投げ縄は最大n個の変数を選択します
エラスティックネットの動機の1つは、LASSOの次の制限でした。 では理由は凸最適化問題の性質のそれが飽和する前に、ほとんどのn個の変数の場合、投げ縄選択します。これは、変数選択方法の制限機能のようです。さらに、係数のL1ノルムの境界が特定の値より小さい場合を除き、投げ縄は明確に定義されていません。p>np>np > n (http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full) LASSOは2次計画問題であるが、LARSまたは要素ごとの勾配降下法によっても解決できることを理解しています。しかし、(pは予測子の数、nはサンプルサイズ)の場合、これらのアルゴリズムのどこで問題が発生するかわかりません。そして、なぜこの問題がエラスティックネットを使用して解決されるのですか?ここで、pを明らかに超えるp + n変数に問題を拡大します。p>np>np > npppnnnp+np+np+nppp

1
最適化の問題
私の友人がブレンダーのモデルを販売しています。ブレンダーの中には非常にシンプルで安価なものもあれば、非常に洗練されてより高価なものもあります。彼のデータは、各月の各ブレンダーの価格(彼によって固定されています)、および各モデルの販売ユニット数で構成されています。表記法を確立するために、彼は月のベクトル を知っています。 ここで、はか月間のブレンダーモデル価格、はか月間のブレンダーモデル販売単位数です。j = 1 、… 、n (p 1 j、kkkj=1,…,nj=1,…,nj=1,\dots,np i j i j n i j i j(p1j,…,pkj)and(n1j,…,nkj),(p1j,…,pkj)and(n1j,…,nkj), (p_{1j},\dots,p_{kj}) \qquad \textrm{and} \qquad (n_{1j},\dots,n_{kj}) \, , pijpijp_{ij}iiijjjnijnijn_{ij}iiijjj データが与えられたら、彼は、予想される将来の売上の価値を最大化する価格を決定したいと考えています。(p∗1,…,p∗k)(p1∗,…,pk∗)(p^*_1,\dots,p^*_k) 何らかのポアソン回帰を使用してこの問題のモデリングを開始する方法についていくつかのアイデアがありますが、車輪を再発明したくありません。特定の条件下で望ましい最大値が存在することを証明するのもいいでしょう。誰かがこの種の問題の文献へのポインタをください。


1
単純ベイズ分類器が0-1損失に最適なのはなぜですか?
Naive Bayes分類器は、クラスメンバーシップの事後の最大化に基づいてアイテムバツバツxをクラス割り当て、アイテムの特徴が独立していると仮定する分類器です。P (C | x )CCCP(C| x)P(C|バツ)P(C|x) 0-1の損失は、分類ミスに「1」の損失を割り当て、正しい分類に「0」の損失を割り当てる損失です。 私はよく(1)「単純ベイズ」分類器が0-1の損失に最適であることを読みました。なぜこれが本当ですか? (1)1つの典型的なソース:ベイズ分類器とベイズエラー

1
「サドルフリーニュートン」降下アルゴリズムが実際に使用されないのはなぜですか?
最近、Yann Dauphinらの論文を読みました。高次元の非凸最適化における点問題の特定と攻撃。ここでは、サドルフリーニュートンと呼ばれる興味深い降下アルゴリズムを導入します。バニラSGDとしての一次メソッドのような。 このペーパーは2014年にさかのぼるので、まったく新しいものではありませんが、「野生で」使用されているのを見たことはありません。この方法が使用されないのはなぜですか?ヘッセ計算は、実世界規模の問題/ネットワークに対して非常に禁止的すぎますか?このアルゴリズムのオープンソース実装さえありますか?おそらく、いくつかの主要なディープラーニングフレームワークで使用されるでしょうか? 2019年2月の更新:現在利用可能な実装があります:https : //github.com/dave-fernandes/SaddleFreeOptimizer)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.