タグ付けされた質問 「optimization」

統計内で最適化を使用する場合は、このタグを使用してください。


2
回帰分析で多項式の次数を見つける
私は機械学習プロジェクトに取り組んでおり、データの曲線を当てはめようとしています。残念ながら、日付の特徴ベクトルはやや高くなっています。そのため、2Dまたは3D空間に実際にプロットして、データの形状がどのように見えるかを推測することはできません。 したがって、ヒットとトライアル以外に、私のデータに最適な多項式の次数を見つけるための数学的な方法はありますか? つまり、各次数の最小二乗誤差を調べて、最小の誤差を持つ誤差を選択できることを知っていますが、最初の最適化ループは、データに適合する曲線、2番目のループは次数のチェックに使用されます。助言がありますか?

2
ウェブサイト最適化のための多変量テストの背後にある数学
多変量のウェブサイトコンバージョンデータから(十分な数の)与えられた適切な統計的推論を行うための理論的なリソース(本、チュートリアルなど)を探しています。 私は数学が関係しているので、ウェブ上でマーケティング以外の優れたものを見つけることができません。私が回答したい種類の質問:単一の変数(例:テキストの色)はどのくらいの影響がありますか?変数間の相関関係は何ですか?モデリングにはどのタイプの分布が使用されていますか(ガウス、二項など)?統計を使用して結果を分析する場合-確率変数と見なす必要があるもの-異なるバリエーションまたはインプレッションのバイナリコンバージョンまたは非コンバージョンの結果を取得するWebページ要素? さまざまなウェブサイト最適化テスト方法とその利点\落とし穴に関する情報はたくさんあります。多変量統計一般に関する情報はたくさんあります。ウェブサイト最適化のこの特定のコンテキストにおける技術統計について説明しているリソースを知っていますか? 情報ありがとうございます!

1
Rでの特別な混合モデルのあてはめ-optim()の代替
Rで、SASのproc混合を使用して(STATA esでうまく実行する方法がいくつかあります)、つまりReitsma et al(2005)のいわゆる二変量モデルに適合するように、SASで実行できることをしたいと思います。このモデルは、分散がスタディに依存する特別な混合モデルです(以下を参照)。モデルを熟知している何人かの人々とグーグルして話をしても、同時に高速で簡単なアプローチ(つまり、優れた高レベルのモデルフィッティング関数)が得られませんでした。それにもかかわらず、Rには、高速で構築できる何かが存在します。 一言で言えば、次のような状況に直面しています。 (p1,p2)(p1,p2)(p_1,p_2) に [ 0 、1]2[0、1]2[0,1]^2二変量法線をロジット変換されたペアに当てはめたいと考えています。比率は2x2テーブル(つまり、2項データ)から取得されるため、各ロジット変換された観測比率には、当てはめプロセスに含まれるべき分散推定値があります。(s1、s2)(s1、s2)(s_1, s_2)。したがって、共分散行列がペアである2変量正規分布を当てはめたいとします。ΣΣ\Sigma 観察に依存する、すなわち (ロジット(p1)、ロジット(p2))〜N((mあなた1、mあなた2)、Σ + S)(ロジット(p1)、ロジット(p2))〜N((メートルあなた1、メートルあなた2)、Σ+S)(\text{logit}(p_1),\text{logit}(p_2)) \sim N((mu_1, mu_2), \Sigma + S) ここで、Sは次の対角行列です。 (s1、s2)(s1、s2)(s_1, s_2)完全にデータに依存しますが、観測ごとに異なります。muとSigmaはすべての観測で同じです。 現在、optim()(BFGSを使用して)を呼び出して5つのパラメータを推定しています(μ1μ1\mu_1、 μ2μ2\mu_2、および3つのパラメータ ΣΣ\Sigma)。それにもかかわらず、これは非常に遅く、特にシミュレーションには適していません。また、私の目的の1つは、後でmuの回帰係数を導入し、パラメーターの数を増やすことです。 開始値を指定してフィッティングを高速化してみました。また、5つのパラメーターの勾配の計算についても考えました。の追加により可能性が非常に複雑になるためSSS、私はこの方法でエラーを導入するリスクが大きすぎると感じ、まだそれを試みなかったし、自分の計算をチェックする方法も見ていませんでした。 勾配の計算は通常価値がありますか?それらをどのようにチェックしますか? 私は以外にも他のオプティマイザを知っています。optim()つまりnlm()、CRANタスクビュー:最適化についても知っています。どれが試してみる価値がありますか? optim()精度を落とす以外に、スピードアップのためにどんなトリックがありますか? どんなヒントにも感謝します。
8 r  optimization 

1
直交制約による最適化
私はコンピュータビジョンに取り組んで、目的関数を最適化する必要が午前は、行列の関係と行列直交行列です。XXXXXX maximize f(X)maximize f(X)maximize \ \ f(X) s.t XTX=Is.t XTX=I s.t \ \ X^T X=I ここで、は単位行列です。私はいくつかの論文を読んでおり、彼らはグラスマニアのマンフィオールド、スティーフェル多様体に対する最適化のような複雑な用語について話しました。基本的に、これらの多様体の勾配は、ユークリッド空間上の通常の勾配とは異なります。III これらの多様体に勾配ベースの方法を実装できるように、読みやすい紙を提案してください。ドキュメントを説明する簡単なMatlabの例がある場合は参考になります ありがとう

4
最適化における「ソルバー」とは正確には何ですか?
計算の最適化におけるソルバーの使い方に本当に戸惑っています。この用語が何を意味するのかをよく理解できるかどうかを確認するために、1か月間前後を見て回っていましたが、それでもまだ十分に理解していません。 機械学習などで最適化問題を解決したい場合、正確な計算手順をソルバーではなくアルゴリズムと呼びます。たとえば、2次プログラムがある場合、MATLABのQuadprog関数を使用してQPを解きます。 Quadprog関数は、単なるMATLAB関数またはスクリプトであるため、QPソルバーとは呼びません。Quadprogの背後にある正確なアルゴリズムをQPソルバーと呼ぶことはしません。勾配降下法、内点法、ニュートンラフソンであるかどうかは気にしません...それらはすべて私にとってアルゴリズムです。最後に、MATLABを唯一の目的ではないので、QPソルバーとしてMATLABを参照しません。したがって、最適化を日常的に使用しなければならないにもかかわらず、「ソルバー」という単語が私の日常の語彙から欠落しているようです。これは私をかなり混乱させ、専門用語に慣れていないように感じます。 したがって、私の推論では、アルゴリズムとMATLABはソルバーではありません。しかし、最適化の問題を解決するためにGurobiやYALMIPなどのソフトウェアをダウンロードしたとしたら、これらのソフトウェアはソルバーと呼ばれますか?私は、あなたが使用している「ソフトウェア」と同じトーンで、あなたが使用している「ソルバー」を参照している人をよく耳にします。最適化ソフトウェアとソルバーの違いは何ですか? これは本当に初歩的な質問のように聞こえますが、MATLABでのみ最適化を行いました。

1
LASSO問題への双対性とKKT条件の適用
双対性がLASSOの一般的な形式にどのようにつながるのか、および補完的な緩みと呼ばれるKarush-Kuhn-Tuckerの状態で、私はいくつかの問題を抱えています。2つの質問があります。 最適化の問題を考えると、 minxf(x)s.t.hi(x)≤0,i=1,…,mminxf(x)s.t.hi(x)≤0,i=1,…,m \begin{align*} &\min_x f(x)\\ &s.t. \quad h_i(x) \leq 0 \, ,\quad i=1,\dots, m \end{align*} これを解くことは、二重問題 withmaxλg(λ)s.t.λ≥0maxλg(λ)s.t.λ≥0 \begin{align*} &\max_\lambda \,\, g(\lambda) \\ &s.t. \quad \lambda \geq 0 \end{align*} g(λ)=minλ{f(x)+∑mi=1λihi(x)}g(λ)=minλ{f(x)+∑i=1mλihi(x)}g(\lambda) = min_\lambda \bigr\{f(x) + \sum_{i=1}^m \lambda_i h_i(x)\bigr \} LASSOの問題では、プライマルは ||y−Xβ||22s.t.||β||1≤t||y−Xβ||22s.t.||β||1≤t \begin{align*} &||y-X\beta ||_2^2 \\ &s.t. \,\,\,\, ||\beta ||_1 \leq t …

3
の勾配降下
新しい蒸留ジャーナルからの投稿、Why Momentum Really Worksを読んでいます。混乱を招く部分に至る主要な方程式を言い換えますが、この投稿では直感について詳しく説明しています。 勾配降下アルゴリズムは、次の反復プロセスによって与えられます wk+1=wk−α∇f(wk)wk+1=wk−α∇f(wk)w^{k+1} = w^k-\alpha \nabla f(w^k) どこ wkwkw^k 反復の値です kkk、学習率は αα\alpha そして ∇f(w)∇f(w)\nabla f(w) 関数の勾配です fff で評価された www。関数fff 最小化したい。 運動量を伴う勾配降下は、降下に「記憶」を追加することによって与えられます。これは、2つの方程式で表されます。 zk+1wk+1=βzk+∇f(wk)=wk−αzk+1zk+1=βzk+∇f(wk)wk+1=wk−αzk+1\begin{align} z^{k+1} &= \beta z^k + \nabla f(w^k) \\ w^{k+1} &= w^k - \alpha z^{k+1} \end{align} 次のセクション「最初のステップ:勾配降下」では、著者は凸2次関数を検討します。 f(w)=12wTAw−bTw,w∈Rn,A∈Rn,nf(w)=12wTAw−bTw,w∈Rn,A∈Rn,nf(w) = \frac12w^TAw-b^Tw, \quad w \in \mathbb{R}^n, A \in …

3
ハイパーパラメーターを最適化するためのグリッド検索を使用したK分割交差検証の段階的な説明
私は、k分割(および1つを残す)交差検証の利点、およびトレーニングセットを分割して3番目のホールドアウト「検証」セットを作成する利点をよく知っています。ハイパーパラメータの選択に基づいてパフォーマンスをモデル化するため、それらを最適化および調整し、実際のテストセットで最終的に評価するために最適なものを選択できます。これらの両方をさまざまなデータセットに個別に実装しました。 ただし、これらの2つのプロセスを統合する方法は正確にはわかりません。私はそれができることを確かに知っています(入れ子にされた相互検証、そうですか?)、私は人々がそれを説明するのを見ましたが、プロセスの詳細を実際に理解したほど十分に詳細ではありません。 分割とループの正確な実行が明確ではないが、このプロセス(このような)をほのめかしている興味深いグラフィックスのページがあります。ここで、4番目は明らかに私がやりたいことですが、プロセスは不明確です。 このサイトには以前の質問がありますが、それらは検証セットをテストセットから分離することの重要性を概説していますが、どれもこれを実行する正確な手順を指定していません。 それは次のようなものですか?k個のフォールドごとに、そのフォールドをテストセットとして扱い、別のフォールドを検証セットとして扱い、残りをトレーニングしますか?これは、データセット全体をk * k回繰り返す必要があるようです。そのため、各フォールドは、少なくとも1回はトレーニング、テスト、および検証として使用されます。入れ子の交差検証は、k分割のそれぞれの中でテスト/検証分割を行うことを意味するようですが、特にkが高い場合、これは効果的なパラメーター調整を可能にするのに十分なデータではありません。 (事前に指定しないように)パラメータ調整を実行しながら、k分割交差検証(最終的にすべてのデータポイントをテストケースとして扱うことができる)を可能にするループと分割の詳細な説明を提供して、誰かが私を助けてくれませんかモデルパラメータ、および代わりに別のホールドアウトセットで最高のパフォーマンスを発揮するパラメータを選択しますか?)

1
ランダムサンプリングによる最適化
インターネットの周りで、目的関数を再スケーリングし、それを最適化の目的でPDFとして使用するアイデアへの言及が散らばっています。(このサイトの例:最適化手法はサンプリング手法に対応していますか?)この手法について詳しく知ることができる場所を誰かに教えてもらえますか?(論文、ブログ投稿、講義など) 私が見てきたように、目的は目的関数を取り、新しい関数。ここで、は最大化問題の非常に大きな数ですまたは最小化問題の非常に大きな負の数。その場合、新しい関数は、他のどこよりも大域的最適点ではるかに高くなります。場合は次いで、非正規化確率密度関数として扱われ、その分布から引き出されたほとんどのサンプルは、その最適の周りであろう。f(x)f(x)f(x)g(x)=ekf(x)g(x)=ekf(x)g(x) = e^{kf(x)}kkkg(x)g(x)g(x)g(x)g(x)g(x) 知りたいことは次のとおりですが、これらに限定されません。 これらの確率関数にはどのサンプリングアルゴリズムが有効ですか? この方法が頻繁に使用されないのはなぜですか?(それはそれがとても効果的であるように思えます)。つまり、それに反対する議論はありますか? 効率やパフォーマンスを向上させるこの方法の変形はありますか?

1
三角分布のパラメーター推定
密度のある三角分布のパラメーターの推定に関する質問がここに投稿されました(現在は削除されています)。 f(x ; a 、b 、c )=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪02 (x − a )(b − a )(c − a )2 (b − x )(b − a )(b − c )0以下のため のx < A 、用 ≤ X ≤ C 、以下のための C < X ≤ B 、以下のための B < X 。f(バツ;a、b、c)={0ために バツ<a、2(バツ−a)(b−a)(c−a)ために a≤バツ≤c、2(b−バツ)(b−a)(b−c)ために c<バツ≤b、0ために b<バツ。f(x;a,b,c)=\begin{cases} …

3
評価関数を最大化する確率分布を選択(CDCインフルエンザ予測コンテストの場合)
サポート確率質量関数を持つ離散確率変数があるとします。ような関数は、最大化し エッジケースの処理を回避するには、と仮定し。XXXp(x)=P(X=x)p(x)=P(X=x)p(x) = P(X=x)0,…,n0,…,n0,\ldots,nq(x)≥0q(x)≥0q(x)\ge 0∑nx=0q(x)=1∑x=0nq(x)=1\sum_{x=0}^n q(x) = 1E(ログ[ q(X− 1 )+ q(X)+ q(X+ 1 )] )?E(log⁡[q(X−1)+q(X)+q(X+1)])? E(\log[q(X-1)+q(X)+q(X+1)])? P(X= 0 )= P(X= n )= 0P(X=0)=P(X=n)=0P(X=0)=P(X=n)=0 関連する質問: 上記の期待を最大化するは、が単調であるため、も最大化すると考えてい。あれは正しいですか?q(x )q(x)q(x)E[ q(X− 1 )+ q(X)+ q(X+ 1 )]E[q(X−1)+q(X)+q(X+1)]E[q(X-1)+q(X)+q(X+1)]ログlog\log 勝るものはありますか?p (x )= q(x )p(x)=q(x)p(x)=q(x) 関心のある人にとって、この質問は、予測値を評価するための効用関数として、ターゲット値と近隣値の確率の合計のログを使用するCDCインフルエンザ予測コンテストから生じます。

1
SVMのコスト(C)パラメータはどういう意味ですか?
SVMをデータに適合させようとしています。私のデータセットには3つのクラスが含まれており、(LibSVMで)10分割交差検証を実行しています。 ./svm-train -g 0.5 -c 10 -e 0.1 -v 10 training_data それによりヘルプは次のように述べています -c cost : set the parameter C of C-SVC, epsilon-SVR, and nu-SVR (default 1) 私にとって、より高いコスト(C)値を提供すると、より高い精度が得られます。SVMのCは実際にはどういう意味ですか?Cのより高い/より低い値(またはLibSVMのデフォルト値)を使用する理由と時期を教えてください。

1
CDFの既知のポイントに一致するように分布を近似する
最近、ある分布の裾にいくつかの確率ポイントがあり、これらの尾を通る分布に「適合」させたい状況に遭遇しました。これは乱雑で過度に正確ではなく、概念的な問題に悩まされていることを理解しています。しかし、私が本当にこれをやりたいと思っていることを信じてください。 つまりx、値でありy、その値の確率以下であるCDFの末尾のいくつかの点を効果的に知っています。これが私のデータを説明するRコードです: x <- c(0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85) y <- c(0.0666666666666667, 0.0625, 0.0659340659340659, 0.0563106796116505, 0.0305676855895196, 0.0436953807740325, 0.0267459138187221) 次に、を使用して、データとベータ分布CDFの間のエラーを最小限に抑える関数を作成しますpbeta。SSEをフィット指標として使用し、それをで最小化し-sumます。私はに最初のパラメータとして初期推測で投げるoptimの(9, .8)私は別の推測でこれを試してみたが、私はいつも同じ結果を得ます。私が使用する出発点の推測は、手動で近くにあるように見えるパラメーターを手動で調理することから来ています。 # function to optomize with optim beta_func <- function(par, x) -sum( (pbeta( x, par[1], par[2]) - y)**2 ) out <- optim(c(9,.8), beta_func, lower=c(1,.5), upper=c(200,200), method="L-BFGS-B", x=x) out <- …
6 r  optimization 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.