タグ付けされた質問 「optimization」

統計内で最適化を使用する場合は、このタグを使用してください。

2
エラー率は正則化パラメーターラムダの凸関数ですか?
RidgeまたはLassoで正則化パラメーターlambdaを選択する場合、推奨される方法は、さまざまな値のlambdaを試し、検証セットでエラーを測定し、最後に最も低いエラーを返すlambdaの値を選択することです。 関数f(lambda)= errorがConvexである場合、私にはクリートではありません。こんな感じかな?つまり、この曲線は複数の極小値を持つことができます(これは、ラムダの特定の領域でエラーの最小値を見つけても、他の一部の領域でさらに小さなエラーを返すラムダがある可能性を排除しないことを意味します) あなたのアドバイスをいただければ幸いです。

3
確率的コンピューターモデルの最適化
検索で「optimization and stochastic」という単語を使用すると、ほとんどの場合、デフォルトで確率的最適化が検索されるため、これはGoogleにとって難しいトピックです。しかし、私が本当に知りたいのは、コンピュータモデルの出力が確率論的、つまり決定論的ではない場合に、コンピュータモデルを最適化するためにどのような方法があるかです。 たとえば、コンピュータモデルの出力を表す未知の関数が存在するコンピュータモデルを考えた場合、次のような問題を解決するための多くの統計的方法が存在します。f(x)f(x)f(x) minxf(x)∈Xminf(x)x∈X\begin{align*} \min&\,\,\,\, f(x)\\ x&\in\mathcal{X} \end{align*} 場合f(x)f(x)f(x)決定的です。しかし、f(x)f(x)f(x)が確率的である場合はどうなりますか?問題の解決策はありますか、またはせいぜい私たちは解決することしかできません minxE[f(x)]∈XminE[f(x)]x∈X\begin{align*} \min&\,\,\,\, \mathbb{E}[f(x)]\\ x&\in\mathcal{X} \end{align*} ここで、E(⋅)E(⋅)\mathbb{E}(\cdot)は通常の期待演算子です。

2
与えられた応答変数に関する最適なビニング
与えられた応答(ターゲット)バイナリ変数に関して、パラメーターとして間隔の最大数を持つ連続変数の最適なビニング方法(離散化)を探しています。 例:「height」(数値連続)および「has_back_pains」(バイナリ)変数を持つ人々の一連の観察結果があります。高さを最大3つの間隔(グループ)に離散化して、背中の痛みを持つ人々の比率を変えて、アルゴリズムがグループ間の差を最大化するようにします(たとえば、各間隔には少なくともx個の観測値があるという制限があります)。 この問題の明らかな解決策は、決定木(単純な1変数モデル)を使用することですが、Rで「最大分岐数」をパラメーターとして持つ関数を見つけることができません。それらすべてが変数を分割します。 2 gropus(<= x and> x)に。SASマイナーには「最大ブランチ」パラメーターがありますが、私は非商用ソリューションを探しています。 一部の変数には一意の値がわずかしかありません(離散変数として扱うこともできます)が、それらを同様に少数の間隔に離散化したいと考えています。 私の問題に最も近い解決策は、Rのsmbinningパッケージ(パーティパッケージのctree関数に依存)に実装されていますが、2つの欠点があります。間隔の数を設定することはできません(ただし、変更することで回避策を見つけることができます) pパラメータ)。データベクトルの一意の値が10未満の場合は機能しません。とにかく、ここで出力例を見ることができます(カットポイントとオッズ列は重要です): Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 …

2
相互検証とパラメーターの最適化
10分割交差検証を使用すると、パラメーターの最適化について質問があります。 すべてのフォールドのモデルトレーニング中にパラメーターを修正するかどうかを確認したい。つまり、(1)各フォールドの平均精度に対して最適化されたパラメーターのセットを1つ選択する。 または (2)すべての折りたたみに最適化されたパラメーターを見つけて、すべての折りたたみが異なる最適化パラメーターを使用してモデルをトレーニングし、それぞれの折りたたみのテストデータでテストし、最終的にすべての折りたたみの精度を平均しますか? 交差検証の正しい方法はどれですか?どうもありがとう。

1
美容師の難問
私の美容院のステイシーはいつも幸せそうな顔をしていますが、彼女の時間を管理することについてしばしばストレスを感じています。今日、ステイシーは私の約束のために遅れ、非常に謝罪しました。私の散髪をしている間、私は疑問に思いました:彼女の標準的な予定はどれくらいの長さであるべきですか?(お客様がクリーンなラウンド数を好む場合は、しばらくの間無視できます)。 考慮すべきことは、特定の「波及効果」であり、非常に遅い顧客の1人が一連の遅延した予約につながる可能性があります。実際には、美容師は直感的に、これらのストレスの多い日々を恐れて、予定を長くすることを直感的に学びます。しかし、最適でエレガントなソリューションは、統計的な天才によって達成可能でなければなりません。(現実を少し落とす場合) 仮定しましょう a)ヘアカット時間は通常分散され、 b)ヘアドレッサーは1つだけです。 予定を長く設定しすぎると、美容師が次の予定を待つ時間が無駄になることは明らかです。この無駄な時間は1分あたり1ドルかかります。 しかし、予定が十分に長くない場合、次の顧客は待たされ続けます。これは、顧客を愛するStaceyにとって、1分あたり3ドルのより重いコストです。 Staceyは1日あたり最大8時間働き、十分な数のアポイントメントを入力できる十分な需要があります。 平均的なヘアカットは、標準で30分かかります。10分の開発。(男性のカットも女性のカットも同じであるとしましょう!) 編集-一部の人は、Staceyが指定された時間より前にEARLYの顧客に出席できることを正しく指摘しました。これにより、さらに複雑なレイヤーが追加されますが、これを非常に現実的な問題として扱う場合は、それを含める必要があります。私の90/10仮定を忘れて、おそらく少し現実に近い仮定を試してみましょう。 遅れている顧客もいれば、早い顧客もいます。顧客の平均は2分遅れており、標準偏差は2分です(音は現実にかなり近いですか?) 正確にどのくらい彼女の予定が必要ですか? @alexplanation申し訳ありませんが、ゴールポストを移動しました!Rの読者はあなたの答えに感謝していると思います。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
最尤パラメーターは事後分布から逸脱しています
推定したいいくつかのモデルパラメーター与えられた場合、データ確率に対する尤度関数があります。パラメータの平坦な事前分布を仮定すると、尤度は事後確率に比例します。MCMCメソッドを使用して、この確率をサンプリングします。L(d|θ)L(d|θ)\mathcal{L}(d | \theta)dddθ∈RNθ∈RN\theta \in \mathbf{R}^N 結果の収束チェーンを見ると、最尤パラメーターが事後分布と一致していないことがわかります。例えば、パラメータの1つに取り残さ事後確率分布があるかもしれないの値が、最尤点である、MCMCサンプラーが通過するほぼ最大値です。θ0∼N(μ=0,σ2=1)θ0∼N(μ=0,σ2=1)\theta_0 \sim N(\mu=0, \sigma^2=1)θ0θ0\theta_0θML0≈4θ0ML≈4\theta_0^{ML} \approx 4θ0θ0\theta_0 これは実例であり、実際の結果ではありません。実際の分布ははるかに複雑ですが、一部のMLパラメーターは、それぞれの事後分布に同様にありそうもないp値を持っています。一部のパラメーターが制限されていることに注意してください(例:); 境界内では、事前分布は常に均一です。0≤θ1≤10≤θ1≤10 \leq \theta_1 \leq 1 私の質問は: そのような逸脱自体が問題なのでしょうか?明らかに、MLパラメーターが周辺化された事後分布のそれぞれの最大値と正確に一致することは期待していませんが、直感的には、それらが尾の奥にあるはずがないように感じます。この偏差は結果を自動的に無効にしますか? これが必ずしも問題であるかどうかに関係なく、データ分析のある段階で特定の病理の兆候である可能性がありますか?たとえば、このような偏差が不適切に収束したチェーン、不適切なモデル、またはパラメータの過度に厳しい境界によって引き起こされる可能性があるかどうかについて、一般的な説明をすることはできますか?

3
ネルダーミードの停止基準
関数を最適化するためにNelder-Meadアルゴリズムを実装しようとしています。ネルダ-ミードに関するWikipediaのページには、その停止基準を除いて、全体のアルゴリズムについて驚くほど明らかです。悲しいことに、それは言う: 収束を確認します[説明が必要]。 私は自分でいくつかの基準を試し、テストしました: である場合に停止します。ここで、は小さく、はシンプレックスの番目の頂点で、low()からhigh()関数値。つまり、シンプレックスの最大値が最小値にほぼ​​等しい場合。これは、シンプレックス内の関数の動作を保証しないため、適切に機能しないことがわかりました。例:関数を考えます:これはもちろん最適化するのは簡単ですが、NMでこれを行い、2つのシンプレックスポイントをおよびとしましょう。f(xN+1)−f(x1)&lt;ϵf(xN+1)−f(x1)&lt;ϵf(x_{N+1}) - f(x_1) < \epsilonϵϵ\epsilonxixix_iiiif(x1)f(x1)f(x_1)f(xN+1)f(xN+1)f(x_{N+1})f(x)=x2f(x)=x2f(x) = x^2x1=−1x1=−1x_1 = -1x2=1x2=1x_2=1。アルゴリズムは、最適を見つけることなく、ここに収束します。 2番目のオプションには、シンプレックスの重心の評価が含まれます。停止する場合。これは、シンプレックスの最低点と重心がそのような類似した値を持っている場合、シンプレックスが収束を呼び出すのに十分小さいと想定しています。|f(x1)−f(xc)|&lt;ϵ|f(x1)−f(xc)|&lt;ϵ|f(x_1) - f(x_c)| < \epsilon これは収束をチェックする適切な方法ですか?または、これを確認する確立された方法はありますか?ほとんどの検索ヒットはアルゴリズムの複雑さに焦点を当てているため、これに関するソースは見つかりませんでした。

3
MAPは解
これらのスライド(スライド#16および#17)は、オンラインコースの1つで見つけました。インストラクターは、最大事後推定値(MAP)が実際にどのようにソリューションであるかを説明しようとしました。ここで、は真のパラメータ。θ ∗L(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]θ∗θ∗\theta^{*} 誰かがこれがどのように続くか説明できますか? 編集:リンクが壊れた場合に備えて、スライドを追加しました。

1
と間のLASSO関係
LASSO回帰についての私の理解は、最小化問題を解決するために回帰係数が選択されることです。 minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t 実際には、これはラグランジュ乗数を使用して行われ、問題を解決します minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 λλ\lambdaとtの関係は何tttですか?ウィキペディアは、それが「データに依存する」と単純に述べているが役に立たない。 なぜ気にするのですか?まずは知的好奇心。しかし、交差検証によって\ lambdaを選択した場合の結果についても心配していλλ\lambdaます。 具体的には、n分割交差検証を行っている場合、トレーニングデータのn個の異なるパーティションにn個の異なるモデルを適合させます。次に、指定された\ lambdaの未使用データの各モデルの精度を比較しますλλ\lambda。ただし、同じ\ lambdaは、データの異なるサブセットに対してλλ\lambda異なる制約(ttt)を意味します(つまり、t=f(λ)t=f(λ)t=f(\lambda)は「データ依存」です)。 最良のバイアス精度のトレードオフを与えるtを見つけるために本当に解決したい相互検証問題ではないtttですか? 実際にこの効果のサイズの大まかなアイデアを得るには、各交差分割とに対してを計算し、結果の分布を確認します。場合によっては、暗黙の制約()が交差検証サブセット全体で大幅に変化することがあります。ここで実質的に私は変動係数を意味し。∥β∥1‖β‖1\|\beta\|_1λλ\lambdatttt&gt;&gt;0t&gt;&gt;0t>>0

2
Tensorflow `tf.train.Optimizer`はどのように勾配を計算しますか?
Tensorflow mnistチュートリアル(https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py)に従っています。 チュートリアルではtf.train.Optimizer.minimize(具体的にはtf.train.GradientDescentOptimizer)を使用しています。グラデーションを定義するために引数がどこにも渡されていないようです。 Tensorフローはデフォルトで数値微分を使用していますか? あなたができるようにグラデーションを渡す方法はありますscipy.optimize.minimizeか?

1
Eloレーティングシステムが間違った更新ルールを使用するのはなぜですか?
Eloレーティングシステムは、ペアの比較での結果の予想される確率と観測される確率の間のクロスエントロピー損失関数の勾配降下最小化アルゴリズムを使用します。一般的な損失関数は次のように書くことができます E= − ∑n 、ip私L O G(q私)E=−∑n,ipiLog(qi) E=-\sum_{n,i} p_i Log (q_i) ここで、合計はすべての結果およびすべての対戦相手nに対して実行されます。 p iはイベントiの観測された頻度であり、q iは予想される頻度です。私iiんnnp私pip_i私i_iq私qiq_i 可能性のある結果が2つ(勝ちまたは負け)で、対戦相手が1人の場合 E= − p L o g(q)− (1 − p )L o g(1 − q)E=−pLog(q)−(1−p)Log(1−q) E=-p Log (q)-(1-p)Log(1-q) 場合はプレイヤーのランキングされたIおよびπ jはプレイヤーのランキングであるJ我々として期待確率に構築することができ 、Q I = E π 私をπ私πi\pi_i私iiπjπj\pi_jjjjのq、J=E π Jqi=eπieπi+eπjqi=eπieπi+eπj q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}} 後、勾配降下更新ルールのtell使用qj=eπjeπi+eπjqj=eπjeπi+eπj q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}} π′i=πi−η(qi−pi)πi′=πi−η(qi−pi) \pi_i'=\pi_i-\eta (q_i-p_i) π′j=πj−η(qj−pj)πj′=πj−η(qj−pj) …

1
Lassoは、設計行列のサイズにどのように比例しますか?
私はデザイン行列がある場合、N次元の観測の数であり、Dが、について解くの複雑さは何であるβ = argmin β 1X∈Rn×dX∈Rn×dX\in\mathcal{R}^{n\times d}nnndddLASSO、wrtnおよびd?答えは、特に感じない限り、反復数(収束)のスケーリング方法ではなく、1つのLASSO反復がこれらのパラメーターでスケーリングする方法を参照する必要があると思います。β^=argminβ12n||Xβ−y||2+λ||β||1β^=argminβ12n||Xβ−y||2+λ||β||1\hat{\beta}=\text{argmin}_{\beta}\frac{1}{2n} ||X\beta-y||^{2} + \lambda||\beta||_{1}nnnddd 私は以前のLASSOの複雑さに関する質問を読みましたが、こことここでの glmnetについての議論とは奇妙に思えます。glmnetのGLMアプローチを含む多くのアルゴリズムがあることは承知していますが、LASSOコンポーネントを親アルゴリズムに置き換えることに関する論文を書いており、特におよびnを使用したLASSOの複雑さに関する議論を含めたいと思います。基本的な非スパースの場合のglmnetの複雑さも知りたいのですが、参照されている論文は、アルゴリズム全体の複雑さが明確ではないため、少し混乱しています。dddnnn

4
ドメインと範囲[0,1]を持つS字型曲線の式はありますか
基本的に、類似性の測度を予測子として使用される重みに変換したいと思います。類似点は[0,1]にあり、重みも[0,1]に制限します。勾配降下法を使用して最適化する可能性が高いこのマッピングを行うパラメーター関数が必要です。要件は、0が0にマップされ、1が1にマップされ、厳密に増加することです。単純な微分も認められます。前もって感謝します 編集:これまでの回答をありがとう、それらは非常に役に立ちます。私の目的をより明確にするために、タスクは予測です。私の観察は、予測する単一の次元を持つ非常にスパースなベクトルです。私の入力ディメンションは、類似性の計算に使用されます。私の予測は、予測子に対する他の観測値の重み付き合計であり、重みは類似性の関数です。簡単にするために、重みを[0,1]に制限しています。うまくいけば、なぜ0にマップするために0、1にマップするために1が必要で、厳密に増加する必要があるのか​​は明らかです。whuberがf(x)を使用すると指摘したように、= xはこれらの要件を満たし、実際にはかなりうまく機能します。ただし、最適化するパラメーターはありません。私は多くの観察結果を持っているので、多くのパラメーターを許容できます。私は勾配降下法を手でコーディングするので、単純な導関数を好みます。 たとえば、与えられた応答の多くは.5について対称です。左/右にシフトするパラメーターがあると便利です(ベータ分布の場合など)。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.