タグ付けされた質問 「hyperparameter」

厳密に統計モデル(またはデータ生成プロセス)用ではなく、統計的方法用のパラメーター。これは、事前分布のファミリー、平滑化、正則化法のペナルティ、または最適化アルゴリズムのパラメーターになる可能性があります。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
実用的なハイパーパラメーター最適化:ランダム検索とグリッド検索
私は現在、BengioとBergstaのハイパーパラメーター最適化のため のランダム検索[1]を行っています。著者は、ランダム検索がグリッド検索よりもほぼ同等のパフォーマンスを達成する上で効率的であると主張しています。 私の質問は次のとおりです。ここの人々はその主張に同意しますか?私の仕事では、ランダム検索を簡単に実行できるツールが不足しているため、主にグリッド検索を使用しています。 グリッド対ランダム検索を使用している人々の経験は何ですか?

3
ディープラーニングでハイパーパラメーターを選択するためのガイドライン
スタックオートエンコーダーやディープブレイドネットワークなど、ディープアーキテクチャーのハイパーパラメーターを選択する方法に関するガイドラインを提供するのに役立つ論文を探しています。ハイパーパラメーターはたくさんあり、それらの選択方法については非常に混乱しています。また、トレーニングには多くの時間がかかるため、相互検証の使用は選択肢ではありません!

3
Adam Optimizerがそのハイパーパラメーターの値に対して堅牢であると考えられる理由は何ですか?
私はディープラーニング用のAdamオプティマイザーについて読んでいて、Bengio、Goodfellow、Courvilleの新しい本Deep Learningで次の文章を見つけました。 Adamは通常、ハイパーパラメーターの選択に対してかなり堅牢であると見なされていますが、学習率を推奨されるデフォルトから変更する必要がある場合があります。 ディープラーニングシステムの統計的パフォーマンスにおいて(少なくとも私の経験では)ハイパーパラメーター検索が非常に重要になる可能性があるため、これが事実であれば大したことです。したがって、私の質問は、なぜそのような重要なパラメーターに対してアダムがロバストなのですか?特別および?β1β1\beta_1β2β2\beta_2 私はAdamの論文を読みましたが、なぜそれらのパラメーターで機能するのか、なぜ堅牢なのかについては説明していません。彼らは他の場所でそれを正当化しますか? 私は紙を読んでも、ために、彼らは非常に小さくしようとしたハイパーパラメータの数、ということらしいわずか2とするためにβ 2、それが唯一の2x3のハイパーパラメータで動作している場合にのみ3.どのようにこれは徹底的に実証研究することができ?β1β1\beta_1β2β2\beta_2

2
LDAハイパーパラメーターの自然な解釈
誰かがLDAハイパーパラメーターの自然な解釈を説明できますか?ALPHAおよびBETAは、それぞれ(文書ごと)トピックおよび(トピックごと)単語分布のディリクレ分布のパラメーターです。しかし、これらのハイパーパラメーターの大きな値と小さな値を選択することの意味を誰かが説明できますか?それは、文書内のトピックの疎さの観点から事前の信念を置き、単語の観点からトピックの相互排他性を置くことを意味しますか? この質問は潜在的なディリクレ配分についてですが、すぐ下のBGReeneによるコメントは線形判別分析に言及しており、紛らわしいことにLDAと省略されています。

4
相互検証以外でのハイパーパラメーターの調整はどれほど悪いですか?
パフォーマンスを測定するために使用するデータセットは、機能を調整するために使用したものと同じであるため、相互検証の外でハイパーパラメーターチューニングを実行すると、外部の有効性のバイアスが高い推定値につながることがあります。 私が不思議に思っているのはこれがどれほど悪い問題かということです。これにより、調整するパラメーターが非常に多くなるため、機能の選択が本当に悪いことを理解できます。しかし、LASSO(正則化強度が1つだけのパラメーター)のようなもの、または機能選択なしのランダムフォレスト(いくつかのパラメーターはあるが、ノイズ機能の追加/ドロップほど劇的ではない)を使用している場合はどうでしょうか? これらのシナリオでは、トレーニングエラーの推定値がどれほどひどく楽観的であると予想できますか? ケーススタディ、論文、逸話など、これに関する情報をいただければ幸いです。ありがとう! 編集:明確にするために、トレーニングデータのモデルパフォーマンスの推定については話していません(つまり、相互検証をまったく使用していません)。「クロス検証の外側のハイパーパラメーター調整」とは、個々のモデルのパフォーマンスを推定するためだけにクロス検証を使用することを意味しますが、ハイパーパラメーター調整手順内でオーバーフィットを修正するための外側の2番目のクロス検証ループは含みませんトレーニング手順中のオーバーフィッティング)。たとえば、こちらの回答をご覧ください。

5
名前に含まれるもの:ハイパーパラメーター
したがって、正規分布では、平均と分散つのパラメーターがあります。本「パターン認識と機械学習」では、エラー関数の正則化項にハイパーパラメーターが突然現れます。μμ\muσ2σ2\sigma^2λλ\lambda ハイパーパラメーターとは何ですか?なぜそのような名前が付けられているのですか?そして、それらは一般的にパラメーターとどのように直感的に異なっていますか?

6
データセットのサンプルのハイパーパラメーターチューニングは悪い考えですか?
140000の例と30の機能のデータセットがあり、それらに対してバイナリ分類(SVM、ロジスティック回帰、ランダムフォレストなど)のいくつかの分類器をトレーニングしています。 多くの場合、グリッド検索またはランダム検索を使用したデータセット全体のハイパーパラメーター調整は、時間的にコストがかかりすぎます。 私は次のテクニックを使い始めました データセットのサブサンプル 取得した分数を使用して、ハイパーパラメーターを調整します 取得したパラメーターを使用して、データセット全体を使用してモデルをトレーニングします 第2段階Iの使用に関するパラメータの各セットを評価することsklearnのGridSearchCVCV = 10で。私は第三ステップIの使用中に作成することを最終的なモデルを評価するためにsklearn「S cross_val_predict。その意味で、データの10%を残してモデルを評価し、残りのトレーニングを行い、10%で予測精度を10回繰り返し測定し、スコアの平均を取得します。 私が心配したのは、データセット全体のトレーニングから得られる予測精度が、最適なパラメーターセットのパラメーターを調整するときに得られる評価に非常に近いことです(テストされた各パラメーターセットは、平均10-フォールドクロス検証結果)。 ほとんどの場合、cross_val_predictすべてのトレーニング例(データセット全体)を使用して測定した精度は、最適なパラメーターの評価が返す値をわずかに上回っています。 これをここで説明するために、一連のパラメーターの評価を行います(上記で説明したものよりも小さいデータセット上ですが、効果は同じです) Best parameters set found on development set: {'kernel': 'rbf', 'C': 9, 'gamma': 0.1} Scores for all sets of parameters 0.851 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.5} 0.852 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.1} …

2
ハイパーパラメーター調整のためのベイズ最適化に対するパーティクルスウォーム最適化の利点は?
MLハイパーパラメーターを調整するためのベイズ最適化(1)については、かなりの現代的な研究があります。ここでの推進の動機は、試行する価値のあるポイントについて十分な情報に基づいて選択するために最小限のデータポイントが必要なことです(客観的な関数呼び出しはコストがかかるため、モデルのトレーニングは時間がかかるため、少ないほうが良い) -私が取り組んだ大規模なSVMの問題は、完了するまでに数分から数時間かかることがあります。 一方、Optunityは、同じタスクに対処するためのパーティクルスウォーム実装です。私は圧倒的にPSOに精通しているわけではありませんが、ハイパーパラメーターサーフェスを評価するために、より多くの試行ポイント、したがって目的関数の評価を必要とするという意味で、PSOはそれほど効率的ではないようです。 機械学習のコンテキストでPSOをBOよりも優先させる重要な詳細がありませんか?または、2つの選択は常にハイパーパラメーターチューニングタスクの本質的なコンテキストですか? (1)Shahriari et al、 "ループから人間を取り出す:ベイジアン最適化のレビュー。"

1
ネストされた交差検証後に最終モデルを構築し、確率しきい値を調整する方法は?
まず、ここで、ここで、ここで、ここで、ここで、ここで詳細に議論されている質問を投稿することに対する謝罪、および古いトピックの再加熱用。@DikranMarsupialがこのトピックについて長々と投稿やジャーナルペーパーで書いていることは知っていますが、私はまだ混乱しており、ここにある同様の投稿の数から判断すると、他の人がまだ把握するのに苦労しています。また、このトピックに関して矛盾が生じたため、混乱を招いたことも述べておく必要があります。また、私はもともと物理学者であり統計学者ではないことも知っておく必要があります。そのため、ここでの私の専門知識はやや限られています。ネストされたCVを使用して、最終モデルに期待できるパフォーマンスを推定するジャーナルペーパーを書いています。私のドメインでは、これが最初です。(ほとんど使用しません私の分野では堅牢なCVの形ですが、ニューラルネットとブーストされた決定木を使用した研究の結果を含む論文を喜んで送り出します!)したがって、私が非常に徹底的かつ明確な理解を持っていることが重要です。私のコミュニティへの誤った手順は、何年も学ぶことができませんでした!ありがとう!質問を続けて... ネストされた交差検証後に最終モデルを作成するにはどうすればよいですか? L1とL2の正規化を使用した単純なglmnetモデルをトレーニングしています。それは高速で、シンプルで、解釈可能です。特徴の中心化、スケーリング、およびBox-Cox変換を実行して、特徴の分布が平均中心で標準化されており、ガウスに似ていることを確認します。情報漏えいを防ぐため、この手順は相互検証内で実行します。純粋に私のハードウェアが非常に遅いため、CPUの負荷を増やすことができないため、機能の前処理後にCV内で高速のフィルターベースの機能選択を実行します。ランダムグリッド検索を使用して、アルファおよびラムダハイパーパラメーターを選択しています。私はすべきではないことを理解していますこの推定値を取得するCVループ。内部CVループはモデル選択(この場合、最適なハイパーパラメーター)に使用され、外部ループはモデル評価に使用されること、つまり、内部CV ループと外部CVはしばしば誤って混同される2つの異なる目的を果たすことを理解しています。(私はこれまでどのようにやっていますか?) さて、私が投稿したリンクは、「相互検証を考える方法は、モデルのパフォーマンスを推定するのではなく、モデルを構築する方法を使用して得られたパフォーマンスを推定することだ」と示唆しています。それを考えると、ネストされたCV手順の結果をどのように解釈する必要がありますか? 私が読んだアドバイスは次のことを示しているようです-これが間違っている場合は修正してください:内側のCVは、glmnetモデルの最適なアルファおよびラムダハイパーパラメーターを選択できるメカニズムの一部です。外側のCVは、ハイパーパラメーターの調整やデータセット全体を使用して最終モデルを構築するなど、内側CVで使用されている手順とまったく同じ手順を適用すると、最終モデルから得られると予想される推定値を示します。つまり、ハイパーパラメーターの調整は「モデルの構築方法」の一部です。これは正しいですか?これは私を混乱させるものだからです。他の場所では、展開する最終モデルを構築する手順には、固定値を使用したデータセット全体のトレーニングが含まれることがわかりましたCVを使用して選択されたハイパーパラメーターの。ここで、「モデルの構築方法」にはチューニングは含まれていません。それで、どちらですか?ある時点で、最適なハイパーパラメーターが選択され、最終モデルを構築するために修正されます!どこ?どうやって?内側のループが5倍のCVで、外側のループが5倍のCVで、内側のCVでのランダムグリッド検索の一部としてテスト用に100ポイントを選択した場合、実際にglmnetを何回トレーニングしますかモデル?(100 * 5 * 5)+ 1(最終ビルド用)、または私が知らないステップが他にありますか? 基本的に、ネストされたCVからパフォーマンスの見積もりを解釈する方法と、最終モデルを構築する方法について、非常に明確な説明が必要です。 また、最終的なglmnetモデルからの確率スコアを(バイナリ)クラスラベルに変換するための確率しきい値を選択するための適切な手順を知りたい--- CVの別のループが必要ですか?

3
ネストされたクロス検証でハイパーパラメーターを取得する方法
ネストされたクロス検証に関する次の投稿を読んでいますが、ネストされたクロス検証を使用したモデル選択で何をすべきかはまだ100%わかりません。 モデル選択のためのネストされたクロス検証 モデルの選択と相互検証:正しい方法 混乱を説明するために、ネストされた相互検証方法を使用して、モデルの選択をステップごとに見てみましょう。 K-Foldを使用して外側のCVループを作成します。これは、各内部CVループを「獲得」したハイパーパラメーターのパフォーマンスを推定するために使用されます。 GridSearchCVを使用して、内部CVループを作成します。各内部ループでは、GSCVがパラメータースペースのすべての可能な組み合わせを調べて、最適なパラメーターセットを見つけます。 GSCVは、内側のループで最適なパラメーターを見つけた後、外側のループでテストセットを使用してテストし、パフォーマンスを推定します。 次に、外側のループがテストセットとして次のフォールドに更新され、残りがトレーニングセットとして更新され、1〜3回繰り返されます。可能な「勝ち」パラメータの合計は、外側のループで指定されたフォールドの数です。外側のループは5倍であれば、あなたはとアルゴリズムの性能予測しています5つの異なるセットハイパーパラメータの、NOTハイパーパラメータの一つの特定のセットのパフォーマンスを。 このアプローチは、SKLearnのサンプルページに示されています:http ://scikit-learn.org/stable/auto_examples/model_selection/plot_nested_cross_validation_iris.html 質問:4.の 後、どのハイパーパラメーターが最適に機能したかをどのように判断しますか?最後にCOMPLETEデータセットを使用してアルゴリズム(ロジスティック回帰、ランダムフォレストなど)をトレーニングする必要があることを理解しています。しかし、ネストされたクロス検証でどのハイパーパラメーターが最適に機能したかをどのように判断しますか?私の理解では、各内部ループに対して、異なるハイパーパラメーターのセットが勝つということです。また、外側のループについては、GridSearchCVのパフォーマンスの推定値を取得していますが、ハイパーパラメーターの特定のセットは取得していません。それでは、最終的なモデル作成で、どのハイパーパラメーターを使用するかをどのように知るのでしょうか?それは、他のトレッドから理解するのに苦労している欠落しているロジックです。 特に@Dikran Marsupialと@cbeleitesが鳴り響く場合は、ヒントを事前にありがとうございます! 編集:可能であれば、答えには「アルゴリズム」や「ハイパーパラメーター」などの用語を使用してください。私にとって混乱の原因の1つは、人々が「モデル」または「モデル選択」という用語を使用していることだと思います。使用するアルゴリズムの選択について、または使用するハイパーパラメーターの選択について話しているのかどうか、私は混乱します。 編集2:ネストされた相互検証を行う2つの方法を示すノートブックを作成しました。最初の方法はSKLearnの例で示したもので、もう1つの方法は私が書いたものです。SKLearnに示されている方法は、「勝つ」ハイパーパラメーターを公開していませんが、私の長い方法は公開しています。しかし、問題は同じままです。ハイパーパラメーターが公開されている場合でも、ネストされたクロス検証を完了した後、どうすればよいですか?ノートブックの最後にあるハイパーパラメーターからわかるように、それらはかなり異なります。

3
機械学習パイプラインで機能選択とハイパーパラメーター最適化をどのように順序付けすればよいですか?
私の目的は、センサー信号を分類することです。これまでの私のソリューションのコンセプトは次のとおりです。i)生の信号からのエンジニアリング機能ii)ReliefFおよびクラスタリングアプローチを使用して関連する機能を選択するiii)NN、ランダムフォレスト、SVMを適用する しかし、私はジレンマに陥っています。ii)とiii)には、ReliefFのk-Nearest Neigboursのようなハイパーパラメーター、またはセンサー信号が評価されるウィンドウの長さ、またはNNの各レイヤーの隠れたユニットの数があります。 ここに3つの問題があります。1)特徴選択パラメーターの調整は分類子のパフォーマンスに影響します。2)分類子のハイパーパラメーターを最適化すると、特徴の選択に影響します。3)構成の可能な組み合わせをそれぞれ評価することは困難です。 だから私の質問は次のとおりです:a)単純化の仮定を行うことができますか?stチューニング機能選択パラメーターをチューニング分類子パラメーターから分離できますか?b)他に可能な解決策はありますか?

2
決定しきい値はロジスティック回帰のハイパーパラメーターですか?
(バイナリ)ロジスティック回帰からの予測クラスは、モデルによって生成されたクラスメンバーシップ確率のしきい値を使用して決定されます。私が理解しているように、通常はデフォルトで0.5が使用されます。 ただし、しきい値を変更すると、予測される分類が変更されます。これは、しきい値がハイパーパラメーターであることを意味しますか?その場合、(たとえば)scikit-learnのGridSearchCV方法を使用して(正則化パラメーターで行うようにC)しきい値のグリッドを簡単に検索できないのはなぜですか。

3
ハイパーパラメーターチューニング:ランダム検索とベイジアン最適化
したがって、ランダム検索はグリッド検索よりも優れていることがわかっていますが、最近のアプローチはベイズ最適化(ガウスプロセスを使用)です。私は2つの比較を調べましたが、何も見つかりませんでした。スタンフォード大学のcs231nでは、ランダム検索のみに言及していることは知っていますが、物事をシンプルにしたい可能性があります。 私の質問は次のとおりです。一般的にどちらのアプローチの方が優れていますか。答えが「ランダム検索、時にはベイジアン」である場合、あるメソッドを別のメソッドよりも優先させるべきですか

1
Gaussian Process Regressionのハイパーパラメーター調整
私が実装したガウスプロセス回帰アルゴリズムのハイパーパラメーターを調整しようとしています。式によって与えられる対数限界尤度を最大化したいだけです ここで、Kは、要素K_ {ij} = k(x_i、x_j)= b ^ {-1} \ exp(-\ frac {1} {2}(x_i-x_j)^ TM(x_i-x_j))+ a ^ {-1 } \ delta_ {ij}ここで、M = lI、a、b、lはハイパーパラメーターです。KKIJ=K(XI、XJ)=B-1つのEXP(-1ログ(y | X、θ)= − 12yTK− 1yy − 12ログ(det (K))− n2ログ(2 π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKK、M=LIA、BLK私はj= k (x私、xj)= b− 1exp(− 12(x私− xj)TM(x私− xj))+ a− 1δ私はjKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M= l IM=lIM=lIa 、ba,ba,blll パラメータの対数周辺尤度の偏微分は、次の\ frac {\ log(\ …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.