統計とビッグデータ hyperparameter

1

確率的勾配降下法を実行するときにミニバッチサイズの選択を調べる文献はありますか？私の経験では、これは経験的な選択であるように思われ、通常、相互検証またはさまざまな経験則を使用して見つかります。検証エラーが減少するにつれて、ミニバッチのサイズを徐々に大きくすることは良い考えですか？これは汎化エラーにどのような影響を及ぼしますか？非常に小さなミニバッチを使用して、モデルを数十万回更新する方がよいですか？非常に小さい値とバッチの間のどこかでバランスの取れた数値を使用した方がよいでしょうか？ミニバッチのサイズをデータセットのサイズ、またはデータセット内の予想されるフィーチャ数に合わせてスケーリングする必要がありますか？私は明らかにミニバッチ学習スキームの実装について多くの質問をしています。残念ながら、私が読んだほとんどの論文は、このハイパーパラメータをどのように選択したかを具体的に示していません。私はYann LeCunのような著者から、特に論文のTricks of the Tradeコレクションから、いくつかの成功を収めてきました。しかし、私はこれらの質問が完全に対処されているのを見ていません。誰かが論文の推奨事項、または機能を学習するときに適切なミニバッチサイズを決定するために使用できる基準に関するアドバイスを持っていますか？

13 machine-learning gradient-descent hyperparameter deep-learning

1

階層的ガンマポアソンモデルの超優先密度

データ階層モデルでは、は、実際には値（ガンマ分布の平均と分散がデータ平均と分散にほぼ一致するように（たとえば、Clayton and Kaldor、1987 "Empirical Bayes Estimates of Age-Standardized Relative Risks for Disease Mapping"、Biometrics）。明らかに、これはアドホックソリューションにすぎません。パラメータに対する研究者の信頼を誇張するためです。yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)また、基礎となるデータ生成プロセスが同じであっても、実現されたデータのわずかな変動がガンマ密度に大きな影響を与える可能性があります。さらに、Bayesian Data Analysis（2nd Ed）で、Gelmanはこの方法は「だらしない」と書いています。この本とこの論文（p。3232から始まる）では、代わりに、ラット腫瘍の例（p。130から始まる）と同様の方法で、いくつかの超優先密度を選択することを提案しています。p(α,β)p(α,β)p(\alpha, \beta) 有限の事後密度を生成する限りどのも許容できることは明らかですが、過去にこの問題で研究者が使用した超優先密度の例は見つかりませんでした。ポアソンガンマモデルを推定するためにハイパープライオリティを採用した本や記事を誰かに教えてもらえれば幸いです。理想的には、が比較的フラットで、ラットの腫瘍の例のようなデータ、またはいくつかの代替仕様とそれぞれに関連するトレードオフを比較する議論によって支配されることに興味があります。p(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

11 poisson-distribution gamma-distribution hierarchical-bayesian hyperparameter

4

なぜハイパーパラメータを学習しないのですか？

私はかなり人気のある論文「説明と悪用の例の説明」を実装していました。この論文では、それは敵対的な目的関数をトレーニングします J ''（θ）=αJ（θ）+（1 −α）J '（θ） αをハイパーパラメータとして扱います。αは0.1、0.2、0.3などにすることができます。この特定の論文に関係なく、疑問に思っているのですが、パラメーターにαを含めて、最良のαを学習しませんか？そうすることの欠点は何ですか？オーバーフィットのせいですか？もしそうなら、なぜもう1つのパラメータを学習するだけで多くの過剰適合が生じるのですか？

11 machine-learning neural-networks deep-learning hyperparameter

1

学習率と隠れ層の数の関係は？

ニューラルネットワークの深さと学習率の間に経験則はありますか？私は、ネットワークが深いほど、学習率は低くなければならないことに気づきました。それが正しい場合、なぜですか？

10 neural-networks deep-learning hyperparameter rule-of-thumb

2

入れ子の交差検証-トレーニングセットのkfold CVによるモデル選択とどう違うのですか？

5x2相互検証について、ネストされた相互検証の特別なケースとして話している人がよくいます。最初の数（ここでは：5）は内側のループの折り目の数を指し、2番目の数（ここでは：2）は外側のループの折り目の数を指していると思いますか？では、これは「従来の」モデルの選択と評価のアプローチとどう違うのでしょうか。「伝統的」とはデータセットを個別のトレーニング（80％など）とテストセットに分割するトレーニングセットでのハイパーパラメーター調整とモデル選択にk分割交差検証（たとえば、k = 10）を使用するテストセットを使用して、選択したモデルの汎化性能を評価する 5 = 2は、k = 2の場合にテストとトレーニングセットのサイズが等しいことを除いて、まったく同じではありませんか？

10 machine-learning cross-validation hyperparameter

1

線形回帰では、なぜ正則化によってパラメーター値もペナルティになるのですか？

現在、リッジ回帰を学習しており、より複雑なモデルのペナルティ化（またはより複雑なモデルの定義）について少し混乱しました。私が理解していることから、モデルの複雑度は必ずしも多項式次数と相関しているわけではありません。つまり、2 + 3 + 4 x2+ 5 x３+ 6 x42+3+4x2+5x3+6x4 2 + 3+ 4x^2 + 5x^3 + 6x^4は、5 x 5よりも複雑なモデルです。5 ×55x5 5x^5 そして、正則化のポイントはモデルの複雑さを低く保つことであることを知っています。たとえば、5次多項式f（x ; w ）= w0+ w1x + w2バツ2+ w３バツ３+ w4バツ4+ w5バツ5f(x;w)=w0+w1x+w2x2+w3x3+w4x4+w5x5 f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 0であるパラメーターが多いほど良いです。しかし、私が理解していないのは、それが同じ次数の多項式である場合、より低いパラメーター値のペナルティが少なくなるのはなぜですか？だからなぜでしょう： …

9 regression regularization hyperparameter

1

ハイパーパラメータを調整するときに検証データのモデルパフォーマンスを評価すると、検証データに関する情報が漏洩するのはなぜですか？

FrançoisCholletのPythonによるディープラーニングでは、次のように述べています。その結果、検証セットでのパフォーマンスに基づいてモデルの構成を調整すると、モデルがモデルで直接トレーニングされない場合でも、検証セットへの過剰適合がすぐに発生する可能性があります。この現象の中心は、情報漏えいの概念です。検証セットでのモデルのパフォーマンスに基づいてモデルのハイパーパラメーターを調整するたびに、検証データに関するいくつかの情報がモデルにリークします。これを1つのパラメーターに対して1回だけ実行すると、非常に少数の情報が漏洩し、検証セットはモデルを評価するための信頼性を維持します。ただし、これを何度も繰り返すと、1つの実験を実行し、検証セットを評価し、結果としてモデルを変更すると、検証セットに関するますます重要な情報がモデルにリークされます。ハイパーパラメータを調整するときに検証データのモデルパフォーマンスを評価すると、検証データに関する情報が漏洩するのはなぜですか？

9 neural-networks cross-validation hyperparameter

1

ベイジアンハイパーパラメーター最適化の不利な点は何ですか？

私は機械学習と統計にかなり慣れていませんが、アルゴリズムのハイパーパラメーターを最適化するために機械学習を学習するときに、ベイジアン最適化がオンラインで頻繁に参照されないのはなぜですか？たとえば、次のようなフレームワークを使用します。https：//github.com/fmfn/BayesianOptimization ハイパーパラメーターのベイズ最適化には、グリッド検索やランダム検索などの手法に比べて、制限や大きな欠点がありますか？

8 machine-learning optimization hyperparameter bayesian-optimization

1

ネストされた相互検証後に最適なハイパーパラメーターを取得するにはどうすればよいですか？

一般的に、大きなデータセットがある場合は、（1）トレーニング、（2）検証、（3）テストに分割できます。検証を使用して相互検証（SVMのCなど）で最適なハイパーパラメーターを特定し、トレーニングセットで最適なハイパーパラメーターを使用してモデルをトレーニングし、トレーニングされたモデルをテストに適用してパフォーマンスを取得します。データセットが小さい場合、トレーニングとテストセットを作成できません（サンプルが不十分）。したがって、モデルのパフォーマンスを評価するために、交差検証（k-fold、leave-one-outなど）を行います。ネストされた交差検証（繰り返しまたは層別）が小さなデータセットの設定で使用されていることを確認しました。つまり、パラメーター選択を最適化しながら一般化モデルのパフォーマンスを生成します。私の質問は、ネストされた交差検証で最高のハイパーパラメーターを取得するにはどうすればよいですか（繰り返される/繰り返されない）？可能であれば、scikit-learnでこれを行うことに興味があります。私はそれを行う方法について少し混乱しています。私はいくつかのリソースを読みましたが、この質問に対する明確な答えはありませんでした。モデル選択のためのネストされた相互検証入れ子の交差検証と機能選択：機能選択を実行するタイミング？

8 machine-learning cross-validation scikit-learn hyperparameter optimization

1

GPMLでの完全なベイズハイパーパラメーターの選択

周辺尤度（2）を最大化する代わりに、GPMLコードを使用して、ハイパーパラメーター（たとえば、共分散スケール）の近似完全ベイズ（1）選択を実行することは可能ですか？MCMCメソッドを使用して事前にハイパーパラメーターを含む積分を解くと、オーバーフィッティングを処理するときにより良い結果が得られると思います。私の知る限りでは、GPMLフレームワークにはこれらの計算は含まれていませんが、おそらく他のサードパーティのコードがあります。（1）秒 5.2、Ch。機械学習のためのガウス過程における5、Rasmussen＆Williams、2006 （2）GPMLドキュメントの「回帰」セクション

8 bayesian model-selection gaussian-process hyperparameter

2

ニューラルネットワークの早期停止と、相互検証を使用する場合の意味の理解

早期停止の手法がどのように定義されているかという考えに、私は少し困惑して混乱しています。Wikipediaを見てみると、次のように定義されています。トレーニングデータをトレーニングセットと検証セットに、たとえば2対1の比率で分割します。トレーニングセットでのみトレーニングを行い、検証セットの例ごとのエラーを時々、たとえば5エポックごとに評価します。検証セットのエラーが最後にチェックされたときよりも大きくなるとすぐにトレーニングを停止します。トレーニング実行の結果として、ネットワークがその前のステップで持っていた重みを使用します。私は自分の実験でメソッドを使用していました（10倍の交差検証を使用）。各エポックで検証エラーをチェックし（検証精度も計算）、忍耐パラメーターを2に設定しています。つまり、検証エラーが2エポックで連続して増加する場合は、トレーニングを停止します。次に、モデルが終了した最後のエポックの結果を使用しました。 Ian Goodfellowは、ディープラーニングの本で別の定義を使用しています。4番目のステップとして、最も効果的なモデルの重みを使用することを提案します（つまり、検証エラーがチェックされるたびにモデルを保存します）。保存したモデルは必要ありません。自分の作業の結果だけが必要です。したがって、私にとってグッドフェローによる早期停止の提案は、最終結果で達成した最高の検証精度を採用することを意味しますか？どういうわけかこれは合法的ではないようです。開発セットがない実際の状況では、この情報はありません。しかし、その場合、そもそも早期停止を使用する理由は何でしょうか。たとえば、フォールドのエポック数を平均してエポック数を決定し、それを後で実行するテストに使用しますか？

8 machine-learning neural-networks cross-validation hyperparameter

3

ハイパーパラメーターを最適化するためのグリッド検索を使用したK分割交差検証の段階的な説明

私は、k分割（および1つを残す）交差検証の利点、およびトレーニングセットを分割して3番目のホールドアウト「検証」セットを作成する利点をよく知っています。ハイパーパラメータの選択に基づいてパフォーマンスをモデル化するため、それらを最適化および調整し、実際のテストセットで最終的に評価するために最適なものを選択できます。これらの両方をさまざまなデータセットに個別に実装しました。ただし、これらの2つのプロセスを統合する方法は正確にはわかりません。私はそれができることを確かに知っています（入れ子にされた相互検証、そうですか？）、私は人々がそれを説明するのを見ましたが、プロセスの詳細を実際に理解したほど十分に詳細ではありません。分割とループの正確な実行が明確ではないが、このプロセス（このような）をほのめかしている興味深いグラフィックスのページがあります。ここで、4番目は明らかに私がやりたいことですが、プロセスは不明確です。このサイトには以前の質問がありますが、それらは検証セットをテストセットから分離することの重要性を概説していますが、どれもこれを実行する正確な手順を指定していません。それは次のようなものですか？k個のフォールドごとに、そのフォールドをテストセットとして扱い、別のフォールドを検証セットとして扱い、残りをトレーニングしますか？これは、データセット全体をk * k回繰り返す必要があるようです。そのため、各フォールドは、少なくとも1回はトレーニング、テスト、および検証として使用されます。入れ子の交差検証は、k分割のそれぞれの中でテスト/検証分割を行うことを意味するようですが、特にkが高い場合、これは効果的なパラメーター調整を可能にするのに十分なデータではありません。（事前に指定しないように）パラメータ調整を実行しながら、k分割交差検証（最終的にすべてのデータポイントをテストケースとして扱うことができる）を可能にするループと分割の詳細な説明を提供して、誰かが私を助けてくれませんかモデルパラメータ、および代わりに別のホールドアウトセットで最高のパフォーマンスを発揮するパラメータを選択しますか？）

7 machine-learning cross-validation hyperparameter optimization

タグ付けされた質問 「hyperparameter」

タグ付けされた質問「hyperparameter」