タグ付けされた質問 「optimization」

統計では、これは、データの一部の関数を最大化または最小化することにより、パラメーターの推定量を選択することを指します。非常に一般的な例の1つは、最尤推定(MLE)と呼ばれる観測データの結合密度(または質量関数)を最大化する推定量を選択することです。

8
学習率の選択
現在SGD、バックプロパゲーションを使用したニューラルネットの確率的勾配降下法の実装に取り​​組んでおり、その目的は理解していますが、学習率の値を選択する方法についていくつか質問があります。 学習率は、降下率を決定するため、誤差勾配の形状に関連していますか? もしそうなら、この情報をどのように使用して価値についての決定を知らせるのですか? それがどのような種類の値を選択する必要がない場合、どのように選択する必要がありますか? オーバーシュートを避けるために小さな値が必要なようですが、ローカルミニマムにとらわれたり、下降に時間がかかったりしないように、どのように選択しますか? 一定の学習率を持つことは理にかなっていますか、または勾配の最小値に近づくにつれてその値を変更するために何らかのメトリックを使用する必要がありますか? つまり、SGDの学習率を選択するにはどうすればよいですか?

4
新しい観察結果が利用可能な場合、モデルを再トレーニングする必要がありますか?
ですから、このテーマに関する文献を見つけることはできませんでしたが、考えてみる価値のあるもののようです。 新しい観察結果が利用可能な場合のモデルのトレーニングと最適化のベストプラクティスは何ですか? 予測が低下し始める前にモデルを再トレーニングする期間/頻度を決定する方法はありますか? 集約されたデータに対してパラメーターが再最適化されると、過剰適合になりますか? 学習は必ずしもオンラインであるとは限らないことに注意してください。最近の予測で大幅な変動を観察した後、既存のモデルをアップグレードすることもできます。

1
ミニバッチのサイズを選択するためのルールはありますか?
ニューラルネットワークをトレーニングする場合、1つのハイパーパラメーターはミニバッチのサイズです。一般的な選択肢は、ミニバッチあたり32、64、128個の要素です。 ミニバッチの大きさのルール/ガイドラインはありますか?トレーニングへの影響を調査する出版物はありますか?

4
勾配降下は常に最適に収束しますか?
勾配降下が最小に収束しないシナリオがあるかどうか疑問に思っています。 勾配降下が常にグローバルな最適値に収束することが保証されているわけではないことを認識しています。また、たとえば、ステップサイズが大きすぎると、最適値から逸脱する可能性があることも認識しています。しかし、ある最適から逸脱すると、最終的には別の最適に移行するように思えます。 したがって、勾配降下はローカルまたはグローバル最適に収束することが保証されます。そうですか?そうでない場合、大まかな反例を示してください。

3
ニューラルネットワークをトレーニングするためのオプティマイザーを選択するためのガイドライン
私はしばらくの間ニューラルネットワークを使用しています。ただし、私が常に苦労しているのは、ネットワークをトレーニングするためのオプティマイザーの選択です(backpropを使用)。私が通常行うことは、1つ(例えば、標準SGD)から始めて、それから他のものをほぼランダムに試すことです。良いオプティマイザーを見つけるためのより良い(そしてそれほどランダムではない)アプローチがあるかどうか、例えばこのリストから疑問に思っていました: SGD(勢いのあるなしにかかわらず) アダデルタ AdaGrad RMSProp アダム 特に、訓練データに何らかの性質がある場合、たとえば、それがまばらであることを考えて、他のものよりも一つを選択する理論的な正当性があるかどうかに興味があります。また、特定のドメインでは、一部のオプティマイザが他のオプティマイザよりもうまく機能することを想像します。たとえば、畳み込みネットワークとフィードフォワードネットワーク、または分類と回帰をトレーニングする場合です。 オプティマイザーの選択方法に関する戦略や直感を開発している方がいれば、それを聞いてみたいと思います。さらに、あるものを別のものよりも選択するための理論的な正当性を提供する作業があれば、それはさらに良いでしょう。

2
深層学習における局所最小点とvs点
Andrew Ng(残念ながらもう見つけられないビデオで)が、深層学習問題における局所的最小値の理解が、高次元の空間(ディープラーニング)クリティカルポイントは、ローカルミニマムではなくサドルポイントまたはプラトーになりやすい。 「すべてのローカルミニマムがグローバルミニマムである」という仮定を議論する論文(たとえば、これ)を見てきました。これらの仮定はすべてかなり技術的ですが、私が理解していることから、それらはニューラルネットワークに構造を課し、それをある程度線形にする傾向があります。 ディープラーニング(非線形アーキテクチャを含む)では、プラトーはローカルミニマムよりも可能性が高いという有効な主張ですか?もしそうなら、その背後に(おそらく数学的な)直感がありますか? ディープラーニングとサドルポイントに特別なことはありますか?

2
ニューラルネットワークの最適化に遺伝的アルゴリズムが使用されないのはなぜですか?
私の理解では、遺伝的アルゴリズムは多目的最適化のための強力なツールです。 さらに、ニューラルネットワーク(特に深いネットワーク)のトレーニングは難しく、多くの問題があります(非凸コスト関数-極小、勾配の消失および爆発など)。 また、GAを使用してNNを概念的にトレーニングすることも可能です。私は、なぜ彼らが実際に使われないのだろうと思っていましたか?パフォーマンスの問題ですか?


2
常にADAM最適化手法を使用しないのはなぜですか?
そうですアダプティブモーメントの推定(アダム)(より速く、より確実に世界最小の到達)オプティマイザは、ほとんど常に良い作品ニューラルネットを訓練してコスト関数を最小化するとき。 いつもAdamを使わないのはなぜですか?なぜRMSPropやモメンタムオプティマイザーを使用する必要があるのですか

1
ランダムフォレストを使用してサンプリングするフィーチャの数
Wikipediaのページ引用符「統計的学習の要素は、」言います: 通常、特徴を持つ分類問題の 場合、各分割で特徴が使用されます。ppp⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor 私はこれがかなり良い教育された推測であり、おそらく経験的証拠によって確認されたことを理解していますが、平方根を選ぶ他の理由はありますか?そこで起こっている統計現象はありますか? これは何らかの形でエラーの分散を減らすのに役立ちますか? これは回帰と分類で同じですか?

1
RにおけるMLEのフィッシャースコアリング対座標降下
R基本関数glm()はMLEにフィッシャースコアリングglmnetを使用しますが、は同じ方程式を解くために座標降下法を使用しているようです。フィッシャースコアリングは、他のいくつかの行列演算に加えて2次微分行列を計算するため、座標降下はフィッシャースコアリングよりも時間効率が高くなります。これは実行に費用がかかりますが、座標降下はO(np)時間で同じタスクを実行できます。 R基底関数がフィッシャースコアリングを使用するのはなぜですか?この方法は他の最適化方法よりも優れていますか?座標降下とフィッシャースコアリングはどのように比較されますか?私はこのフィールドを実行するのが比較的新しいので、ヘルプやリソースは役に立ちます。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
学習率がニューラルネットワークの重みを急上昇させるのはなぜですか?
私はテンソルフローを使用して簡単なニューラルネットワークを記述し、少しの研究を行っています。トレーニング中に「nan」の重みに多くの問題がありました。オプティマイザの変更、損失、データサイズの変更など、さまざまな解決策を試しましたが、役に立ちませんでした。最後に、学習率の変化が私の体重に信じられないほどの違いをもたらすことに気づきました。 .001の学習率(かなり保守的だと思いました)を使用すると、最小化関数は実際に指数関数的に損失を発生させます。1エポック後、損失は数千から1兆、そして無限( 'nan')にジャンプする可能性があります。学習率を.0001に下げたところ、すべてうまくいきました。 1)なぜ1桁がそのような影響を与えるのですか? 2)最小化機能が文字通りその機能の反対を実行し、損失を最大化するのはなぜですか?学習率に関係なく、それは起こらないはずです。

2
Advanced Optimizationアルゴリズムでオーバーフィッティングが発生する可能性はありますか?
Andrew Ngがコースラで機械学習に関するオンラインコースを受講しているときに、オーバーフィッティングというトピックに出くわしました。勾配降下法が線形回帰またはロジスティック回帰で使用される場合に発生することはわかっていますが、「共役勾配」、「BFGS」、「L-BFGS」などの高度な最適化アルゴリズムが使用される場合にも発生する可能性はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.