タグ付けされた質問 「optimization」

統計では、これは、データの一部の関数を最大化または最小化することにより、パラメーターの推定量を選択することを指します。非常に一般的な例の1つは、最尤推定(MLE)と呼ばれる観測データの結合密度(または質量関数)を最大化する推定量を選択することです。

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

2
SGD学習率を下げると精度が大幅に向上するのはなぜですか?
などの論文では、この Iしばしば形状のこの種の訓練曲線を参照してください。 この場合、SGDは0.9の係数で使用され、学習率は30エポックごとに10の係数で減少しました。 学習率を変更すると、なぜエラーが大幅に減少するのですか? 最初の低下の後に検証エラーが増加し始めるのに、トレーニングエラーは減少し続けるのはなぜですか? 2回目以降の学習率の変化を近づけても同じ結果が得られますか?つまり、それ以上の遅延が減少するのはなぜですか?

1
逆伝播:2次の方法では、ReLUの導関数は0になりますか?トレーニングへの影響は?
ReLUは、として定義されるアクティブ化関数です。ここで、a = Wx + bです。h=max(0,a)h=max(0,a)h = \max(0, a)a=Wx+ba=Wx+ba = Wx + b 通常、SGD、Adam、RMSprop、Adadelta、Adagradなどの1次の方法でニューラルネットワークをトレーニングします。1次メソッドの逆伝播には、1次導関数が必要です。したがって、xxxは1に導出され111ます。 しかし、2次法を使用する場合、ReLUの導関数は000ますか?なぜならxxxに誘導される111と再び導かれる000。エラーでしょうか?たとえば、ニュートンの方法では、0で除算します000。(まだヘッセなしの最適化を理解していません。IIRC、それは実際のヘッセの代わりに近似のヘッセを使用することの問題です)。 このh '' = 0の影響は何h′′=0h″=0h''=0ですか?二次法のReLUでニューラルネットワークをトレーニングできますか?それとも、トレーニング不可/エラー(nan / infinity)でしょうか? 明確にするために、これはf(x)としてのReLU f(x)f(x)f(x)です。 f(x)=f(x)=f(x) = 0xforforx&lt;0x≥00forx&lt;0xforx≥0\begin{array}{rcl} 0 & \mbox{for} & x < 0\\ x & \mbox{for} & x \ge 0\end{array} f′(x)=f′(x)=f'(x) = 01forforx&lt;0x≥00forx&lt;01forx≥0\begin{array}{rcl} 0 & \mbox{for} & x < 0\\ 1 …

1
遺伝的アルゴリズムの最小化の簡単な例
Pythonの遺伝的アルゴリズムアプローチを使用して関数がその最小値を達成するポイントを見つける方法の例を探していました。DEAPのドキュメントを確認しましたが、その例を理解するのは非常に困難でした。例えば: def function(x,y): return x*y+3*x-x**2 xとyの両方の初期ランダム値(同じ次元からのものではない)を供給することができる遺伝的アルゴリズムを作成する方法についての参考文献を探しています。遺伝的アルゴリズムの作成と使用の経験を持つ誰かが私にこれについていくつかのガイダンスを提供できますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.