タグ付けされた質問 「mse」

MSEはMean Squared Errorの略です。これは、推定値または予測のパフォーマンスの測定値であり、観測値と推定値/予測値の間の差の2乗の平均に等しくなります。

7
モーメント法が小さなサンプルで最尤法に勝てる例?
最尤推定量(MLE)は漸近的に効率的です。サンプルサイズが小さい場合でも、モーメント法(MoM)推定(それらが異なる場合)よりも優れていることが多いという点で、実際的な結果が見られます。 ここで「より良い」とは、両方がバイアスされていない場合の分散が通常小さいという意味で、より一般的には平均二乗誤差(MSE)が小さいことを意味します。 ただし、問題は発生します。 MoMがMSEで、たとえば小さなサンプルでMLEに勝てる場合はありますか? (これは奇妙な/退化した状況ではありません-つまり、MLが存在する条件が与えられた場合/漸近的に効率的なホールドになる場合) その場合、フォローアップの質問は「どれだけ小さいことができますか?」-つまり、例があれば、比較的大きなサンプルサイズ、おそらくはすべて有限のサンプルサイズでも保持されるものがありますか? [有限サンプルでMLに勝てるバイアス付き推定器の例を見つけることができますが、MoMではありません。] レトロスペクティブに追加された注:ここでの私の焦点は、主に単変量の場合(実際には、私の根底にある好奇心がどこから来ているか)です。多変量のケースを除外したくはありませんが、ジェームズ・スタイン推定の詳細な議論に迷いたくはありません。

1
エラー対策の解釈方法は?
Wekaで特定のデータセットに対して分類を実行していますが、公称値を予測しようとすると、出力に正確に予測された値と誤って予測された値が明確に表示されることに気付きました。ただし、現在は数値属性に対して実行しており、出力は次のとおりです。 Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 これをどうやって解釈しますか?私はそれぞれの概念をグーグルで試しましたが、統計は私の専門分野ではまったくないため、あまり理解していません。統計の観点からELI5タイプの回答をいただければ幸いです。

3
平均二乗誤差と残差平方和
以下のウィキペディアの定義を見てください: 平均二乗誤差(MSE) 残差平方和(RSS) それは私に見える MSE=1NRSS=1N∑(fi−yi)2MSE=1NRSS=1N∑(fi−yi)2\text{MSE} = \frac{1}{N} \text{RSS} = \frac{1}{N} \sum (f_i -y_i)^2 ここで、はサンプル数、は推定値です。NNNfifif_iyiyiy_i ただし、ウィキペディアの記事のいずれもこの関係について言及していません。どうして?何か不足していますか?
31 residuals  mse 

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
分散とバイアスの2乗へのMSE分解
MSEを分散とバイアスの平方に分解できることを示すために、Wikipediaの証明には図で強調されているステップがあります。これはどのように作動しますか?第3段階から第4段階まで製品に期待はどのように押し込まれますか?2つの用語が独立している場合、両方の用語に期待を適用すべきではありませんか?そうでない場合、この手順は有効ですか?

2
バイアス分散トレードオフの導出を理解する
私は、統計学習の要素のバイアス分散トレードオフの章を読んでいます。29ページの式には疑問があります(はランダム)期待値と数と分散。モデルの誤差の期待値を E [(Y-f_k(x))^ 2]とします。 ここで、f_k(x)は学習者のxの予測です。本によると、エラーは E [(Y-f_k(x))^ 2] = \ sigma ^ 2 + Bias(f_k)^ 2 + Var(f_k(x))です。 Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonε = E [ ε ] = 0 E [ (ε - ε)2 ] = E [ ε 2 ] = σ 2 E [ (Y - F K(X …

1
オートエンコーダーの損失関数
私はビットオートエンコーダを実験しており、テンソルフローを使用して、MNISTデータセットを再構築しようとするモデルを作成しました。 私のネットワークは非常に単純です:X、e1、e2、d1、Y、ここでe1とe2はエンコード層、d2とYはデコード層です(そしてYは再構築された出力です)。 Xには784個、e1には100個、e2には50個、d1には再び100個、Y 784には再びあります。 シグモイドをレイヤーe1、e2、d1、およびYのアクティベーション関数として使用しています。入力は[0,1]であり、出力もそうである必要があります。 さて、クロスエントロピーを損失関数として使用してみましたが、出力は常にブロブであり、Xからe1への重みは常にゼロ値の行列に収束することに気付きました。 一方、損失関数として二乗平均誤差を使用すると、適切な結果が得られ、入力を再構築できるようになりました。 どうしてこんなことに?値を確率として解釈することができ、したがってクロスエントロピーを使用できると思いましたが、明らかに何か間違っています。

3
別の指標(MSEなど)ではなく、特定の予測誤差(MADなど)を使用するのはなぜですか?
MAD =平均絶対偏差MSE =平均二乗誤差 いくつかの望ましくない品質にもかかわらずMSEが使用されるというさまざまな場所からの提案を見てきました(例:http: //www.stat.nus.edu.sg/~staxyc/T12.pdf、p8に「MAD MSEよりも優れた基準です。ただし、数学的にMSEはMADよりも便利です。」 それ以上のものはありますか?予測誤差を測定するさまざまな方法が多かれ少なかれ適切である状況を徹底的に分析する論文はありますか?私のグーグル検索では何も明らかにされていません。 これと同様の質問が/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sdeで尋ねられ、ユーザーはstats.stackexchange.comに投稿しますが、私は彼らがこれまで行ったことはないと思います。
15 forecasting  error  mse  mae 

4
ある推定量の別の推定量に対する相対的優位性を評価するために、平均二乗誤差が使用されていますか?
いくつかのパラメーターに対して2つの推定器およびがあるとします。どの推定量が「より良い」かを判断するために、MSE(平均二乗誤差)を調べますか?つまり、を見てください。ここでは推定量のバイアスで、は推定量の分散ですか?どちらが大きいMSEを持っているのが悪い推定器ですか?α1α1\alpha_1α2α2\alpha_2xxxMSE=β2+σ2MSE=β2+σ2MSE = \beta^2+ \sigma^2ββ\betaσ2σ2\sigma^2
13 estimation  mse 

2
正規化されたRMSE
VAR(1)にいくつかの時系列があり、それらのいくつかは同じ測定単位を持たないため、RMSEをパーセンテージで推定したいと思います。私はそれがいくつかの方法で行われる可能性があることを知っています(以下を参照)。しかし、どれが予測評価の問題によりよく適合するかは正確にはわかりません。あなたが助けてくれるといいのですが。 正規化されたRMSEの例: R MSE1= 1んΣ私(Yfo r e c a s t私− Y私Y私)2−−−−−−−−−−−−−−−−−−−⎷R MSE2= 1んΣ私(Yfo r e c a s t私− Y私Yfo r e c a s t私)2−−−−−−−−−−−−−−−−−−−⎷R MSE3= 1んΣ私(Yfo r e c a s t私− Y私)2−−−−−−−−−−−−−−−−−√m e a n (Y)RMSE1=1n∑i(Yforecasti−YiYi)2RMSE2=1n∑i(Yforecasti−YiYforecasti)2RMSE3=1n∑i(Yforecasti−Yi)2mean(Y) RMSE_1 = \sqrt{\frac{1}{n}\sum_i\left(\frac{Y_{forecast_i}-Y_i}{Y_i}\right)^2} \\ RMSE_2 = \sqrt{\frac{1}{n}\sum_i\left(\frac{Y_{forecast_i}-Y_i}{Y_{forecast_i}}\right)^2} \\ RMSE_3 = …
10 time-series  mse  rms 

2
ガウス・マルコフの定理:BLUE and OLS
私はwikipediaの Guass-Markovの定理について読んでいます。誰かがこの定理の主要な点を理解するのを手伝ってくれることを願っていました。 :私たちは、マトリクス状に、によって与えられ、線形モデルを想定し と私たちはBLUEを探しています、β。y= Xβ+ ηy=Xβ+η y = X\beta +\eta βˆβ^ \widehat\beta この、私はラベルう "残留"と ε = β - β "エラー"。(つまり、Gauss-Markovページでの使用法の反対です)。η= y− Xβη=y−Xβ\eta = y - X\betaε = βˆ- βε=β^−β\varepsilon = \widehat\beta - \beta OLS(通常の最小二乗)推定量は、のargminとして導出できます。| 残差| | 2 2 = | | η | | 2 2。| | 残差 | |22= …

2
ロジスティック回帰で対数損失の代わりにMSEを使用する
ロジスティック回帰の損失関数(通常は対数尤度)をMSEに置き換えます。つまり、対数オッズ比がパラメーターの線形関数であっても、推定確率と結果(0/1としてコード化)の差の2乗の合計を最小化します。 ログp1 − p= β0+ β1バツ1+ 。。。+ βんバツんログ⁡p1−p=β0+β1バツ1+。。。+βんバツん\log \frac p{1-p} = \beta_0 + \beta_1x_1 + ... +\beta_nx_n 代わりにを最小化し。∑ (y私− p私)2Σ(y私−p私)2\sum(y_i - p_i)^2∑ [ y私ログp私+ (1 − y私)ログ(1 − p私)]Σ[y私ログ⁡p私+(1−y私)ログ⁡(1−p私)]\sum [y_i \log p_i + (1-y_i) \log (1-p_i)] もちろん、いくつかの仮定の下で対数尤度が理にかなっている理由は理解しています。しかし、通常は仮定が行われない機械学習で、MSEが完全に不合理である直感的な理由は何ですか?(またはMSEが意味をなす可能性のある状況はありますか?)

4
平均二乗誤差または平均二乗誤差
非英語のネイティブスピーカーとして、私はどの思っていた広場や乗、私が使うべき表現。たとえば、平均二乗誤差または平均二乗誤差。 インターネットによると、どちらの形式も区別なく使用されているようです。1つの式は他の式よりも正方形ですか?

1
回帰問題におけるピアソンの相関の代理としてのMSE
TL; DR(長すぎて読まなかった): 私は時系列予測問題に取り組んでいます。これは、ディープラーニング(ケラ)を使用して回帰問題として定式化します。私の予測と真のラベル間のピアソン相関を最適化したいと思います。MSEをプロキシとして使用すると、実際にはピアソンを損失関数として直接使用するよりも(相関の観点から)より良い結果が得られるという事実に戸惑っています。ディープラーニングの損失関数として相関メトリックを使用することは悪い習慣と考えられていますか?もしそうなら、なぜですか? 長いバージョン: 私には時系列予測タスクがあります連続するタイムステップの値を観察し、タイムステップ値を予測する必要があります。通常、値はであるため、これを回帰問題として扱い、ディープラーニング(keras)を使用して解決しています。T + 1 [ - 200 、200 ]TTTT+ 1T+1T+1[ - 200 、200 ][−200,200][-200,200] 私の質問は、損失と測定基準の選択に関するものです。 私のデータの真のラベルは、主に前後にあり、いくつかの極端な値があります。極端な値の多くは誤りであり、それらを正しくすることに集中するように学習をシフトしたくありません。言い換えれば、一般的な傾向を把握できるようになり(正の値と負の値の期間を正しく分類)、たとえば、200ではなく100を予測して「共存」できます。[ - 10 、10 ][−10,10][-10,10] このため、私の評価指標は、予測値と真の値の間のピアソン相関であるべきだと思います。 さて、損失関数について:理想的には、高いピアソン相関を最適化したい場合、それを損失関数として使用することは理にかなっているでしょう?私は「ベースラインモデル」であるシンプルなアーキテクチャを2回テストしました。1回はピアソン(ミニバッチで計算)を直接損失関数として使用し、もう1回は一般的なMSEをプロキシとして使用しました。どちらの場合も、MSEとピアソンの両方を異なるエポックについて追跡し、検証セットに基づいて「早期停止」を行います。 私の結果: 損失としてのMSE:MSE 160、ピアソン0.7 損失としてのピアソン:MSE 250、ピアソン0.6 ピアソン損失のより高いMSEは、相関の最適化にはスケールがないという事実の結果であると理解しています。そのため、すべての予測は、MSEを増加させる方法で要因によって「オフ」になる可能性があります。しかし、MSEをプロキシとして使用すると、ピアソン相関自体の点で実際にどのように改善されるのでしょうか。ピアソン相関を損失関数として使用してはならない理由について、最適化に関連する理由はありますか?実際、ほとんど使われていないようですが、その理由を知りたいと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.