タグ付けされた質問 「error」

推定値または予測値の誤差は、真の値からの偏差であり、観測不可能(たとえば、回帰パラメーター)または観測可能(たとえば、将来の実現)である可能性があります。[error-message]タグを使用して、ソフトウェアエラーについて質問します。

3
比較および対比、p値、有意水準およびタイプIエラー
p値、有意水準、タイプIエラーの定義と使用に関して、だれかが簡潔に要約できるかどうか疑問に思っていました。 p値は「少なくとも実際に観測したものと同じくらい極端な検定統計量を取得する確率」として定義され、p値が有意であるかどうかを測定するための有意水準は単なる任意のカットオフ値です。タイプIエラーは、真である帰無仮説を棄却したエラーです。ただし、有意水準とタイプIエラーの違いについては不明ですが、それらは同じ概念ではありませんか? たとえば、コインを1000回裏返し、「頭」に着弾した回数を数える非常に単純な実験を想定します。私の帰無仮説、H0は、heads = 500(不偏コイン)です。次に、有意水準をalpha = 0.05に設定します。 コインを1000回反転し、p値を計算します。p値が0.05より大きい場合、帰無仮説を棄却できず、p値が0.05未満の場合、帰無仮説を棄却します。 今、この実験を繰り返して、p値を計算し、帰無仮説を拒否または拒否し、拒否した/拒否しなかった回数を数えるたびに、帰無仮説の5%を拒否することになります実際にはどれが本当でしたか、それは正しいですか?これがタイプIエラーの定義です。したがって、フィッシャー有意性検定の有意水準は、繰り返し実験を実行した場合の本質的に、ネイマンピアソン仮説検定からのタイプIエラーです。 p値については、最後の実験から0.06のp値を得て、複数の実験を行い、0から0.06のp値を取得したすべての実験を数えた場合、真の帰無仮説を棄却する確率は6%ですか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

7
RMSE対決定係数
物理モデルを評価していますが、ここで使用する方法の1つ(RMSEと決定係数R2の間)を知りたい 問題は以下の通りである:私は、入力値xのための出力の予測、その機能を有するyx¯¯¯¯¯=f(x)yx¯=f(x)\overline{y_x}= f(x)。また、と呼ばれるその値の実際の観測値もありyxyxy_xます。 私の質問は、RMSEまたはの長所と短所は何ですかR2R2R^2。私が取り組んでいる問題のために、それらの両方が論文で使用されているのを見ました。
21 error 

1
Rの線形回帰で平均二乗誤差の値を取得する方法
R関数lmによって得られた線形回帰モデルに、平均二乗誤差コマンドによって得られるかどうかを知りたいとします。 例の次の出力がありました > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 0.0902 -13.19 <2e-16 *** --- …
20 r  regression  error 

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 


3
予想される予測エラー-導出
特に2.11および2.12の導出(条件付け、ポイントワイズ最小へのステップ)について、以下の予想予測誤差(ESL)の導出を理解するのに苦労しています。ポインタまたはリンクは大歓迎です。 以下に、ESL pgからの抜粋を報告します。18.最初の2つの式は、順番に式2.11と2.12です。 ましょX∈RpX∈RpX \in \mathbb{R}^p表す実数値ランダム入力ベクトル、および関節分布を有する実数値ランダム出力変数、。入力値を与えられたを予測するための関数を探します。この理論では、予測でエラーにペナルティを課すために損失関数必要であり、最も一般的で便利なのは2乗エラー損失です:。これは、を選択する基準につながります。Y∈RY∈RY \in \mathbb{R}Pr(X,Y)Pr(X,Y)\text{Pr}(X,Y)f(X)f(X)f(X)YYYXXXL (Y 、F (X )) L(Y,f(X))L(Y,f(X))L(Y,f(X))L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2fff EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy) \begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split} 予想される(2乗)予測誤差。条件付けることにより、EPEを次のように記述できます。XXX EPE(f)=EXEY|X([Y−f(X)]2|X)EPE(f)=EXEY|X([Y−f(X)]2|X) \text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X) EPEをポイント単位で最小化するだけで十分であることがわかります。 f(x)=argmincEY|X([Y−c]2|X)f(x)=argmincEY|X([Y−c]2|X) f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X) 解決策は f(x)=E(Y|X=x)f(x)=E(Y|X=x) f(x) = \text{E}(Y|X=x) 条件付き期待値、回帰関数とも呼ばれます。

3
別の指標(MSEなど)ではなく、特定の予測誤差(MADなど)を使用するのはなぜですか?
MAD =平均絶対偏差MSE =平均二乗誤差 いくつかの望ましくない品質にもかかわらずMSEが使用されるというさまざまな場所からの提案を見てきました(例:http: //www.stat.nus.edu.sg/~staxyc/T12.pdf、p8に「MAD MSEよりも優れた基準です。ただし、数学的にMSEはMADよりも便利です。」 それ以上のものはありますか?予測誤差を測定するさまざまな方法が多かれ少なかれ適切である状況を徹底的に分析する論文はありますか?私のグーグル検索では何も明らかにされていません。 これと同様の質問が/programming/13391376/how-to-decide-the-forecasting-method-from-the-me-mad-mse-sdeで尋ねられ、ユーザーはstats.stackexchange.comに投稿しますが、私は彼らがこれまで行ったことはないと思います。
15 forecasting  error  mse  mae 

5
「野生の」ジェームズ・シュタインの収縮?
James-Stein収縮の概念にとらわれます(つまり、独立した法線のベクトルの単一の観測の非線形関数は、「より良い」が二乗誤差で測定されるランダム変数の平均のより良い推定量になります) )。しかし、私はそれを応用研究で見たことがない。明らかに私は十分に読まれていません。James-Steinが適用された設定で推定を改善した典型的な例はありますか?そうでない場合、この種の収縮は単なる知的好奇心ですか?

5
米国と英国の学校が標準偏差の異なる計算方法を教えるのはなぜですか?
私が理解しているように、英国の学校は標準偏差が以下を使用して発見されることを教えています: 一方、米国の学校は以下を教えています。 (とにかく基本的なレベルで)。 これは、インターネット上で検索したときに過去に多くの私の問題を引き起こしましたが、間違った説明を見つけました。 なぜ違いがあるのですか? 単純なデータセットで10個の値が指定されている場合、間違った方法が適用された場合(試験など)、どの程度のエラーが発生しますか?

3
分類子を評価するときにエラーメトリックを選択する方法は?
Kaggleコンペティションで使用されるさまざまなエラーメトリックスを見ました:RMS、平均二乗、AUCなど。エラーメトリックの選択に関する一般的な経験則は何ですか。つまり、特定の問題に対してどのエラーメトリックを使用するかをどのように知るのですか。ガイドラインはありますか?


2
GPSルートのエラー管理(理論的枠組み?)
GPSシステムにあるエラーに対処する方法の理解に対処するのに役立つ適切な理論的フレームワークまたは専門分野を探しています-特にルートを扱う場合。 基本的に、トレイルの長さを確立するために使用するデータとアルゴリズムの要件を探しています。答えは信頼できるものでなければなりません。 私の友人は、160kmとして請求されたレースのレースディレクターでしたが、ガーミンは誰もが190km +のようになることを監視しています。それはフィニッシュラインでかなりの悲しみを引き起こしました。 私の友人は、さまざまなGPSデバイスを使ってコースを再マップするために戻りましたが、結果は興味深いものです。 ハンドヘルドのガーミンオレゴン300を使用して、彼女は片足で33.7kmを獲得しました。腕時計の同じ足のGarmin Forerunner 310xtの場合、38.3kmになりました。 オレゴンからデータを取得したとき、90秒ごとにデータを記録しているだけであることが明らかでした。フォアランナーは数秒ごとにそれを行います。 オレゴンからのデータをプロットすると、いくつかのスイッチバックによって混乱し、それらを直線で結ぶと曲線が少し少なくなることがわかりました。 しかし、録音周波数の違いが説明の大部分であることを楽しませてくれます。つまり、数秒ごとに記録することで、フォアランナーは実際のルートに近づきます。ただし、GPSの動作方法により、ある程度のエラーが発生します。記録されたポイントが実際のルートにランダムに分散している場合(エラーのため)、合計距離は実際のルートよりも長くなります。(直線の両側にある小刻みの線は直線よりも長い)。 したがって、私の質問:1.有効な方法でエラーを減らすために単一のデータセットで使用できる技術はありますか?2.記録頻度の違いに関する私の理論は水を保持しますか?3.同じルートの録画が複数ある場合、それらを組み合わせて実際のルートに近づける有効な方法はありますか? 私が言うように、私はこれについて有用な科学を見つけるために何を検索するべきか本当にわかりません。特定のトレイルがどれくらいの長さであるかを確立する方法を探していますが、それは人々にとって非常に重要です。レースでの30 kmの延長は、予想外の5時間以上の延長です。 ここに要求されているのは、いくつかのサンプルデータです。 詳細な高周波サンプルデータ 低周波サンプルデータ アドバイスをありがとうございます。
14 error  sampling 


1
加法エラーまたは乗法エラー?
私は統計に比較的不慣れであり、これをよりよく理解するのに役立つことを感謝します。 私の分野では、一般的に使用される形式のモデルがあります。 Pt= Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha 人々がモデルをデータに適合させるとき、彼らは通常それを線形化し、以下に適合します ログ(Pt)= ログ(Po)+ αのログ(Vt)+ ϵログ⁡(Pt)=ログ⁡(Po)+αログ⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon これでいい?信号のノイズのために実際のモデルは Pt= Po(Vt)α+ ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon 上記のように線形化することはできません。これは本当ですか?もしそうなら、誰かが私がそれを読んで学ぶことができ、おそらくレポートで引用することができるリファレンスを知っていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.