タグ付けされた質問 「error」

推定値または予測値の誤差は、真の値からの偏差であり、観測不可能(たとえば、回帰パラメーター)または観測可能(たとえば、将来の実現)である可能性があります。[error-message]タグを使用して、ソフトウェアエラーについて質問します。


5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
ブライアスコアに類似した平均絶対誤差の名前?
昨日の質問イベントの確率を推定するモデルの精度を決定することで、確率スコアリングに興味を持ちました。 1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - reference_i)^2 1N∑i=1N|predictioni−referencei|1N∑i=1N|predictioni−referencei|\frac{1}{N}\sum\limits _{i=1}^{N}|prediction_i - reference_i| have a name, too?

4
ブートストラップ対モンテカルロ、誤差推定
地球化学計算におけるモンテカルロ法によるエラー伝播、アンダーソン(1976)の記事を読んでいますが、私にはよくわかりません。 いくつかの測定データを考慮してとプログラムプロセスそれと戻る所定値こと。記事では、このプログラムを使用して、最初にデータの平均を使用して最良の値を取得します(例:{ A 、B 、C })。{ A ± σあ、B ± σB、C± σC}{A±σA,B±σB,C±σC}\{A\pm\sigma_A, B\pm\sigma_B, C\pm\sigma_C\}{ A 、B 、C}{A,B,C}\{A, B, C\} 著者は、その後、(手段がガウス分布で与えられ、それらの不確定性限界内の入力パラメータを変化させることにより、この最高の値に不確実性を割り当てるためにモンテカルロ法を使用してと標準偏差{ σ A、σ B、σ C }プログラムにそれらを供給する前に)。これを下の図に示します。{ A 、B 、C}{A,B,C}\{A, B, C\}{ σあ、σB、σC}{σA,σB,σC}\{\sigma_A, \sigma_B, \sigma_C\} (著作権:ScienceDirect) ここで、最終的な分布から不確実性を取得できます。ZZZ このモンテカルロ法の代わりに、ブートストラップ法を適用するとどうなりますか?このようなもの: これは、プログラムに送る前に不確実性の範囲内でデータを変化させるのではなく、それらを置き換えてサンプリングします。 この場合、これら2つの方法の違いは何ですか?それらのいずれかを適用する前に、どのような注意事項を知っておくべきですか? 私はこの質問Bootstrap、モンテカルロを知っていますが、この場合、データには割り当てられた不確実性が含まれているため、私の疑問は完全には解決しません。

3
線形回帰の誤差の分散共分散行列
実際には、var / covエラーマトリックスは統計分析パッケージによってどのように計算されますか? この考えは理論的には私には明らかです。しかし実際にはそうではありません。つまり、確率変数のベクトルがある場合、分散/共分散行列平均からの逸脱ベクトルの外積が与えられます:。 ΣX=(X1,X2,…,Xn)⊤X=(X1,X2,…,Xn)⊤\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\topΣΣ\SigmaΣ=E[(X−E(X))(X−E(X))⊤]Σ=E[(X−E(X))(X−E(X))⊤]\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right] しかし、サンプルがある場合、私の観測の誤差は確率変数ではありません。またはそれ以上ですが、同じ母集団から多数の同一のサンプルを取得した場合のみです。そうでなければ、それらは与えられます。だから、再び私の質問は:統計パッケージはどのようにして研究者によって提供された観測(つまりサンプル)のリストから始まるvar / cov行列を生成できるのでしょうか?

3
報告する有効桁数
かなり標準的な状況(大学の1年生のクラスなど)で、平均または信頼区間について報告する有効桁数を決定するより科学的な方法はありますか? 私が見てきた、テーブルに置くために有効数字の数を、我々は有効桁使用していないのはなぜおよびカイ二乗適合に有効数字の数を、これらの問題に自分の指を入れていないように見えます。 私のクラスでは、結果に非常に広い標準誤差がある場合に15桁の有効数字を報告するのはインクの無駄であることを生徒に説明しようとしています。。これは、E29を参照するASTM- レポートテスト結果でと間にあるべきであると言っているところとあまり違いはありません。0.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma 編集: x以下のような一連の数値がある場合、平均と標準偏差を出力するために何桁使用する必要がありますか? set.seed(123) x <- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from theoretical 1 sd(x)/sqrt(length(x)) # standard error of mean 0.1791109 質問:これに平均と標準偏差の精度(倍精度数のベクトルがある場合)を詳しく説明し、平均と標準偏差を有効桁数の有効桁数に出力する単純なR教育関数を記述します。ベクトルに反映されxます。

4
エラーが正規分布していない場合、最小二乗法と最尤法の回帰法が等しくないのはなぜですか?
タイトルはそれをすべて言います。モデルのエラーが正規分布している場合、最小二乗と最大尤度は回帰係数に対して同じ結果になることを理解しています。しかし、エラーが正常に分布していない場合はどうなりますか?なぜ2つの方法が同等ではなくなったのですか?

2
エラー率は正則化パラメーターラムダの凸関数ですか?
RidgeまたはLassoで正則化パラメーターlambdaを選択する場合、推奨される方法は、さまざまな値のlambdaを試し、検証セットでエラーを測定し、最後に最も低いエラーを返すlambdaの値を選択することです。 関数f(lambda)= errorがConvexである場合、私にはクリートではありません。こんな感じかな?つまり、この曲線は複数の極小値を持つことができます(これは、ラムダの特定の領域でエラーの最小値を見つけても、他の一部の領域でさらに小さなエラーを返すラムダがある可能性を排除しないことを意味します) あなたのアドバイスをいただければ幸いです。

3
フィットした曲線の信頼性は?
当てはめられた曲線の不確実性または信頼性を推定したいと思います。それが何であるかわからないので、私は探している正確な数学的量を意図的に挙げていません。 ここで、(エネルギー)は従属変数(応答)であり、(ボリューム)は独立変数です。ある物質のエネルギー-体積曲線を見つけたいのですが。そこで、量子化学のコンピュータープログラムを使用していくつかの計算を行い、いくつかのサンプルボリューム(プロットの緑の円)のエネルギーを取得しました。V E (V )EEEVVVE(V)E(V)E(V) 次に、これらのデータサンプルをBirch–Murnaghan関数で近似しました: これは4つのパラメータ:。また、これは正しいフィッティング関数であると想定しているため、すべてのエラーはサンプルのノイズに起因するだけです。以下では、フィットされた関数が関数として記述されます。E 0、V 0、B 0、B ' 0(E)VE(E| V)= E0+ 9 V0B016⎧⎩⎨[ (V0V)23− 1 ]3B』0+ [ (V0V)23− 1 ]2[ 6 − 4 (V0V)23] ⎫⎭⎬、E(E|V)=E0+9V0B016{[(V0V)23−1]3B0′+[(V0V)23−1]2[6−4(V0V)23]}, \mathbb{E}(E|V) = E_0 + \frac{9V_0B_0}{16} \left\{ \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^3B_0^\prime + \left[\left(\frac{V_0}{V}\right)^\frac{2}{3}-1\right]^2 \left[6-4\left(\frac{V_0}{V}\right)^\frac{2}{3}\right]\right\}\;, E0、V0,B0,B′0E0,V0,B0,B0′E_0, V_0, B_0, B_0'(E^)(E^)(\hat{E})VVV ここでは、結果を確認できます(最小二乗アルゴリズムに適合)。y軸の変数はで、x軸の変数はです。青い線はフィットで、緑の円はサンプルポイントです。VEEEVVV この近似曲線の信頼性の測定(ボリュームに応じて)が必要になりました。これは、遷移圧力やエンタルピーなどの追加の量を計算する必要があるためです。E^(V)E^(V)\hat{E}(V) 私の直感は、近似曲線が中央で最も信頼できることを教えてくれます。したがって、このスケッチのように、サンプルデータの終わり近くで不確実性(たとえば、不確実性の範囲)が増加するはずです。 しかし、私が探しているこのような測定値は何ですか?どのように計算できますか? 正確には、実際には1つのエラーソースしかありません。計算されたサンプルは、計算上の制限によりノイズが多くなります。したがって、データサンプルの密なセットを計算すると、それらはでこぼこの曲線を形成します。 望ましい不確実性の推定値を見つけるための私の考えは、学校で学習するときにパラメーターに基づいて次の「誤差」を計算することです(不確実性の伝播): ΔE0、ΔV0、ΔB0ΔB'0ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B′0ΔB′0)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ΔE(V)=(∂E(V)∂E0ΔE0)2+(∂E(V)∂V0ΔV0)2+(∂E(V)∂B0ΔB0)2+(∂E(V)∂B0′ΔB0′)2 \Delta …

1
Rニューラルネット-計算は一定の答えを与える
予測のためにRのneuralnetパッケージ(ドキュメントはこちら)を使用しようとしています。 ここで私がやろうとしていること: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) print(net) all: neuralnet(formula = …

3
正規分布からのサンプル標準偏差の標準偏差を見つけるにはどうすればよいですか?
私がかなり明白な何かを見逃した場合、私を許してください。 私は物理学者であり、本質的には正規分布に近似する平均値を中心とした(ヒストグラム)分布です。私にとって重要な値は、このガウス確率変数の標準偏差です。サンプル標準偏差のエラーを見つけるにはどうすればよいですか?元のヒストグラムの各ビンのエラーと関係があると感じています。

1
中央値およびグラフィック表現で報告するエラー?
私は、パラメトリックANOVAとt検定からノンパラメトリックKruskal-Wallis検定とMann-Whitneysに加えて、ランク変換された2ウェイANOVAとバイナリを含むGzLMから、論文データにさまざまな検定を使用しました。ポアソンおよび比例データ。これをすべて結果に書き込む際に、すべてを報告する必要があります。 比率データの非対称信頼区間を報告する方法については、すでにここで質問しました。標準偏差、標準誤差、または信頼区間が手段に適していることを知っています。これは、すべてのテストが適切にパラメトリックである場合に報告するものです。ただし、ノンパラメトリックテストでは、平均ではなく中央値を報告する必要がありますか?その場合、どのエラーを報告しますか? これに関連するのは、ノンパラメトリックテストの結果をグラフィカルに表示する方法です。カテゴリ内には主に連続データまたは間隔データがあるため、通常は棒グラフを使用します。棒の上部が平均であり、エラーバーが95%のCIを示しています。NPテストの場合、引き続き棒グラフを使用できますが、棒の上部は中央値を表しますか? あなたの提案をありがとう!

4
回帰モデルのエラーを概念化する方法は?
私はデータ分析のクラスに参加していて、根強いアイデアが揺さぶられています。つまり、エラー(イプシロン)やその他の種類の分散は、グループ(サンプルまたは母集団全体)にのみ(そう考えると)適用されるという考えです。現在、回帰の仮定の1つは、分散が「すべての個人で同じ」であるということです。これは何となくショックです。常に一定であると想定されたのは、Xのすべての値にわたるYの分散であると常に思っていました。 私は教授と話をしました、彼は私たちに回帰を行うとき、私たちはモデルが真実であると仮定していると私に言いました。それが難しい部分だと思います。私にとって、エラー項(イプシロン)は常に、「私たちが知らない要素で、結果変数に影響を与える可能性のある要素に加えて、いくつかの測定エラー」のようなものを意味していました。クラスの教え方には、「その他」のようなものはありません。私たちのモデルは真実で完全であると想定されています。つまり、すべての残差は測定誤差の結果として考える必要があります(したがって、20回測定すると、20回測定すると同じ分散が生じることが予想されます)。 どこかおかしいと感じました。これについて専門家の意見を聞きたいのですが...概念的に言えば、エラーの用語が何であるかについて解釈の余地はありますか?


2
データの平均化とフィッティング、データのフィッティングと平均化の違い
ある場合は、線を複数の個別の「実験」にフィッティングした後、フィッティングを平均化するか、個別の実験からのデータを平均化してから、平均データをフィッティングします。詳しく説明します。 以下に示す曲線を生成するコンピュータシミュレーションを実行します。量を抽出し、プロットの線形領域に当てはめることにより(長い時間)、それを "A"と呼びます。値は単に線形領域の勾配です。もちろん、この線形回帰に関連するエラーがあります。 通常、これらのシミュレーションをさまざまな初期条件で100回ほど実行して、「A」の平均値を計算します。(下のプロットの)生データを平均して10のグループにまとめ、「A」に適合させ、それらの10の「A」を平均するほうがよいと言われています。 これにメリットがあるのか​​、それとも100個の "A"値をフィッティングして平均するよりも良いのか、私には直観がありません。
10 error  fitting  average 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.