タグ付けされた質問 「standard-deviation」

標準偏差は、確率変数の分散の平方根、その推定量、またはデータのバッチの広がりの同様の尺度です。

5
加重標準偏差を計算するにはどうすればよいですか?Excelで?
だから、私はそのようなパーセンテージのデータセットを持っています: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) パーセンテージの標準偏差を見つけたいのですが、データ量に重みがあります。つまり、最初と最後のデータポイントが計算を支配する必要があります。 それ、どうやったら出来るの?そして、Excelでそれを行う簡単な方法はありますか?

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
サンプルサイズ、サンプル平均、母平均のみがわかっているスチューデントのt検定を実行する方法は?
スチューデントのは、サンプルの標準偏差sが必要です。ただし、サンプルサイズとサンプル平均のみがわかっている場合、sの計算方法は?tttssssss たとえば、サンプルサイズがでサンプル平均が112の場合、それぞれ112の値を持つ49個の同一サンプルのリストを作成しようとします。予想どおり、サンプルの標準偏差は0です。これにより、t検定でゼロ除算の問題が発生します。494949112112112494949112112112000ttt 追加データ: ACME North Factoryの労働者の平均収入は200 です。ACMEサウスファクトリーの49人の労働者のランダムサンプルの年間収入は112 ドルでした。この違いは統計的に有意ですか?$200$200\$200494949$112$112\$112 人口平均が200 だと言ってもいいですか?$200$200\$200



4
標準偏差の背後にある直感
私は標準偏差のより直感的な理解を得ようとしています。 私が理解していることから、それはそのデータセットの平均からのデータセットの一連の観測値の差の平均を表している。ただし、実際には、平均値から離れた観測値により大きな重みを与えるため、差の平均と等しくなりません。 Iは、値の次の集合を持っていると言う- {1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\} 平均はです。555 絶対値に基づいてスプレッドを測定すると、 ∑5i=1|xi−μ|5=2.4∑i=15|xi−μ|5=2.4\frac{\sum_{i = 1}^5|x_i - \mu|}{5} = 2.4 標準偏差を使用してスプレッドの測定を行うと、 ∑5i=1(xi−μ)25−−−−−−−−−−−−√=2.83∑i=15(xi−μ)25=2.83\sqrt{\frac{\sum_{i = 1}^5(x_i - \mu)^2}{5}} = 2.83 標準偏差を使用した結果は、平均から離れた値に余分な重みが与えられるため、予想どおり大きくなります。 しかし、私はちょうど私が、平均して人口を扱ったことが言われた場合はとの標準偏差2.83私が推測するだろう人口のような値が何かで構成されたことをどのように{ 1 、3 、5 、7 、9 }?2.83の数字は非常にarbitrary 意的であるように思えます...あなたがそれをどのように解釈すべきかわかりません。2.83は、値が非常に広い範囲に広がっていることを意味しますか?5552.832.832.83{1,3,5,7,9}{1,3,5,7,9}\{1, 3, 5, 7, 9\}2.832.832.832.832.832.83 平均がで標準偏差が2.83の母集団を扱っているというステートメントが表示されたら、母集団について何がわかりますか?5552.832.832.83

1
ビニングされた観測値の標準偏差
サンプル観測値のデータセットがあり、範囲ビン内のカウントとして保存されています。例えば: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 さて、これから平均の推定値を見つけることは非常に簡単です。各範囲ビンの平均(または中央値)を観測値として使用し、カウントを重みとして使用して、加重平均を見つけます。 x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 私のテストケースでは、53.82になります。 私の質問は、標準偏差(または分散)を見つける正しい方法は何ですか? 検索を通じていくつかの答えを見つけましたが、どれが実際にデータセットに適切かはわかりません。ここでの別の質問とランダムなNISTドキュメントの両方で次の公式を見つけることができました。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } テストケースの標準偏差は8.35です。ただし、加重平均に関するウィキペディアの記事には、両方の式が記載されています。 s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 そして s2 …


3
二乗平均平方根誤差(RMSE)と標準偏差の解釈方法
予測値を提供するモデルがあるとしましょう。これらの値のRMSEを計算します。そして、実際の値の標準偏差。 これらの2つの値(分散)を比較するのは意味がありますか?私が思うに、RMSEと標準偏差が類似/同じであれば、私のモデルの誤差/分散は実際に起こっていることと同じです。しかし、これらの値を比較しても意味がない場合、この結論は間違っている可能性があります。私の考えが本当なら、それはモデルがそれが分散を引き起こしているものを帰することができないので、それができる限り良いことを意味しますか?最後の部分はおそらく間違っているか、少なくとも答えるにはさらに情報が必要だと思います。

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


5
なぜ正規分布の
初めて正規分布モンテカルロシミュレーションを行ったときにショックを受けたのは、サンプルサイズがのみであるサンプルからの標準偏差の平均がはるかに小さいことが判明したことです。つまり、回の平均よりも、母集団の生成に使用される\ sigmaです。ただし、これはあまり覚えていない場合はよく知られていますが、私はそれを知っていました。これがシミュレーションです。100100100100100100n=2n=2n=22π−−√2π \sqrt{\frac{2}{\pi }}σσ\sigma 100、n = 2、\ text {SD}の推定値、および\ text {E}(s_ {n = 2})= \ sqrt \を使用してN(0,1)の 95%信頼区間を予測する例を次に示します。 frac {\ pi} {2} \ text {SD}。N(0,1)N(0,1)N(0,1)n=2n=2n=2SDSD\text{SD}E(sn=2)=π2−−√SDE(sn=2)=π2SD\text{E}(s_{n=2})=\sqrt\frac{\pi}{2}\text{SD} RAND() RAND() Calc Calc N(0,1) N(0,1) SD E(s) -1.1171 -0.0627 0.7455 0.9344 1.7278 -0.8016 1.7886 2.2417 1.3705 -1.3710 1.9385 2.4295 1.5648 -0.7156 1.6125 2.0209 1.2379 …

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
プラス1標準偏差が最大値を超えることを意味できますか?
最小0と最大94.33のサンプルの平均74.10と標準偏差33.44があります。 私の教授は、平均プラス1つの標準偏差が最大値を超える方法を尋ねます。 私は彼女にこれについて多くの例を示しましたが、彼女は理解していません。私は彼女を示すためにいくつかの参照が必要です。これについては特に統計書のどの章や段落でもかまいません。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.