タグ付けされた質問 「standard-deviation」

標準偏差は、確率変数の分散の平方根、その推定量、またはデータのバッチの広がりの同様の尺度です。

3
差は要約統計量:ジニ係数と標準偏差
いくつかの要約統計があります。分布の広がりを記述したい場合は、たとえば標準偏差やジニ係数を使用できます。 標準偏差は中心傾向、つまり平均からの偏差に基づいており、ジニ係数は分散の一般的な測定値であることを知っています。また、ジニ係数には下限と上限[0 1]があり、標準偏差にはないことも知っています。これらの特性は知っておくと良いですが、ジニでは不可能で逆に標準偏差でどのような洞察が得られますか?2つのうちの1つを使用することを選択する必要がある場合、有益で洞察力を持つことに関して、他のものと比較して1つを使用する利点は何ですか。

3
報告する有効桁数
かなり標準的な状況(大学の1年生のクラスなど)で、平均または信頼区間について報告する有効桁数を決定するより科学的な方法はありますか? 私が見てきた、テーブルに置くために有効数字の数を、我々は有効桁使用していないのはなぜおよびカイ二乗適合に有効数字の数を、これらの問題に自分の指を入れていないように見えます。 私のクラスでは、結果に非常に広い標準誤差がある場合に15桁の有効数字を報告するのはインクの無駄であることを生徒に説明しようとしています。。これは、E29を参照するASTM- レポートテスト結果でと間にあるべきであると言っているところとあまり違いはありません。0.25σ0.25σ0.25\sigma0.05σ0.05σ0.05\sigma0.5σ0.5σ0.5\sigma 編集: x以下のような一連の数値がある場合、平均と標準偏差を出力するために何桁使用する必要がありますか? set.seed(123) x <- rnorm(30) # default mean=0, sd=1 # R defaults to 7 digits of precision options(digits=7) mean(x) # -0.04710376 - not far off theoretical 0 sd(x) # 0.9810307 - not far from theoretical 1 sd(x)/sqrt(length(x)) # standard error of mean 0.1791109 質問:これに平均と標準偏差の精度(倍精度数のベクトルがある場合)を詳しく説明し、平均と標準偏差を有効桁数の有効桁数に出力する単純なR教育関数を記述します。ベクトルに反映されxます。


2
総まで6面ダイスを転がし
ここに質問があります: サイコロの合計がM以上になるまで、6面のサイコロを繰り返し転がします。M= 300のときの合計からMを引いた値の平均と標準偏差はいくつですか。 この種の質問に答えるコードを書く必要がありますか? そのヒントを教えてください。ありがとう!

3
直感と変動係数の使用
私は現在、Coursera.orgの運用管理入門コースに参加しています。コースのある時点で、教授は操作時間の変動に対処し始めました。 彼が使用する測定は、標準偏差と平均の間の比率である変動係数です。 cv=σμcv=σμc_v = \frac{\sigma}{\mu} なぜこの測定が使用されるのですか?たとえば標準偏差を使用する以外に、CVを使用する利点と欠点は何ですか?この測定の背後にある直感は何ですか?

3
正規分布からのサンプル標準偏差の標準偏差を見つけるにはどうすればよいですか?
私がかなり明白な何かを見逃した場合、私を許してください。 私は物理学者であり、本質的には正規分布に近似する平均値を中心とした(ヒストグラム)分布です。私にとって重要な値は、このガウス確率変数の標準偏差です。サンプル標準偏差のエラーを見つけるにはどうすればよいですか?元のヒストグラムの各ビンのエラーと関係があると感じています。


3
平均と標準偏差のみを持つ結果のプロット
この平均の表とリコールスコアの標準偏差の観測値の適切なプロットを視覚化しようとしています。 RecallControlMean37SD8ExperimentalMean21SD6ControlExperimentalMeanSDMeanSDRecall378216\begin{array} {c|c c|c c|} & \text{Control} & & \text{Experimental} & \\ & \text{Mean} & \text{SD} &\text{Mean} &\text{SD} \\ \hline \text{Recall} & 37 & 8 & 21 & 6 \\ \hline \end{array} それを行う最良の方法は何ですか?棒グラフはそれを行う良い方法ですか?その場合の標準偏差をどのように説明できますか?

1
母集団のRMSEと標準偏差
RMSE(二乗平均平方根誤差)とSD(標準偏差)の式は似ています。 このリンクは言う 唯一の違いは、あなたがで割ることで ない のn - 1あなたがここにサンプルの平均を引いていないので。RMSEはσに対応し ます。したがって、母集団RMSEはσで あり、そのための CIが必要です。んnnn − 1n−1n−1σσ\sigmaσσ\sigma RMSEとSDが同じかどうかを知りたいのですが。また、参考にさせていただきます。

2
NBA射撃の一貫性の計算
NBAプレーヤーの3点射撃の一貫性を評価/決定する適切な方法は何でしょうか?たとえば、3ポイントの範囲から37%を発射し、年間200回の試行を行うプレーヤーがいます。 私は、任意の数のショット(たとえば20)のローリング平均3ポイント%を取ることを検討していました。次に、それらの平均を使用して、37%の平均からの標準偏差を決定します。20ショットのローリングサンプルサイズを使用した場合、精度は5%のパーセンテージでしか許容されませんが、あまり多くのショットを使用してもパフォーマンスの不一致が明らかにならないのではないかと心配しています。 一貫性を判断するためのより良いアプローチはありますか?

1
モンテカルロ分析に必要なシミュレーション数
私の質問は、モンテカルロ分析法に必要なシミュレーション数についてです。私は、任意の許容されるパーセンテージエラーのためにシミュレーションに必要な数を見る限り、(例えば、5)は 、N = { 100 ⋅ Z C ⋅ STD (X )EEEn={100⋅zc⋅std(x)E⋅mean(x)}2,n={100⋅zc⋅std(x)E⋅mean(x)}2, n = \left\{\frac{100 \cdot z_c \cdot \text{std}(x)}{E \cdot \text{mean}(x)} \right\}^2 , ここで、は結果のサンプリングの標準偏差、z cは信頼水準係数です(たとえば、95%の場合は1.96)。したがって、この方法で、nシミュレーションの結果の平均と標準偏差が実際の平均と95%の信頼水準の標準偏差を表すことを確認できます。std(x)std(x)\text{std}(x)zczcz_cnnn 私の場合、シミュレーションを7500回実行し、7500シミュレーションから100サンプリングの各セットの移動平均と標準偏差を計算します。私が取得する必要なシミュレーションの数は常に100未満ですが、結果全体の平均と標準と比較した平均と標準誤差の%は常に5%未満ではありません。ほとんどの場合、平均誤差率は5%未満ですが、標準誤差は最大30%になります。 実際の平均と標準を知らずに必要なシミュレーションの数を決定する最良の方法は何ですか(私の場合、シミュレーションの対象となる結果は正規分布です)? 助けてくれてありがとう。 シミュレーションが無限に実行されたときにシミュレーション結果の分布がどのようになるかを理解するために、n回のシミュレーション後に結果の平均と分散を使用する代わりに、結果の分布のフィット関数を見つけることにしました。ただし、ここでは、nは%エラーをフルフィルする必要があります。そのようにすると、たとえば97.5%に関連する累積分布関数のより正確な結果を見つけることができると思います。400と7000のシミュレーションの結果を比較すると、両方のサンプリングの分布のフィット関数は互いに似ているため、2番目の曲線の曲線のみが滑らかになります。また、したがって、MATLAB / Simulinkのモデルは非線形ですが、生成された入力パラメーターは正規分布ですが、シミュレーションの結果のヒストグラムは通常ではないため、「一般化極値分布」を使用しました。これは、MATLABでは 'gev'という名前です。しかし、それでも、この方法論についてはよくわかりません。事前のコマンドに感謝します

2
エラー伝播SD対SE
私は、2つの異なる条件(AとB)で、1人あたり3〜5個の特性を測定しています。 各条件の各個人の平均をプロットしており、標準誤差(つまり、、 =測定数)を誤差範囲として使用しています。 NSD / N−−√SD/NSD/\sqrt{N}NNN ここで、条件Aと条件Bの個人ごとの平均測定値の差をプロットしたいと思います。次のようにして伝搬エラーを特定できることがわかります。 SD = SD2あ+ SD2B−−−−−−−−−−√SD=SDA2+SDB2SD=\sqrt{SD_A^2+SD_B^2} しかし、標準偏差の代わりに標準誤差を伝搬するにはどうすればよいですか(測定の平均を扱っているため)。これはまったく意味がありますか?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
指数加重平均の標準偏差
指数加重平均を計算する簡単な関数をPythonで記述しました。 def test(): x = [1,2,3,4,5] alpha = 0.98 s_old = x[0] for i in range(1, len(x)): s = alpha * x[i] + (1- alpha) * s_old s_old = s return s ただし、対応するSDを計算するにはどうすればよいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.