タグ付けされた質問 「standard-deviation」

標準偏差は、確率変数の分散の平方根、その推定量、またはデータのバッチの広がりの同様の尺度です。

22
なぜ標準偏差の絶対値を取るのではなく、差を二乗するのですか?
標準偏差の定義で、平均(E)を取得し、最後に平方根を取り戻すために、平均との差を2乗する必要があるのはなぜですか?代わりに、単に差の絶対値を取得し、それらの期待値(平均)を取得することはできませんか?また、データの変動も表示されませんか?数値は二乗法とは異なります(絶対値法は小さくなります)が、データの広がりを示す必要があります。この正方形のアプローチを標準として採用している理由は誰にもわかりますか? 標準偏差の定義: σ=E[(X−μ)2]−−−−−−−−−−−√.σ=E[(X−μ)2].\sigma = \sqrt{E\left[\left(X - \mu\right)^2\right]}. 代わりに絶対値を取得し、それでも適切な測定値を取得することはできませんか? σ=E[|X−μ|]σ=E[|X−μ|]\sigma = E\left[|X - \mu|\right]



10
「分散」を直感的に理解する
分散の概念を誰かに説明する最もクリーンで簡単な方法は何ですか?それは直感的に何を意味しますか?子供にこれを説明する場合、どうすればいいでしょうか? 特に、分散をリスクに関連付ける場合、明確に表現するのが難しいという概念です。私はそれを数学的に理解し、そのように説明することもできます。しかし、現実世界の現象を説明するとき、分散を理解するにはどうすればよいのでしょうか。いわば「現実世界」での分散性の適用可能性です。 乱数を使用して株への投資をシミュレートしているとしましょう(サイコロを転がすか、Excelシートを使用するかは重要ではありません)。ランダム変数の各インスタンスをリターンの「何らかの変化」に関連付けることにより、「投資収益率」が得られます。例えば。: 1を振るということは、投資の1 ドルあたり0.8の変化、5は1 ドルあたり1.1の変化などを意味します。 このシミュレーションを約50回(または20または100)実行すると、いくつかの値と投資の最終値が得られます。それでは、上記のデータセットから「分散」を計算する場合、実際には何がわかりますか?「見る」もの-分散が1.7654または0.88765または5.2342であることが判明した場合、これはどういう意味ですか?この投資について何を観察しましたか?私はどんな結論を引き出すことができますか-素人の言葉で。 標準偏差の質問も自由に追加してください!私は理解するのが「簡単」だと感じていますが、それを「直感的に」明確にするのに役立つ何かが大歓迎です!

4
標準偏差を「合計」する方法は?
値の月間平均とその平均に対応する標準偏差があります。現在、月平均の合計として年平均を計算していますが、合計平均の標準偏差をどのように表すことができますか? たとえば、風力発電所からの出力を検討する場合: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 204 May 865 165 June 750 263 July 780 280 August 690 98 September 730 76 October 821 240 November 803 178 December 850 250 風力発電所は平均して10,358 MWhを生産していますが、この数値に対応する標準偏差はどのくらいですか?

3
サンプルの標準偏差が
標準偏差の不偏推定に関するウィキペディアの記事によると、サンプルSD s = 1n − 1∑i = 1n(x私− x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} 人口のSDの偏った推定量です。これは、と述べている。E(s2−−√)≠ E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB。ランダム変数は独立しており、それぞれバツ私〜N(μ 、σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) 私の質問は2つあります。 偏見の証拠は何ですか? サンプル標準偏差の期待値をどのように計算しますか 数学/統計に関する私の知識は中程度です。


3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 



11
平均絶対偏差と標準偏差
Greer(1983)による教科書「Oレベルの新しい包括的数学」では、平均偏差は次のように計算されています。 単一の値と平均値の絶対差を合計します。次に、その平均を取得します。この章では、平均偏差という用語が使用されています。 しかし最近、標準偏差という用語を使用するいくつかの参考文献を見てきました。 単一の値と平均値の差の二乗を計算します。次に、それらの平均値を取得し、最終的に回答のルートを取得します。 共通のデータセットで両方の方法を試しましたが、答えは異なります。私は統計学者ではありません。私の子供たちに逸脱を教えようとしていたとき、私は混乱しました。 要するに、標準偏差と平均偏差という用語は同じですか、それとも私の古い教科書は間違っていますか?

3
結合された標準偏差を見つけることは可能ですか?
2つのセットがあるとします。 セットA:アイテム、、n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 セットB:アイテムの、、n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 結合平均()は簡単に見つけることができますが、結合標準偏差を見つけるにはどうすればよいですか?μμ\mu

6
ほぼ正規分布のスケールを推定するためのロバストなベイジアンモデルはどうなりますか?
scaleの多数の堅牢な推定量が存在します。顕著な例は、標準偏差に関する中央値絶対偏差であるσ= M A D ⋅ 1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826。ベイジアンフレームワークでは、位置をロバストに推定する方法がいくつか存在しますは、おおよそ正規分布(たとえば、外れ値に汚染された正規)のたとえば、データが分布またはラプラス分布で分布していると仮定できます。今私の質問: ほぼ正規分布のスケールをロバストな方法で測定するためのベイジアンモデルは、MADまたは同様のロバストな推定量と同じ意味でロバストでしょうか? MADの場合と同様に、データの分布が実際に正規分布している場合に、ベイジアンモデルが正規分布のSDに近づくことができれば適切です。 編集1: データy私y私y_iがほぼ正規であると仮定した場合の汚染/外れ値に対してロバストなモデルの典型的な例は、次のような分布で使用しています。 y私〜T(M 、S 、ν)y私〜t(m、s、ν)y_i \sim \mathrm{t}(m, s,\nu) ここで、mmmは平均、sssはスケール、νν\nuは自由度です。m 、sm、sm, sおよびνν\nuに適切な事前分布がある場合、mmmは外れ値に対してロバストなの平均の推定yiy私y_i値になります。ただし、sssはνに依存するため、sはのSDの一貫した推定値ではありません。たとえば、νが4.0に固定され、上記のモデルがN o r m(μ =yiy私y_isssνν\nuνν\nu分布の場合、 sは約0.82になります。私が探しているのは、tモデルのようなロバストなモデルですが、平均の代わりに(または平均に加えて)SDです。Norm(μ=0,σ=1)Norm(μ=0、σ=1)\mathrm{Norm}(\mu=0,\sigma=1)sss 編集2: ここで、上記のtモデルがどのように平均に関してより堅牢であるかを示すRとJAGSのコード例を示します。 # generating some contaminated data y <- c( rnorm(100, mean=10, sd=10), rnorm(10, mean=100, sd= 100)) #### A "standard" normal model #### model_string ...

4
データのウィンザライズとトリミングの相対的なメリットは何ですか?
データのウィンソライズとは、データセットの極値を各端から特定のパーセンタイル値に置き換えることを意味し、トリミングまたは切り捨てにはこれらの極値の削除が含まれます。 平均または標準偏差などの統計を計算する際に、外れ値の影響を軽減するための実行可能なオプションとして、両方の方法について説明していますが、一方を選択する理由はわかりません。 WinsorizingまたはTrimmingを使用することに相対的な利点または欠点はありますか?1つの方法が望ましい特定の状況はありますか?実際にはもっと頻繁に使用されていますか、それとも基本的に交換可能ですか?


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.