タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

1
加重分散、もう一度
偏りのない重み付き分散は、すでにここや他の場所で対処されましたが、依然として驚くべき量の混乱があるようです。最初のリンクとWikipediaの記事で提示された公式に対する合意があるようです。これは、R、Mathematica、およびGSLで使用される式(MATLABではない)のようにも見えます。ただし、Wikipediaの記事には、重み付き分散の実装に対する優れた健全性チェックのように見える次の行も含まれています。 たとえば、値{2,2,4,5,5,5}が同じ分布から引き出される場合、このセットを重み付けされていないサンプルとして扱うか、重み付けされたサンプルとして扱うことができます{2,4、 5}に対応する重み{2,1,3}があり、同じ結果が得られます。 私の計算では、元の値の分散に対して2.1667の値が、重み付き分散に対して2.9545の値が得られます。それらが同じであることを本当に期待すべきですか?なぜですか?

3
有界データセットの変動係数の最大値
標準偏差が平均を超えることができるかどうかに関する最近の質問に続く議論では、1つの質問が簡潔に提起されましたが、完全に回答されませんでした。だから私はここでそれを求めています。 非負数セットを考えます。 ここで、です。が別個である必要はありません。つまり、セットがマルチセットである可能性があります。セットの平均と分散は、として定義され および標準偏差はです。数値のセットは母集団からのサンプルではなく、母平均または母分散を推定していないことに注意してください。質問は次のとおりです。nnnxixix_i0≤xi≤c0≤xi≤c0 \leq x_i \leq c1≤i≤n1≤i≤n1 \leq i \leq nxixix_ix¯=1n∑i=1nxi, σ2x=1n∑i=1n(xi−x¯)2=(1n∑i=1nx2i)−x¯2x¯=1n∑i=1nxi, σx2=1n∑i=1n(xi−x¯)2=(1n∑i=1nxi2)−x¯2\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2σxσx\sigma_x 区間ののすべての選択に対する、変動係数の最大値は何ですか?σxx¯σxx¯\dfrac{\sigma_x}{\bar{x}}xixix_i[0,c][0,c][0,c] の最大値は これは、の値がで、残りの(外れ値)値 が値、 しかし、これはにまったく依存せず、おそらくnとcの両方に依存する大きな値を達成できるかどうか疑問に思っています。σxx¯σxx¯\frac{\sigma_x}{\bar{x}}n−1−−−−−√n−1\sqrt{n-1}n−1n−1n-1xixix_i000xixix_icccx¯=cn, 1n∑x2i=c2n⇒σx=c2n−c2n2−−−−−−−√=cnn−1−−−−−√.x¯=cn, 1n∑xi2=c2n⇒σx=c2n−c2n2=cnn−1.\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x = \sqrt{\frac{c^2}{n} - \frac{c^2}{n^2}} = \frac{c}{n}\sqrt{n-1}.cccnnnccc …

3
主成分分析の「後方」:データの分散は、変数の与えられた線形結合によってどの程度説明されますか?
6つの変数、、、、、主成分分析を実行しました。正しく理解すれば、回転していないPC1はこれらの変数の線形結合がデータの最大の分散を説明/説明し、PC2はこれらの変数の線形結合がデータの次に大きな分散を説明するなどを教えてくれます。AAABBBCCCDDDEEEFFF 私はちょうど興味があります-この「後方」を行う方法はありますか?これらの変数の線形結合を選択するとしましょう。たとえば、場合、これが記述するデータの分散を計算できますか?A+2B+5CA+2B+5CA+2B+5C

4
必要なサンプルサイズ、分散推定の精度を計算していますか?
バックグラウンド 分布が不明な変数があります。 500個のサンプルがありますが、分散を計算できる精度を実証したいと思います。たとえば、サンプルサイズ500で十分だと主張します。また、分散を精度で推定するために必要な最小サンプルサイズを知ることに興味があります。X%X%X\% ご質問 どうすれば計算できますか サンプルサイズ所与分散の私の推定値の精度??n=500n=500n=500n=Nn=Nn=N 精度で分散を推定するために必要なサンプルの最小数を計算するにはどうすればよいですか?XXX 例 図1 500サンプルに基づくパラメーターの密度推定。 図2これは、x軸のサンプルサイズと、500のサンプルのサブサンプルを使用して計算したy軸の分散の推定値のプロットです。nが増加すると、推定値は真の分散に収束します。 。 ただし、分散を推定するために使用されるサンプルは互いに独立していないか、分散を計算するために使用されるサンプルとはN ∈ [ 20 、40 、80 ]n∈[10,125,250,500]n∈[10,125,250,500]n \in [10,125,250,500]n∈[20,40,80]n∈[20,40,80]n\in [20,40,80]

2
標準偏差がNの平方和のsqrtとしてではなく、分散のsqrtとして定義されるのはなぜですか?
今日、私は統計の入門クラスを教え、学生が質問を思いついた。ここで、「なぜ標準偏差はN上の平方和の平方ではなく分散の平方として定義されるのか」と言い換える。 母分散を定義します:σ2=1N∑(xi−μ)2σ2=1N∑(xi−μ)2\sigma^2=\frac{1}{N}\sum{(x_i-\mu)^2} 標準偏差:。σ=σ2−−√=1N√∑(xi−μ)2−−−−−−−−−−√σ=σ2=1N∑(xi−μ)2\sigma=\sqrt{\sigma^2}=\frac{1}{\sqrt{N}}\sqrt{\sum{(x_i-\mu)^2}} 与えられる解釈は、母平均から母集団の単位の平均偏差を与えるということです。σσ\sigmaXXX ただし、sdの定義では、平方和のを除算します。学生が提起する問題は、なぜ二乗和の面積をで割らないのかということです。したがって、競合する式になります:学生は、この式はように除算する場合よりも、平均からの「平均」偏差のように見えると主張しました。N−−√N\sqrt{N}NNNσnew=1N∑(xi−μ)2−−−−−−−−−−√.σnew=1N∑(xi−μ)2.\sigma_{new}=\frac{1}{N}\sqrt{\sum{(x_i-\mu)^2}}.N−−√N\sqrt{N}σσ\sigma この質問は愚かではないと思いました。私は、sdが平均平方偏差である分散のsqrtとして定義されていると言うよりも先に進む学生に答えたいと思います。別の言い方をすれば、なぜ生徒は正しい式を使用し、自分の考えに従わないのですか? この質問は、ここで提供される古いスレッドと回答に関連しています。答えは3つの方向にあります。 σσ\sigmaは二乗平均平方根(RMS)偏差であり、平均からの「典型的な」偏差ではありません(つまり、)。したがって、定義が異なります。σnewσnew\sigma_{new} 数学的な特性があります。 さらに、sqrtは「ユニット」を元のスケールに戻します。ただし、これは場合でもあり、代わりにで除算されます。σnewσnew\sigma_{new}NNN ポイント1と2の両方は、RMSとしてsdを支持する引数ですが、使用に反対する引数はません。入門レベルの学生に平均からの平均RMS距離使用を説得する良い議論は何でしょうか?σnewσnew\sigma_{new}σσ\sigma

2
平均分散に関心がある場合、階層型ベイジアンモデルの分散にはどの事前分布を使用できますか?
広く引用されている論文で、階層モデルの分散パラメーターの事前分布 (Google Scholarでのこれまでの916件の引用)Gelmanは、階層型ベイジアンモデルにおける分散の非有益な事前分布は、均一分布と半t分布であると提案しています。私が正しいことを理解していれば、位置パラメータ(例:平均)が主な関心事である場合、これはうまく機能します。ただし、たとえば、タイミングタスクからの人間の応答データを分析する場合、多くの場合、タイミングの変動性が重要な尺度であるという意味で、分散パラメーターが主な関心事です。そのような場合、分析後に参加者レベルとグループレベルの両方で平均分散の信頼性を取得したいので、たとえば均一な分布を使用して階層的にどのように変動性をモデル化できるかはわかりません。 私の質問は次のとおりです。データの分散が主な関心事である場合、階層型ベイジアンモデルを構築する際にどの分布が推奨されますか? 平均とSDで指定されるようにガンマ分布を再パラメーター化できることを知っています。たとえば、以下の階層モデルは、Kruschkeの本Doing Bayesian Data Analysisからのものです。しかし、Gelmanは彼の記事でガンマ分布に関するいくつかの問題を概説しており、代替案、できればBUGS / JAGSでの作業が難しくない代替案の提案に感謝します。

3
標準偏差ではなく分散を報告するのが適切なのはいつですか?
さまざまな分散コンポーネントをモデル化した分析を実施しました。結果を表で報告する場合、分散ではなく標準偏差を報告する方がはるかに簡潔です。 だから、これは私に質問をもたらします-標準偏差の代わりに分散を報告する理由はありますか?一方を他方に報告する方が適切ですか?

5
共分散行列からの「分散」の尺度?
データが1dの場合、分散はデータポイントが互いに異なる程度を示します。データが多次元の場合、共分散行列を取得します。 多次元データの場合、一般にデータポイントが互いにどのように異なるかを示す単一の指標はありますか? すでに多くの解決策があるかもしれないと感じていますが、それらを検索するために使用する正しい用語がわかりません。 共分散行列の固有値を足し合わせるようなことができるかもしれませんが、それは理にかなっていますか?

2
分散の線形性
次の2つの式が当てはまると思います。 V R(X )= 2 V R(X )Var(aX)=a2Var(X) \mathrm{Var}(aX)=a^2 \mathrm{Var}(X) に一定数である V R(X + Y )= V R(X )+ V R(Y )Var(X+Y)=Var(X)+Var(Y) \mathrm{Var}(X + Y)=\mathrm{Var}(X)+\mathrm{Var}(Y) 場合、XXX、 YはYY独立しています ただし、以下の何が問題なのかわかりません。 V a r(2 X )= V a r(X + X )= V a r(X )+ V a r(X )Var(2X)=Var(X+X)=Var(X)+Var(X)\mathrm{Var}(2X) = \mathrm{Var}(X+X) = …

5
「実際に」プールされた分散とはどういう意味ですか?
私は統計の初心者なので、ここで私を助けてください。 私の質問は次のとおりです。プールされた分散は実際に何を意味しますか? インターネットでプールされた分散の式を探すと、次の式を使用して多くの文献が見つかります(たとえば、http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} しかし、実際には何を計算しますか?プールされた分散を計算するためにこの式を使用すると、間違った答えが得られるためです。 たとえば、これらの「親サンプル」を考えてみましょう。 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} この親サンプルの分散である、その平均であるˉ X P = 5。S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 ここで、この親サンプルを2つのサブサンプルに分割するとします。 最初のサブサンプルは、平均と2,2,2,2,2である、分散S 2 1 = 0。x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 第2のサブサンプルは、平均と8,8,8,8,8である及び分散S 2 2 = 0。x¯2=8x¯2=8\bar{x}_2=8S22=0S22=0S^2_2=0 ここで、およびS 2 = 0であるため、上記の式を使用してこれら2つのサブサンプルのプール/親分散を計算すると、ゼロが生成されます。それでは、この式は実際に何を計算しますか?S1=0S1=0S_1=0S2=0S2=0S_2=0 一方、長い時間をかけて導出した後、正しいプール/親の分散を生成する式は次のとおりです。 S2p=S21(n1−1)+n1d21+S22(n2−1)+n2d22n1+n2−1Sp2=S12(n1−1)+n1d12+S22(n2−1)+n2d22n1+n2−1\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = …
15 variance  mean  pooling 

5
2つのフォーミュラ1認定フォーマットの統計的変動
フォーミュラ1の予選フォーマットに関するこのBBCの記事を読んだばかりです。 主催者は、予選の予測可能性を低くしたい、つまり結果の統計的変動を増やしたいと考えています。いくつかの関連性のない詳細を明らかにし、現時点では、ドライバーは(具体性のために)2回の試行のベストシングルラップでランク付けされています。 F1チーフの1人であるジャントッドは、ドライバーがミスを犯す可能性が2倍になる可能性があるため、ドライバーを2ラップの平均でランク付けすると統計的変動が増えると提案しました。他の情報源は、平均化は統計的変動を確実に減少させると主張した。 合理的な仮定の下で誰が正しいと言えますか?mean(x,y)mean(x,y)\text{mean}(x,y)対の相対分散にとます。ここで、とはドライバーの2つのラップタイムを表すランダム変数ですか?min(x,y)min(x,y)\text{min}(x,y)xxxyyy
15 variance 

2
バイアスと分散のトレードオフに関する質問
バイアスと分散のトレードオフ、推定器のバイアスとモデルのバイアスの関係、および推定器の分散とモデルの分散の関係を理解し​​ようとしています。 私はこれらの結論に達しました: 推定量のバイアスを無視すると、つまり、モデルの分散を無視してモデルのバイアスのみを最小化することを目的とする場合(言い換えると、考慮せずに推定量の分散を最小化することのみを目的とする場合)推定量のバイアスも) 逆に、推定量の分散を無視する場合、つまりモデルのバイアスを無視するモデルの分散のみを最小化することを目的とする場合(つまり、モデルのバイアスを最小化することのみを目的とする場合、推定量の分散も考慮しない推定量)。 私の結論は正しいですか?

3
異分散データの分散の予測
私は、誤差分散と線形モデルの観点からの平均値を予測しようとする異分散データの回帰を試みています。このようなもの: y(x,t)ξ(x,t)y¯(x,t)σ(x,t)=y¯(x,t)+ξ(x,t),∼N(0,σ(x,t)),=y0+ax+bt,=σ0+cx+dt.y(x,t)=y¯(x,t)+ξ(x,t),ξ(x,t)∼N(0,σ(x,t)),y¯(x,t)=y0+ax+bt,σ(x,t)=σ0+cx+dt.\begin{align}\\ y\left(x,t\right) &= \bar{y}\left(x,t\right)+\xi\left(x,t\right),\\ \xi\left(x,t\right) &\sim N\left(0,\sigma\left(x,t\right)\right),\\ \bar{y}\left(x,t\right) &= y_{0}+ax+bt,\\ \sigma\left(x,t\right) &= \sigma_{0}+cx+dt. \end{align} 言い換えると、データは、さまざまな値のxおよびtでのの反復測定で構成さy(x,t)y(x,t)y(x,t)れています。私は、これらの測定は、「真の」平均値から成ると仮定ˉ Y(X 、T )の線形関数であり、X及びT加法ガウス雑音で、ξ (X 、T )私は持っていない、その標準偏差(または分散また、x 、tに線形に依存します。(xにより複雑な依存関係を許可し、xxxttty¯(x,t)y¯(x,t)\bar{y}(x,t)xxxtttξ(x,t)ξ(x,t)\xi(x,t)x,tx,tx,txxxttt –線形形式の強力な理論的動機付けはありませんが、この段階で物事を複雑にしすぎないようにしたいです。) 私は「不均一」ここでは検索用語がある知っているが、すべては私がこれまでよりよく予測することがそれを削除/削減する方法の議論されている見つけることができましたy¯y¯\bar{y}、しかししようという点では何もすることが予測しない σσ\sigmaの観点から独立変数。私は推定したいと思いy0,a,b,σ0,cy0,a,b,σ0,cy_0, a, b, \sigma_0, c及びddd信頼区間(またはベイジアン当量)で、そしてとても良くSPSSでそれを行うための簡単な方法があるかどうか!私は何をすべきか?ありがとう。

6
偏ったユーザーの意見を検出する方法(高評価と低評価)
ユーザーが製品またはアイテムに対する好みを表現できる星評価システムがある場合、投票が非常に「分割」されているかどうかを統計的に検出するにはどうすればよいですか。つまり、特定の製品の平均が5つのうち3つであっても、データのみを使用して(グラフィカルな方法ではなく)1-5の分割とコンセンサス3のどちらであるかをどのように検出できますか

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.