タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

1
直感(幾何学的またはその他)
で、別の割賦確率のアイデンティティのための直感の、基本的アイデンティティ考慮する全分散の法則を Var(X)=E[Var(X|Y)]+Var(E[X|Y])Var(X)=E[Var(X|Y)]+Var(E[X|Y]) \begin{eqnarray} \rm{Var}(X) &=&\rm{E}[\rm{Var}(X|Y)] + \rm{Var}(E[X|Y]) \end{eqnarray} これは、モーメントの定義を総和に、またはウィキペディアのリンクのように、EとVarを操作して、単純で代数的に操作することです。 しかし、このアイデンティティ、それが何を意味するのか私にはわかりません。おそらく、別の変数を使用して1つの変数の分散を計算して助けることができると思いますが、物事を単純化したり、物事を扱いやすくしたりするようには見えません。 wikiページは言う 最初の要素はプロセス分散の期待値(EVPV)と呼ばれ、2番目の要素は仮想平均の分散(VHM)と呼ばれます これは名前を読み上げるのと同じくらい啓発的です。 では、それはどういう意味ですか?2つの部分について直感はありますか?直感が必要ですか?Y ] ] = E [ X ]は最初ですか?幾何学的な直感はいいかもしれませんが、簡潔な説明、小さな代数も非常に役立ちます。E[E[X|Y]]=E[X]E[E[X|Y]]=E[X]E[E[X|Y]] = E[X] このアイデンティティへの洞察を与える良い線形代数解釈または物理的解釈またはその他はありますか?


3
CoStandard Deviationは何かですか?
では、標準偏差、分散、および共分散がありますが、共同標準偏差はありますか? そうでない場合、なぜですか?基本的な数学的理由はありますか、それとも単なる慣習ですか? もしそうなら、なぜそれはより多く使用されないのか、または少なくともGoogle検索を使用して見つけるのが本当に難しいのですか? これがばかげた質問であることを意味するのではなく、私はたくさんの式を暗記するのではなく、本当に統計に質問しようとしています。

2
加重平均の分散が非加重平均よりも大きい
私のレビュー担当者が、重み付けされたデータではなく、重み付けされていないデータを使用した理由を尋ねています。私は統計学者とこの問題について話し合いました、そして彼の反応は 独立した観測値があり、全体の平均を取る場合、その分散は、推定量としての加重平均からの分散より常に小さくなります。...したがって、信頼区間が拡大されます。 その後、このWebサイトで次の質問を見つけました。私の理解から、分散は同じである必要があると示唆されています。ですから、私よりも統計的に才能のある心を持った誰かが、統計学者からの応答を確認し、理論を平易な言葉で説明したり、実際の例を使ったりしてください。

1
直感的に理解する
私はこのフォーラムでこの質問と素晴らしい受け入れられた答えを見ました。次に、が共分散を正規化する理由を直感的に理解しようとするきっかけがありました。SxSySxSyS_xS_y COV(X,Y)SxSy∈[−1,1]COV⁡(X,Y)SxSy∈[−1,1]\frac{\operatorname{COV}(X,Y)}{S_xS_y} \in [-1,1] S_xS_xが\ operatorname {COV}(X、X)を1にSxSxSxSxS_xS_x正規化する理由を理解できれば役立つと思います。もちろん、私は定義上それらが等しいことを理解しています。しかし、私の質問は基本的にこれです:受け入れられた回答の用語を使用して、なぜプロットの赤の合計は正確にS_xS_x = \ operatorname {VAR}(X)です(より正確には、私が理解している限り、合計を言うことです)n ^ 2によって分割された四角形の\ operatorname {VAR}(X)である必要があります)。つまり、10個の観測値のサンプルを取得する場合、45個の長方形よりも、定義を使用しながら、10個の値のみの平均を見つける必要があります。COV(X,X)COV⁡(X,X)\operatorname{COV}(X,X)111SxSx=VAR(X)SxSx=VAR⁡(X)S_xS_x = \operatorname{VAR}(X)n2n2n^2VAR(X)VAR⁡(X)\operatorname{VAR}(X)101010454545101010

3
SVDを実行して欠損値を代入する方法、具体例
SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。 上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか?数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください(つまり、数値に別の数値を掛けると答えが得られます)。 次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 

1
二項分布のpを推定する際の分散
二項分布から派生したpの分散を計算するにはどうすればよいですか?n枚のコインを裏返してk枚の頭を獲得したとします。pをk / nとして推定できますが、その推定の分散をどのように計算できますか? 試行回数が異なるポイント間を比較するときに比率の推定値の変動を制御できるように、これに興味があります。nが大きい場合のpの推定値の方が確実なので、推定値の信頼性をモデル化できるようにしたいと思います。 前もって感謝します! 例: 40/100。pのMLEは0.4ですが、pの分散は何ですか? 4/10。MLEは0.4のままですが、推定値の信頼性が低くなるため、pの分散が大きくなるはずです。

1
単数ベイジアン回帰-事後は明確に定義されていますか?
SEコミュニティ、次の問題についていくつかの洞察を得たいと思います。単純な線形回帰モデル与えられた場合 等分散誤差項を持つガウス尤度関数の下では、従属変数の条件付き分布はの形式をとります および 前に条件付き(有益でない)共役を割り当てます は。周辺事後分布が多変量tであるのは 標準的な結果ですY | β 、H 〜N (Xのβ 、H - 1つの I )。β 時間β | H 〜N (0 、C I )、H 〜G (S - 2、V )Y= Xβ+ ϵ 、ここで Y∈ RT、X∈ RT× N。Y=Xβ+ϵ , where Y∈RT,X∈RT×N.Y=X\beta+\epsilon\text{ , where } Y\in\mathbb{R}^T,X\in\mathbb{R}^{T \times N}.Y| β、H 〜N(Xβ、h− 1私)。Y|β,h∼N(Xβ,h−1I).Y|\beta,h \sim N(X\beta,h^{-1}I).ββ\betahhh …

4
与えられた分布の平均がわかっているとしましょう。これは確率変数の分散の区間推定(サンプル分散を使用して計算される)に影響しますか?のように、同じ信頼水準に対してより小さな間隔を取得できますか?

1
混合効果モデルのグループ効果は、正規分布から選ばれたと想定されていますか?
たとえば、生徒の学習時間数が生徒の試験の成績にどのように影響するかに興味があるとします。私たちはいくつかの異なる学校の生徒をサンプリングします。我々は、次の混合効果モデルを実行します。 Exam.grades私= a + β1× 時間。私+ 学校j+ e私Exam.grades私=a+β1×hours.studied私+学校j+e私 \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i このモデルでは、各学校はより多くの学校の人口から選ばれたと想定され、学校の効果は正規分布していると言ってもいいでしょうか。したがって、学校の集団効果について、すべての「通常の」正規分布型の手順を実行できますか?学校の68%のようなものは、学校の平均集団効果の1標準偏差以内になると言えるでしょうか。また、学校の全体的な平均グループ効果の95%信頼区間を計算できますか? また、学校の固定効果による線形回帰では、参照グループとダミー変数を使用しているため、これらの正規分布統計を計算できないと言っていいでしょうか?

3
Rのオッズ比のp値を計算する方法は?
次の値の表があります。 25 75 38 162 オッズ比は0.7037で、log(OR)は-0.3514です。値がa、b、c、dの分割表の場合、log(OR)の分散は次のように与えられます。 (1/a + 1/b + 1/c + 1/d) Rのこのデータからlog(OR)のp。値を計算するにはどうすればよいですか(0と大幅に異なるかどうか)。
8 r  variance 

1
二項分布は、バイナリ選挙をモデル化できるすべての「合理的な」分布の中で可能な限り最小の分散を持っていますか?
人が二者択一をする選挙を想像してみてください。彼らはAに投票するか反対に投票します。その結果、人がAに投票するため、Aの結果はます。nnnmmmp=m/np=m/np=m/n これらの選挙をモデル化する場合、各人が確率で独立してAに投票し、投票の二項分布につながると想定でき。この分布には、平均と分散ます。pppvotes for A∼Binom(n,p).votes for A∼Binom(n,p).\text{votes for A}\sim\mathsf{Binom}(n,p).m=npm=npm=npnp(1−p)np(1−p)np(1-p) 他の仮定も可能です。たとえば、確率自体が何らかの分布(ベータなど)からの確率変数であると想定できます。これはA.のための投票のベータ二項分布につながることができますまたは私はのグループでその人の投票と仮定することができの各グループ、人々が同じ選択を行い、それが確率でAである。これにより、分散がより大きい二項分布が得られます。これらすべてのケースで、結果の分布の分散は、最も単純な二項方式の場合よりも大きくなります。pppkkkkkkppp 二項分布の分散が最小であると主張できますか?言い換えると、この主張は、たとえば可能な分布にいくつかの合理的な条件を指定することによって、どういうわけか正確にすることができますか?これらの条件は何でしょうか? それとも、分散の少ない合理的な分布があるのでしょうか? 私がすることができ、すべての例とき、低分散を想像して人々は、彼らが投票する方法について事前に合意し、そう本当にランダム変数ではなく、一定の数の。その場合、分散はゼロになります。あるいは、ほとんどすべての人が同意したが、同意しなかった人もいるため、周りにわずかな差異がある可能性が。しかし、これは不正行為のように感じます。各人が何らかの意味でランダムに投票する場合など、事前の準備なしで二項よりも小さい分散を持つことができますか?nnnvotes for Avotes for A\text{votes for A}mmmmmm

1
有界区間上のすべての連続単峰分布におけるの最小値はいくつですか?
有界間隔すべての分布は、以下を満たします。[0,1][0,1][0,1] σ2≤μ(1−μ)σ2≤μ(1−μ)\sigma^2 \le \mu (1-\mu) ここで、は平均、は分散です。σ 2μμ\muσ2σ2\sigma^2 ここで、分布が最大で1つの極大値を持つという意味で、分布が単峰性であると仮定します。次の比率が持つことができる最小値は何ですか: μ(1−μ)σ2?μ(1−μ)σ2?\frac{\mu (1-\mu)}{\sigma^2}?
8 variance 

2
サンプル間の主成分分解を比較するためのテスト/手法/方法はありますか?
同じ母集団から抽出された異なるサンプルのPCA結果の方向、大きさなどを比較する方法論的な方法はありますか? さまざまな可能性をすべて聞きたいので、テストの性質を故意に曖昧にしておきます...たとえば、最初の主成分のサイズを比較するテスト(または、ここで推測している)があるかもしれません。主成分の方向を比較するテスト、またはPCAの結果とそれらが等しいかどうかの検定統計量の間に何らかの距離測定があります。 ユースケースに関する限り、私は心に留めていません。好奇心から、おそらく探索的手法として。

1
2つの変数間の
まず、についての議論は一般に(つまり、回帰における決定係数)についての説明を引き起こすことを理解しています。私が答えようとしている問題は、2つの変数間の相関のすべてのインスタンスにそれを一般化することです。R 2r2r2r^2R2R2R^2 だから、私はかなりの間、分散の分散について困惑してきました。私はいくつかの説明を提供しましたが、それらはすべて問題があるようです: これは共分散の別の用語です。因子分析の文献ではPCAとEFAを区別するため、後者は共有分散を説明し、前者は説明しないと説明しているため、これは当てはまりません(PCAは明らかに共分散行列で動作しているため、共分散を考慮しているため、共有されます分散は異なる概念でなければなりません)。 相関係数の2乗()です。見る:r2r2r^2 http://www.philender.com/courses/linearmodels/notes1/var1.htmlまたは http://www.strath.ac.uk/aer/materials/4dataanalysisineducationalresearch/unit6/correlationcoefficient/ これは少し意味があります。ここでの問題は、それが共有分散であることを意味する方法を解釈することです。たとえば、「共有分散」の解釈の1つはです。はそれまで減少しない、または確かにすぐ直感的な概念[ ; これは4次元オブジェクトです]。r 2 c o v(A 、B )2 /(v a r(A )× v a r(B ))c o v(A、B) / [ v a r(A)+ v a r(B)]cov(あ、B)/[var(あ)+var(B)]{\rm cov}(A,B)/[{\rm var}(A)+{\rm var}(B)]r2r2r^2c o v(A、B)2/( v a r(A)× v a r(B))cov(あ、B)2/(var(あ)×var(B)){\rm cov}(A,B)^2/({\rm var}(A)\times{\rm var}(B)) 上記のリンクはどちらも、バレンティン図で説明しようとしています。彼らは助けにはなりません。まず、円のサイズは同じです(これは、何らかの理由で図にとって重要であるように思われます)。これは、不均一な分散を考慮していません。それは標準化された変数のバレンティンダイアグラムであり、したがって分散が等しいと想定できます。だから、、いない。r 2rrrr2r2r^2 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.