タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

1
多次元ポイント間の分散を見つける方法は?
n行p列の行列Xがあるとします。つまり、p次元空間での各観測に対してn個の観測があります。 これらのn個の観測値の分散をどのように見つけますか? p = 1の場合は、正規分散式を使用するだけです。p> 1の場合はどうでしょうか。
12 variance 

2
「Xのエラー」モデルがより広く使用されないのはなぜですか?
回帰係数の標準誤差を計算するとき、計画行列ランダム性は考慮しません。たとえばOLSでは、をとして計算しますXXXvar(β^)var(β^)\text{var}(\hat{\beta})var((XTX)−1XTY)=σ2(XTX)−1var((XTX)−1XTY)=σ2(XTX)−1\text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1} がランダムであると見なされる場合、総分散の法則は、ある意味で、の分散の追加の寄与も要求します。すなわちXXXXXX var (β^)= var (E(β^| バツ))+ E(var (β^| バツ))。var(β^)=var(E(β^|X))+E(var(β^|X)).\text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)). これは、OLS推定量が本当に不偏である場合、期待値が一定であるため、最初の項が消えます。2番目の項は実際には次のようになります:。σ2cov (X)− 1σ2cov(X)−1\sigma^2 \text{cov}(X)^{-1} パラメトリックモデルがわかっている場合は、を実際の共分散推定値に置き換えてみませんか。たとえば、が無作為化された治療の割り当てである場合、二項分散より効率的な推定値にする必要がありますか?XXXXTXXTXX^TXXXXE(X)(1−E(X))E(X)(1−E(X))E(X)(1-E(X)) 柔軟なノンパラメトリックモデルを使用して、OLS推定でのバイアスの考えられる原因を推定し、最初の合計の法則分散項設計への感度(つまりの分布)を適切に考慮しないのはなぜですか?XXXvar(E(β^|X))var(E(β^|X))\text{var}(E(\hat{\beta}|X))

1
Netflixが5つ星の評価システムから高評価/低評価のシステムに切り替えるのはなぜですか?
Netflixは、ユーザーが送信した他の映画や番組の評価に基づいて提案を行っていました。この評価システムには5つ星がありました。 現在、Netflixを使用すると、ユーザーは映画/番組を高く評価/低く評価(高く評価/低く評価)できます。彼らは映画を評価する方が簡単だと主張している。 この2ウェイ分類は、5ウェイ分類システムよりも統計的に予測性が低いのではないでしょうか。変動が少ないと思いませんか?

1
母集団の平均が既知の場合、母集団の分散を推定する
私たちは使用していることを知っています集団の分散を推定します。与えられた直感距離はので私達の推定平均は、実際のものオフビットは、おそらくあるということであったところ、私はカーン・アカデミーからの映像を覚えxは、私は- ˉ xは実際に大きいだろう、我々は以下で割るので、(N-1の代わりに、N)より大きな値を取得し、より適切な推定をもたらします。 そして私は、私は、実際の人口の平均持っている場合、私は、この補正を必要としないこと、どこを読んで覚えているμを代わりに ˉ X1n − 1Σ私(x私− x¯)21ん−1Σ私(バツ私−バツ¯)2\frac1{n-1}\sum\limits_i(x_i - \bar{x})^2バツ私− x¯バツ私−バツ¯x_i - \bar{x}n − 1ん−1n-1んんnμμ\muバツ¯バツ¯\bar{x}。だから私は推定します しかし、私はそれを見つけることができませんもう。本当ですか?誰かが私にポインターを与えることはできますか?1んΣ私(x私- μ )21んΣ私(バツ私−μ)2\frac1{n}\sum\limits_i(x_i - \mu)^2
11 variance  sample 

1
指数の家族分布では、平均と分散が常に存在しますか?
スカラー確率変数がpdfをもつベクトルパラメーター指数ファミリーに属していると仮定します。XXX fX(x|θ)=h(x)exp(∑i=1sηi(θ)Ti(x)−A(θ))fX(x|θ)=h(x)exp⁡(∑i=1sηi(θ)Ti(x)−A(θ)) f_X(x|\boldsymbol \theta) = h(x) \exp\left(\sum_{i=1}^s \eta_i({\boldsymbol \theta}) T_i(x) - A({\boldsymbol \theta}) \right) ここで、はパラメーターベクトルで、\ mathbf {T}(x)= \ left(T_1(x)、T_2 (x)、\ cdots、T_s(x)\ right)^ Tは、結合十分統計量です。θ=(θ1,θ2,⋯,θs)Tθ=(θ1,θ2,⋯,θs)T{\boldsymbol \theta} = \left(\theta_1, \theta_2, \cdots, \theta_s \right )^TT(x)=(T1(x),T2(x),⋯,Ts(x))TT(x)=(T1(x),T2(x),⋯,Ts(x))T\mathbf{T}(x)= \left(T_1(x), T_2(x), \cdots,T_s(x) \right)^T 各T_i(x)の平均と分散Ti(x)Ti(x)T_i(x)が存在することを示すことができます。ただし、Xの平均と分散XXX(つまり、E(X)E(X)E(X)とVar(X)Var(X)Var(X))は常に存在しますか?そうでない場合、平均と変数が存在しない、この形式の指数ファミリー分布の例はありますか? ありがとうございました。

1
月次収益の分散に基づく年次収益の分散
私は時系列の財務的リターンの全体的な分散/標準誤差の事柄を理解しようとしています、そして私は行き詰まっていると思います。期待値1.00795、分散0.000228(標準偏差は0.01512)の一連の月次株価データ(としましょう)があります。年間リターンの最悪のケースを計算しようとしています(たとえば、期待値から標準誤差の2倍を引いたとしましょう)。それを行う最善の方法はどちらですか?A。1か月分()を計算し、それを12倍します(= 0.7630)。B。月が独立していると仮定して、 12回定義し、期待値を見つけますXXX μX−2⋅σX=0.977μX−2⋅σX=0.977\mu_X-2\cdot \sigma_X=0.977 Y=X⋅X⋅...⋅XY=X⋅X⋅...⋅XY=X\cdot X\cdot ...\cdot XE[Y]=(E[X])12E[Y]=(E[X])12E[Y]=(E[X])^{12})と分散。この場合の標準偏差は0.0572であり、期待値から標準偏差の2倍を引いた値が0.9853です。C。月次標準偏差にを乗算して年間偏差を取得します。これを使用して年間最悪のケースを見つけます値()。0.9949と表示されます。 どちらが正しいですか?予想される年間値からstdの2倍を計算するには、月次データについてのみこれらのプロパティがわかっている場合、正しい方法は何ですか?(一般的に、 12回、場合、var[Y]=(var[X]+(E[X])2)12−((E[X]2)12var⁡[Y]=(var⁡[X]+(E[X])2)12−((E[X]2)12\operatorname{var}[Y]=(\operatorname{var}[X]+(E[X])^2)^{12} - ((E[X]^2)^{12} 12−−√12\sqrt{12}μ−2⋅σμ−2⋅σ\mu - 2\cdot \sigmaY=X⋅X⋅...⋅XY=X⋅X⋅...⋅XY=X\cdot X\cdot ...\cdot XμXμX\mu_XσXσX\sigma_X知られている、何ですか?)μY−2⋅σYμY−2⋅σY\mu_Y-2\cdot \sigma_Y

2
以下のための基準
前の質問に対する彼の回答では、@ Erik P.は式 ここでは分布の過剰な尖度です。サンプル分散の分布に関するWikipediaのエントリへの参照が示されていますが、Wikipediaのページには「引用が必要」と記載されています。κV a r [ s2] = σ4(2n − 1+ κん)、Var[s2]=σ4(2n−1+κn), \mathrm{Var}[s^2]=\sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right) \>, κκ\kappa 私の主な質問は、この式のリファレンスはありますか?導出することは「取るに足らない」ことであり、そうであれば、それは教科書で見つけることができますか?(@Erik P.は、数学統計とデータ分析でも、CasellaとBergerによる統計推論でもそれを見つけることができませんでした。トピックはカバーされていますが。 教科書への参照があればいいのですが、()の主要な参照があるとさらに便利です。 (関連する質問は:未知の分布からのサンプルの分散の分布は何ですか?) 更新:@cardinalがmath.SEの別の方程式を指摘しました: ここで、は4番目の中心モーメントです。 μ4V a r( S2) = μ4ん− σ4(n −3 )ん(n − 1 )Var(S2)=μ4n−σ4(n−3)n(n−1) \mathrm{Var}(S^2)={\mu_4\over n}-{\sigma^4\,(n-3)\over n\,(n-1)} μ4μ4\mu_4 方程式を並べ替えて2つを解決する方法はありますか、それともタイトルの方程式が間違っていますか?

1
rのフィッシャーzへの変換はメタ分析にメリットがありますか?
通常、はフィッシャーzに変換され、2つのr値の差をテストします。しかし、メタ分析を実行する場合、なぜそのようなステップを踏む必要があるのでしょうか。測定誤差または非サンプリング誤差を修正しますか?また、rが母相関の不完全な推定であると仮定する必要があるのはなぜですか?rrrzzzrrrrrr

1
ゼロ膨張ポアソン分布の平均と分散
確率質量関数を使用して、ゼロ膨張ポアソンの期待値と分散をどのように表示できるか f(y)={π+(1−π)e−λ,(1−π)λye−λy!,if y=0if y=1,2....f(y)={π+(1−π)e−λ,if y=0(1−π)λye−λy!,if y=1,2.... f(y) = \begin{cases} \pi+(1-\pi)e^{-\lambda}, & \text{if }y=0 \\ (1-\pi)\frac{\lambda^{y}e^{-\lambda}}{y!}, & \text{if }y=1,2.... \end{cases} ここで、は観測が二項プロセスによってゼロである確率であり、はポアソンの平均であり、導出されますか?ππ\piλλ\lambda 結果は期待値で、分散​​はです。μ=(1−π)λμ=(1−π)λ\mu =(1-\pi)\lambdaμ+π1−πμ2μ+π1−πμ2\mu+ \frac{\pi}{1-\pi}\mu^{2} 追加:プロセスを探しています。たとえば、モーメント生成関数を使用できますか?結局、ゼロインフレートされたガンマなどをよりよく理解するために、これを行う方法を見たいと思います。

3
Pを形質転換するためのこれらの式は、正確な又は膨張/控えめな見積もりとしてLSD、MSD、SEへHSD、CI、
バックグラウンド 以前に公開されたデータを含むメタ分析を行っています。多くの場合、処理間の差異は、P値、最小有意差(LSD)、およびその他の統計で報告されますが、分散の直接的な推定値は提供されません。 私が使用しているモデルのコンテキストでは、分散の過大評価は問題ありません。 問題 これはへの変換のリストです。ここでS E = √SESESE(Saville 2003)私が検討していること、フィードバックは高く評価されています。以下、私は仮定するα=0.05ので、1- α / 2=0.975 及び変数は通常、特に明記しない限り、分散されています。SE=MSE/n−−−−−−−√SE=MSE/nSE=\sqrt{MSE/n} α=0.05α=0.05\alpha=0.051−α/2=0.9751−α/2=0.9751-^{\alpha}/_2=0.975 質問: 所与の、N、および処理手段ˉ X 1及びˉ X 2 S E = ˉ X 1 - ˉ X 2PPPnnnX¯1X¯1\bar X_1X¯2X¯2\bar X_2 SE=X¯1−X¯2t(1−P2,2n−2)2/n−−−√SE=X¯1−X¯2t(1−P2,2n−2)2/nSE=\frac{\bar X_1-\bar X_2}{t_{(1-\frac{P}{2},2n-2)}\sqrt{2/n}} αα\alphannnbbbbbbn=bn=bn=bSE=LSDt(0.975,n)2bn−−−√SE=LSDt(0.975,n)2bnSE = \frac{LSD}{t_{(0.975,n)}\sqrt{2bn}} nnnαα\alpha2n−22n−22n-2 SE=MSDt(0.975,2n−2)2–√SE=MSDt(0.975,2n−2)2SE = \frac{MSD}{t_{(0.975, 2n-2)}\sqrt{2}} αα\alphannn SE=CIt(α/2,n)SE=CIt(α/2,n)SE = \frac{CI}{t_{(\alpha/2,n)}} nnnqqqSE=HSDq(0.975,n)SE=HSDq(0.975,n)SE = \frac{HSD}{q_{(0.975,n)}} …

2
バギングされたツリー/ランダムフォレストツリーは、単一の決定ツリーよりもバイアスが高いのはなぜですか?
完全に成長した決定木(つまり、枝刈りされていない決定木)を考えると、分散が大きく、バイアスが低くなります。 バギングおよびランダムフォレストは、これらの高分散モデルを使用し、分散を減らして予測精度を高めるためにそれらを集約します。バギングフォレストとランダムフォレストはどちらもブートストラップサンプリングを使用します。「統計学習の要素」で説明されているように、これにより単一ツリーのバイアスが増加します。 さらに、ランダムフォレスト法では、各ノードで分割できる変数が制限されるため、単一のランダムフォレストツリーのバイアスがさらに大きくなります。 したがって、予測精度が向上するのは、バギングおよびランダムフォレストの単一ツリーのバイアスの増加が分散の減少を「過度に」超えていない場合のみです。 これにより、次の2つの質問が生じます。1)ブートストラップサンプリングを使用すると、(ほとんどの場合)ブートストラップサンプルに同じ観察結果がいくつかあることを知っています。しかし、なぜこれがバギング/ランダムフォレストの個々の木のバイアスの増加につながるのでしょうか。2)さらに、分割ごとに分割できる変数の制限により、ランダムフォレスト内の個々のツリーでバイアスが高くなるのはなぜですか?

3
逆指数分布の平均
確率変数与えられた場合、の平均と分散は何ですか?G = 1Y=Exp(λ)Y=Exp(λ)Y = Exp(\lambda)G=1YG=1YG=\dfrac{1}{Y} 私は逆ガンマ分布を調べますが、平均と分散はそれぞれとに対してのみ定義されています...α > 2α>1α>1\alpha>1α>2α>2\alpha>2

1
ジニ係数と誤差範囲
各時点でN = 14カウントの時系列データがあり、Gini係数と各時点でのこの推定の標準誤差を計算したいと考えています。 私は各時点でN = 14カウントしかないので、ジャックナイフの分散、つまりvar (G )= n − 1を計算しました。トムソンOgwangの式7から標準誤差」ジニ指数とを計算する便利な方法」。ここで、G(N、kは)要素なしでN値のジニ係数であり、K及び ˉ G(X)の平均値であるG(N、K)。var(G )= n − 1ん× Σんk = 1(G (n 、k )− G¯(n ))2var⁡(G)=n−1n×∑k=1n(G(n,k)−G¯(n))2\operatorname{var}(G) = \frac{n-1}{n} \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2G (n 、k )G(n,k)G(n,k)kkkG¯(x )G¯(x)\bar{G}(x)G (n 、k )G(n,k)G(n,k) 上記の分散の式の直接の単純な実装。 calc.Gini.variance <- function(x) { N <- length(x) # using jacknifing as suggested …

4
分散の測定が中心性よりも直感的でないのはなぜですか?
私たちの人間の理解には、分散の概念を直感的に把握するのを困難にする何かがあるようです。狭い意味では、答えはすぐにわかります。二乗することは、私たちを反射的な理解から遠ざけます。しかし、問題を提起するのは単なる分散なのか、それともデータを拡散するという全体の考えなのか?範囲内に避難を求める、または単に最小値と最大値を示しますが、本当の困難を回避しているだけですか?平均(モードまたは中央値)では、中心、要約...簡略化を見つけます。分散は物事を分散させ、それらを不快にします。原始人は確かに祈りに三角測量することによって動物の狩猟に平均を利用しますが、物事の広がりを定量化する必要性を感じたのはずっと後であったと思います。実際、「分散」という用語は、1918年に「メンデルの継承の仮定に関する親族間の相関関係」で最近ロナルドフィッシャーによって最初に導入されました。 ニュースに従うほとんどの人は、ハーバード大学からの離脱に関連している可能性がある、性別による数学の適性に関するラリーサマーズの不幸なスピーチの話を聞いたことでしょう。一言で言えば、両方の性別が同じ平均を享受していたとしても、彼は女性と比較して男性の間の数学能力の分布においてより広い差異を提案しました。適切性や政治的影響に関係なく、これは科学文献で実証されているようです。 さらに重要なのは、おそらく気候変動のような問題の理解-議論を完全に呼び起こさない可能性のあるトピックを持ち出したことを許してください-一般の人々による分散の考え方への親しみの向上によって助けられるでしょう。 この投稿に示されているように、共分散を把握しようとすると、問題はさらに複雑になります。ここでは、@ whuberによる素晴らしいカラフルな回答を取り上げています。 あまりにも一般的なように、この質問を却下したくてもよいが、我々がのように、間接的にそれを議論していることは明らかであるこのポスト数学はつまらないです、まだ概念は、とらえどころのないことのより快適な受け入れbelyingを続けている範囲などをより微妙なアイデアの分散とは対照的です。 でEBFordへフィッシャーからの手紙メンデルの実験で彼の疑惑をめぐる論争を参照し、私たちを読む:「データが偽造されていた時に今、私は非常によく、人々が広いチャンス偏差の頻度を過小評価する方法を一般的に知っているように、傾向は常に彼らが期待に非常によく同意するようにすることです... [メンデルのデータにおける]偏差は驚くほど小さいです。」偉大なRAフィッシャーは、小さなサンプルの小さな差異を疑うことに熱心で、彼は次のように書いています。 そして、この過小評価または誤解の広がりに対する偏見が今日も続く可能性は十分にあります。もしそうなら、なぜ分散よりも中心性の概念の方が快適であるかについての説明はありますか?アイデアを内面化するためにできることはありますか? e私はπ+ 1 = 0eiπ+1=0\small e^{i\pi}+1=0E= m c2E=mc2\small E=mc^2 ナシムタレブは、分散の欠陥のある理解の彼の(まあ、本当にブノワマンデルブロの)認識を危機の時期の悪用に適用して運命を作り、「分散の分散は認識論的に、 、平均の知識の欠如についての知識の欠如の尺度」-はい、この一口にはより多くの文脈があります...そして彼の功績として、感謝祭のトルコのアイデアでそれをより簡単にしました。投資の鍵は、分散(および共分散)を理解することだと主張する人もいます。 それで、なぜそれはとても滑りやすいのですか、そしてそれをどのように修正するのですか?公式なし...不確実性を扱う長年の直感だけ...答えはわかりませんが、それは数学的なものではありません(必ずしもそうです)。次のプロットでは、2つのヒストグラムがほぼ同じ分散でオーバーラップしています。それでも、私のひざの反応は、テールが最も長く、ピークが最も高い(尖度が高い)方が「広がっている」というものです。

4
回帰モデルのエラーを概念化する方法は?
私はデータ分析のクラスに参加していて、根強いアイデアが揺さぶられています。つまり、エラー(イプシロン)やその他の種類の分散は、グループ(サンプルまたは母集団全体)にのみ(そう考えると)適用されるという考えです。現在、回帰の仮定の1つは、分散が「すべての個人で同じ」であるということです。これは何となくショックです。常に一定であると想定されたのは、Xのすべての値にわたるYの分散であると常に思っていました。 私は教授と話をしました、彼は私たちに回帰を行うとき、私たちはモデルが真実であると仮定していると私に言いました。それが難しい部分だと思います。私にとって、エラー項(イプシロン)は常に、「私たちが知らない要素で、結果変数に影響を与える可能性のある要素に加えて、いくつかの測定エラー」のようなものを意味していました。クラスの教え方には、「その他」のようなものはありません。私たちのモデルは真実で完全であると想定されています。つまり、すべての残差は測定誤差の結果として考える必要があります(したがって、20回測定すると、20回測定すると同じ分散が生じることが予想されます)。 どこかおかしいと感じました。これについて専門家の意見を聞きたいのですが...概念的に言えば、エラーの用語が何であるかについて解釈の余地はありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.