タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

2
正弦と余弦の相関
仮定均一に分布している[ 0 、2 π ]。レッツY = 罪のXとZ = COS X。YとZの間の相関がゼロであることを示します。XXX[0,2π][0,2π][0, 2\pi]Y=sinXY=sin⁡XY = \sin XZ=cosXZ=cos⁡XZ = \cos XYYYZZZ サインとコサインの標準偏差とそれらの共分散を知る必要があるようです。これらをどのように計算できますか? が均一な分布であり、変換された変数Y = sin (X )およびZ = cos (X )を見ると仮定する必要があると思います。次に、無意識の統計学者の法則が期待値を与えるXXXY=sin(X)Y=sin⁡(X)Y=\sin(X)Z=cos(X)Z=cos⁡(X)Z=\cos(X) 及びE[Z]=1E[Y]=1b−a∫∞−∞sin(x)dxE[Y]=1b−a∫−∞∞sin⁡(x)dxE[Y] = \frac{1}{b-a}\int_{-\infty}^{\infty} \sin(x)dxE[Z]=1b−a∫∞−∞cos(x)dxE[Z]=1b−a∫−∞∞cos⁡(x)dxE[Z] = \frac{1}{b-a}\int_{-\infty}^{\infty} \cos(x)dx (密度は均一な分布であるため一定であり、積分の外に移動できます)。 ただし、これらの積分は定義されていません(ただし、コーシーのプリンシパル値は0だと思います)。 どうすればこの問題を解決できますか?私は解決策を知っていると思います(サインとコサインは反対の位相を持っているので相関はゼロです)が、それを導き出す方法を見つけることができません。

2
*統計学習入門*の*関数*の分散とはどういう意味ですか?
pg。統計学習入門の 34 :\newcommand{\Var}{{\rm Var}} 数学的な証明は本書の範囲を超えているものの、期待されるテストMSEは、与えられた値のためにあることを示すことが可能である:、常に3つの基本的な量の和に分解することができる分散のF(X 0)、二乗バイアスのF(X 0)と誤差項の分散ε。あれは、バツ0x0x_0f^(x0)f^(x0)\hat{f}(x_0)f^(x0)f^(x0)\hat{f}(x_0)εε\varepsilon E(y0− f^(x0))2= V a r (f^(x0)) + [ B i a s (f^(x0))]2+ V a r(ε )E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε) E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon) [...]分散は、それによって量を意味するfは、我々は異なるトレーニングデータセットを使用して、それを推定した場合に変更します。f^f^\hat{f} 質問:ので、の分散表しているようだ機能を、何が正式にこれが意味するのでしょうか?V a r (f^(x0))Var(f^(x0))\Var\big(\hat{f}(x_0)\big) つまり、私は確率変数分散の概念に精通していますが、関数のセットの分散はどうですか?これは、値が関数の形式を取る別の確率変数の分散と考えることができますか?バツXX

2
ブートストラップの長所と短所
ブートストラップの概念について学んだところ、素朴な疑問が浮かびました。データの多数のブートストラップサンプルを常に生成できるとしたら、どうしてもっと「実際の」データを取得する必要があるのでしょうか。 説明があると思いますが、私が正しいかどうか教えてください:ブートストラッププロセスにより分散が減少すると思いますが、元のデータセットがバイアスされている場合は、レプリカの数に関係なく、低い分散と高いバイアスに悩まされています私が取っています。

2
時系列データのボラティリティの測定?
定常時系列データのボラティリティまたはノイズの測定値を計算したいと思います。これは、単一の時系列のメジャー、または複数の時系列を一緒に比較する相対メジャーにすることができます。Dickey-Fuller検定がすでに実行されており、すべての時系列に単位根がないと仮定します。 ノイズ/ボラティリティを測定するためのそのようなメトリックのいくつかの例は何ですか?SD /平均である単純な「変動係数」を検討しました。しかし、私はこれを測定する他の方法があるのだろうかと思っています。それが役立つ場合は、Rを使用します。 これは漠然とした要求であることは承知しており、お詫び申し上げます。このトピックについて学ぶための提案や情報源があれば、本当にありがたいです。

3
2つの変数の合計の分散の式の背後にある直観
以前の研究から、 Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) しかし、なぜかはわかりません。AとBが高度に変動する場合、効果は分散を「押し上げる」ことになることがわかります。2つの相関性の高い変数からコンポジットを作成する場合、Aの高い観測値とBの高い観測値を加算する傾向があり、Aの低い観測値とBの低い観測値を加算する傾向があります。これは、コンポジット変数に極端に高い値と低い値を作成し、コンポジットの分散を増やします。 しかし、なぜ共分散を正確に 2 倍することが機能するのでしょうか。

5
単語頻度データの分散を測定する方法は?
単語数のベクトルの分散量をどのように定量化できますか?頻繁に発生するさまざまな単語が多く含まれているため、ドキュメントAで高く、頻繁に発生する1つの単語(またはいくつかの単語)が含まれているため、ドキュメントBで低くなる統計を探しています。 より一般的には、公称データの分散または「広がり」をどのように測定しますか? テキスト分析コミュニティでこれを行う標準的な方法はありますか?

1
PCA固有ベクトルではないベクトルの「固有値」(説明された分散のパーセンテージ)を取得する方法は?
PCAによって提供される座標空間ではなく、わずかに異なる(回転した)ベクトルのセットに対して、データセットの分散のパーセンテージを取得する方法を理解したいと思います。 set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat <- matrix(c(cos(theta), sin(theta), -sin(theta), …


3
2つの類似した時系列がいつ分岐し始めるかを検証する統計的テスト
タイトルから、2つの類似した時系列間の有意差を特定するのに役立つ統計的検定が存在するかどうかを知りたいと思います。具体的には、下の図を見て、系列が時間t1で分岐し始めたこと、つまり、系列間の差が大きくなり始めたことを検出したいと思います。さらに、シリーズ間の差が有意でない場合も検出します。 これを行うのに役立つ統計的検定はありますか?

1
この推定量の分散は何ですか
関数fの平均、つまりを推定し ます。ここで、とは独立したランダム変数です。Iは、Fのサンプルを有するが、IIDないための:IID試料ありとそれぞれについてあるからサンプル:X Y Y 1、Y 2、… Y n Y i n i X X i 、1、X i 、2、… 、X i 、n iEX,Y[f(X,Y)]EX,Y[f(X,Y)]E_{X,Y}[f(X,Y)]XXXYYYY1,Y2,…YnY1,Y2,…YnY_1,Y_2,\dots Y_nYiYiY_ininin_iXXXXi,1,Xi,2,…,Xi,niXi,1,Xi,2,…,Xi,niX_{i,1},X_{i,2},\dots, X_{i,n_i} したがって、合計でサンプルf(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X1,1,Y1)…f(X1,n1,Y1)…f(Xi,j,Yi)…f(Xn,nn,Yn)f(X_{1,1},Y_1) \dots f(X_{1,n_1},Y_1 ) \dots f(X_{i,j},Y_i) \dots f(X_{n,n_n},Y_n) 平均を推定するには、 明らかになので、は不偏推定量です。、つまり推定量の分散が何であるかを考えています。 EX、Y[μ]=EX、Y[F(X、Y)]μVR(μ)μ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)niμ=∑i=1n1/n∗∑j=1nif(Xi,j,Yi)ni\mu=\sum_{i=1}^n 1/n * \sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX,Y[μ]=EX,Y[f(X,Y)]EX,Y[μ]=EX,Y[f(X,Y)]E_{X,Y}[\mu]=E_{X,Y}[f(X,Y)]μμ\muVar(μ)Var(μ)Var(\mu) 編集2:これは正しい差異ですか? それつまり、n = 1ですべてのの場合、分散は平均の分散になります。また、の場合、式は推定量の分散の標準式になります。これは正しいです?どうすればそれを証明できますか? Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(μ)=VarY(μi)n+∑i=1nVarX(f(X,Yi)))ni∗n2Var(\mu)=\frac{Var_Y(\mu_i)}{n}+\sum_{i=1}^n \frac{Var_X(f(X,Y_i)))}{n_i*n^2}ni=∞ni=∞n_i=\inftyni=1ni=1n_i=1 編集(これを無視): だから私はいくつかの進歩を遂げたと思います:最初にを定義してみましょう。μi=∑nij=1f(Xi,j,Yi)niμi=∑j=1nif(Xi,j,Yi)ni\mu_i=\sum_{j=1}^{n_i}\frac{ f(X_{i,j},Y_i)}{n_i}EX[f(X,Yi)]EX[f(X,Yi)]E_X[f(X,Y_i)] 標準的な分散式を使用して、次のように記述できます。 Var(μ)=1/n2∑l=1n∑k=1nCov(μl,μk)Var(μ)=1/n2∑l=1n∑k=1nCov(μl,μk)Var(\mu)=1/n^2 …

2
精度に基づく(つまり、逆分散)重み付けはメタ分析に不可欠ですか?
精度ベースの重み付けはメタ分析の中心ですか?ボレンシュタイン等。(2009)メタ分析を可能にするために必要なことはすべて以下のとおりです: 研究では、単一の数値として表現できる点推定を報告しています。 そのポイント推定に対して分散を計算できます。 (2)が厳密に必要な理由はすぐにはわかりません。しかし、実際、広く受け入れられているメタ分析の方法はすべて、精度に基づく(つまり、逆分散)重み付けスキームに依存しており、各研究の効果サイズの分散の推定が必要です。ヘッジの方法(Hedges&Olkin、1985; Hedges&Vevea、1998)とハンターとシュミットの方法(Hunter&Schmidt、2004)はどちらも基本的にサンプルサイズの重み付けを使用していますが、これらの方法は正規化された平均差にのみ適用されるため、他の場所の標準偏差。各研究の分散に反比例する重みが全体的な効果サイズ推定器の分散を最小化することは理にかなっているので、この重み付けスキームはすべての方法の必須の機能ですか? 各効果サイズの分散にアクセスせずに系統的レビューを実施し、その結果をメタ分析と呼ぶことは可能ですか?サンプルサイズは、分散が利用できない場合の精度のプロキシとしての可能性があるようです。たとえば、効果サイズが生の平均差として定義された研究でサンプルサイズの重み付けを使用できますか?結果の平均効果サイズの一貫性と効率にどのように影響しますか?

1
一般化された加法モデルの分散インフレ係数
線形回帰の通常のVIF計算では、各独立変数/説明変数は、通常の最小二乗回帰では従属変数として扱われます。すなわちバツjXjX_j バツj= β0+ ∑i = 1 、i ≠ jんβ私バツ私Xj=β0+∑i=1,i≠jnβiXi X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i 値のそれぞれについて格納される回帰とVIFは、によって決定されます nR2R2R^2んnn V私Fj= 11 − R2jVIFj=11−Rj2 VIF_j = \frac{1}{1-R^2_j} 特定の説明変数。 私の一般化加法モデルが Y= β0+ ∑i = 1んβ私バツ私+ ∑j = 1メートルsj(X私)。Y=β0+Σ私=1んβ私バツ私+Σj=1メートルsj(バツ私)。 Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + \sum_{j=1}^m s_j(X_i) . このタイプのモデルに相当するVIF計算はありますか?多重共線性をテストするために滑らかな項を制御できる方法はありますか?sjsjs_j

2
1つの標本t検定では、何が分散している場合が起こる推定標本平均がで置き換えられる
帰無仮説は1標本t検定、想定。統計値は、その後で、T = ¯ X - μ 0μ=μ0μ=μ0\mu=\mu_0サンプル標準偏差sを使用。推定では、Sを、1サンプルに観測値を比較した平均¯X:t=x¯¯¯−μ0s/n√t=x¯−μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}ssssssx¯¯¯x¯\overline{x} 。s=1n−1∑ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} 我々が想定した場合しかし、与えられた真であることが、一つは、標準偏差を推定でき、S *を使用して、μ 0の代わりに、サンプルの平均¯ X:μ0μ0\mu_0s∗s∗s^*μ0μ0\mu_0x¯¯¯x¯\overline{x} 。s∗=1n−1∑ni=1(xi−μ0)2−−−−−−−−−−−−−−−−√s∗=1n−1∑i=1n(xi−μ0)2s^*=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\mu_0)^2} 結果的に、帰無仮説をSDの推定にも使用するため、このアプローチはより自然に見えます。結果として得られる統計がテストで使用されるかどうか知っている人はいますか?

2
等分散性仮定の(非)パラメトリック検定をいつ使用するか?
等分散性の仮定をテストする場合は、パラメトリック(分散の均一性のバートレット検定bartlett.test)とノンパラメトリック(分散の均一性のフィグナー-キリーン検定fligner.test)テストが利用できます。使用する種類を区別する方法は?これは、データの正常性などに依存する必要がありますか?

3
2つのデバイスの精度を比較する統計的テスト
麻酔患者の体温を正確に37度に維持するように設計された2つの温度制御デバイスを比較しています。デバイスは、2つのグループを形成する500人の患者に適合しました。グループA(400人の患者)-デバイス1、グループB(100人の患者)-デバイス2。各患者の体温は1時間に1回36時間測定され、2つのグループで18000データポイントが得られました。36時間にわたって患者の体温をより正確に制御するデバイスを決定する必要があります。各時点の中央値を四分位バーで結んだ折れ線グラフを作成しましたが、視覚的には違いがあるようです。統計的差異を証明するためにデータをどのように分析すればよいですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.