タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

10
平均のみを理解している人に共分散をどのように説明しますか?
...分散についての知識を直感的に増やすことができると仮定して(「分散」を直感的に理解する)、または「平均」からのデータ値の平均距離であり、分散は平方であるため単位、平方根を使用して単位を同じに保ちます。これは標準偏差と呼ばれます。 これが「レシーバー」によって明確に表現され、(できれば)理解されると仮定しましょう。共分散とは何ですか?数学用語/式を使用せずに単純な英語でどのように説明しますか?(つまり、直感的な説明。;) 注意してください:私は概念の背後にある式と数学を知っています。私は、数学を含めずに、同じことを分かりやすい方法で「説明」できるようにしたいと考えています。すなわち、「共分散」とはどういう意味ですか?


7
leave-one-out対K-foldクロス検証のバイアスと分散
モデルの分散とバイアスの観点から、さまざまな交差検証方法をどのように比較しますか? 私の質問はこのスレッドによって部分的に動機づけられています:最適な折り畳み数-交差検証:leave-one-out CVは常に最良の選択ですか?KKK。そこでの答えは、leave-one-out交差検定で学習したモデルは、通常の倍交差検定で学習したモデルよりも高い分散を持ち、leave-one-out CVがより悪い選択になることを示唆しています。KKK しかし、私の直感では、Leave-one-out CVではフォールドCV よりもモデル間の分散が比較的小さいはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間のトレーニングセットが実質的に重なっているからです。KKK または、逆方向に進むと、がフォールドCVで低い場合、トレーニングセットはフォールド全体で大きく異なり、結果のモデルは異なる可能性が高くなります(したがって、分散が大きくなります)。KKKKKKK 上記の議論が正しければ、leave-one-out CVで学習したモデルの分散が大きくなるのはなぜですか?

10
「分散」を直感的に理解する
分散の概念を誰かに説明する最もクリーンで簡単な方法は何ですか?それは直感的に何を意味しますか?子供にこれを説明する場合、どうすればいいでしょうか? 特に、分散をリスクに関連付ける場合、明確に表現するのが難しいという概念です。私はそれを数学的に理解し、そのように説明することもできます。しかし、現実世界の現象を説明するとき、分散を理解するにはどうすればよいのでしょうか。いわば「現実世界」での分散性の適用可能性です。 乱数を使用して株への投資をシミュレートしているとしましょう(サイコロを転がすか、Excelシートを使用するかは重要ではありません)。ランダム変数の各インスタンスをリターンの「何らかの変化」に関連付けることにより、「投資収益率」が得られます。例えば。: 1を振るということは、投資の1 ドルあたり0.8の変化、5は1 ドルあたり1.1の変化などを意味します。 このシミュレーションを約50回(または20または100)実行すると、いくつかの値と投資の最終値が得られます。それでは、上記のデータセットから「分散」を計算する場合、実際には何がわかりますか?「見る」もの-分散が1.7654または0.88765または5.2342であることが判明した場合、これはどういう意味ですか?この投資について何を観察しましたか?私はどんな結論を引き出すことができますか-素人の言葉で。 標準偏差の質問も自由に追加してください!私は理解するのが「簡単」だと感じていますが、それを「直感的に」明確にするのに役立つ何かが大歓迎です!

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

5
統計学者は、シミュレーションなしで母分散の不偏推定量として(n-1)を使用することにどの程度同意しましたか?
分散を計算する式の分母にはがあります。(n−1)(n−1)(n-1) s2=∑Ni=1(xi−x¯)2n−1s2=∑i=1N(xi−x¯)2n−1s^2 = \frac{\sum_{i=1}^N (x_i - \bar{x})^2}{n-1} なぜだろうといつも思っていました。しかし、「」が「なぜ」であるかについてのいくつかの優れたビデオを読んで見ることは、人口分散の優れた公平な推定量であるようです。一方、母分散を過小評価し、過大評価します。n (n − 2 )(n−1)(n−1)(n-1)nnn(n−2)(n−2)(n-2) 私が知りたいのは、コンピューターが存在しない時代に、この選択がどれほど正確に行われたかということです。これを証明する実際の数学的証明はありますか、またはこの純粋に経験的かつ統計学者は当時の「最良の説明」を思いつくために多くの計算を手作業で行いましたか? 統計学者は、19世紀初頭にコンピューターの助けを借りてどのようにしてこの公式を思いついたのでしょうか?マニュアルまたはそれは目に会う以上のものですか?


5
母集団分散の計算におけるNとN-1の違いは何ですか?
私はそこにある理由を取得していないNとN-1母分散を計算しながら。我々は、使用している場合N、我々は、使用している場合N-1? 拡大版はこちらをクリックしてください 人口が非常に大きい場合、NとN-1の間に違いはないが、最初にN-1がある理由はわかりません。 編集:と混同しないでくださいnとn-1推定で使用されています。 編集2:私は人口推定について話していません。



3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
複数のランダム変数の積の分散
2つの独立変数の答えを知っています: V a r(XY)= E(X2Y2)− (E(XY))2= V a r(X)V a r(Y)+ V a r(X)(E(Y))2+ V a r(Y)(E(X))2Var(XY)=E(X2Y2)−(E(XY))2=Var(X)Var(Y)+Var(X)(E(Y))2+Var(Y)(E(X))2 {\rm Var}(XY) = E(X^2Y^2) − (E(XY))^2={\rm Var}(X){\rm Var}(Y)+{\rm Var}(X)(E(Y))^2+{\rm Var}(Y)(E(X))^2 しかし、3つ以上の変数の積をとると、各変数の分散と期待値の観点から答えはどうなりますか?V a r( X1バツ2⋯ Xn)Var(X1X2⋯Xn){\rm Var}(X_1X_2 \cdots X_n)

1
Cohenのカッパ分散(および標準誤差)の計算
Kappa()統計は、2人の評価者間の一致を測定するために、コーエン[1]によって1960年に導入されました。しかし、その分散はかなり長い間矛盾の原因でした。κκ\kappa 私の質問は、大きなサンプルでどの分散計算を使用するのが最適かについてです。私は、Fleiss [2]によってテストおよび検証されたものが正しい選択であると信じていますが、これが正しいと思われる唯一の公開されたものではないようです(かなり最近の文献で使用されています)。 現在、漸近の大きなサンプル分散を計算する2つの具体的な方法があります。 Fleiss、Cohen、Everittが公開した修正済みメソッド[2]。 Colgaton、2009 [4](106ページ)の本に記載されているデルタ方式。 この混乱の一部を説明するために、ここに強調鉱山のFleiss、CohenおよびEveritt [2]による引用があります。 多くの人間の努力は、最終的な成功が達成される前に繰り返される失敗に呪われています。エベレスト山のスケーリングはその一例です。北西航路の発見は2番目です。kappaの正しい標準誤差の導出は3番目です。 そのため、ここで何が起こったのかを簡単に要約します。 1960:Cohenは、論文「名目スケールの一致係数」[1]を発行し、と呼ばれる2人の評価者間の偶然修正された一致の尺度を紹介します。ただし、彼は分散計算の誤った式を公開しています。κκ\kappa 1968年:エヴァーリットはそれらを修正しようとしますが、彼の式も間違っていました。 1969:Fleiss、CohenおよびEverittは、論文「KappaおよびWeighted Kappaの大きなサンプル標準誤差」[2]で正しい式を公開しています。 1971:Fleiss は、同じ名前で別の統計(ただし、別の統計)を公開しますが、分散の式は正しくありません。κκ\kappa 1979:Fleiss NeeとLandisは、Fleissの修正された式を公開しています。κκ\kappa 最初に、次の表記法を検討します。この表記は、ドットが置かれている次元のすべての要素に加算演算子が適用されることを意味します。 pi.=∑j=1kpij pi.=∑j=1kpij\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij} p.j=∑i=1kpij p.j=∑i=1kpij\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij} これで、カッパを次のように計算できます。 κ^=po−pc1−pe κ^=po−pc1−pe\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e} その中で po=∑i=1kpii po=∑i=1kpii\ \ \ p_o …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.