タグ付けされた質問 「variance」

確率変数の平均からの予想される二乗偏差。または、それらの平均についてのデータの平均二乗偏差。

1
分散の信頼区間を作成するときにカイ二乗が使用されるのはなぜですか?
これは非常に基本的な質問です。なぜカイ二乗分布を使用するのですか?この分布の意味は何ですか?なぜ分散の信頼区間を作成するためにこの分布が使用されるのですか? 私が説明のためにグーグルで検索するすべての場所は、これを事実として提示し、chiを使用するタイミングを説明しますが、chiを使用する理由と、chiが使用される理由を説明しません。 正しい方向に私を向けることができる人に感謝します-それは、分散の信頼区間を作成するときにchiを使用している理由を本当に理解しています。

2
ピタゴラスの定理としての総分散の法則
XXXとYYYは有限の2次モーメントがあると仮定します。第2の有限モーメントがランダム変数のヒルベルト空間では(の内積をT1,T2T1,T2T_1,T_2によって定義されたE(T1T2)E(T1T2)E(T_1T_2)、||T||2=E(T2)||T||2=E(T2)||T||^2=E(T^2))、我々は解釈するE(Y|X)E(Y|X)E(Y|X)の投影としてYYYの機能の空間にXXX。 全分散の法則は、 Var(Y)=E(Var(Y|X))+Var(E(Y|X))Var(Y)=E(Var(Y|X))+Var(E(Y|X))Var(Y)=E(Var(Y|X)) + Var(E(Y|X)) 上記の幾何学的な観点からこの法則を解釈する方法はありますか?法律は、辺持つ直角三角形のピタゴラスの定理と同じであると言われましたY,E(Y|X),Y−E(Y|X)Y,E(Y|X),Y−E(Y|X)Y, E(Y|X), Y-E(Y|X)。三角形が直角である理由を理解していますが、ピタゴラスの定理が全分散の法則をどのように捉えているかはわかりません。

1
なぜ分散を安定させるのですか?
Kaggle Essay Evalメソッドを読んでいるときに、分散を安定させる分散に遭遇しました。分散安定化変換を使用して、平均値をとる前にカッパ値を変換してから、元に戻します。分散を安定させる変換に関するwikiを読んだ後でも理解できませんが、なぜ実際に分散を安定させるのですか?これによりどのような利益が得られますか?


2
leave-one-out交差検証の高い分散
「Leave-one-out」クロス検証は、トレーニングフォールドの大きな重なりのために、分散が大きいことを繰り返し読みました。ただし、その理由はわかりません。トレーニングセットがほぼ同一であるため、相互検証のパフォーマンスが非常に安定(分散が小さい)である必要はありませんか。または、「分散」の概念を完全に間違って理解していますか? また、LOOがどのように偏りがないかを完全には理解していませんが、大きなばらつきがありますか?LOO推定値が期待値の真の推定値に等しい場合、どのようにして高い分散を得ることができますか? 注:ここに同様の質問があることを知っています: なぜエラーの平均推定値に関するleave-one-out cross-validation(LOOCV)分散が高いのですか?しかし、答えた人はコメントの後半で、賛成にもかかわらず彼の答えが間違っていることに気付いたと言っています。

1
後の分析を行うために、PCAによって取得された必要な分散量はありますか?
11個の変数を含むデータセットがあり、データを削減するためにPCA(直交)が実行されました。保持するコンポーネントの数を決定することで、2つの主要なコンポーネント(PC)がデータを説明するのに十分であり、残りのコンポーネントはあまり有益ではないことが、主題とスクリープロット(下記参照)についての私の知識から明らかでした。 並列解析を使用したスクリープロット:観測された固有値(緑色)と100回のシミュレーションに基づくシミュレートされた固有値(赤色)。スクリープロットでは3台のPCが推奨されますが、パラレルテストでは最初の2台のPCのみが推奨されます。 ご覧のとおり、最初の2台のPCでキャプチャできるのは分散の48%だけです。 最初の2台のPCによって行われた最初の平面での観察結果をプロットすると、階層型凝集クラスタリング(HAC)とK-meansクラスタリングを使用した3つの異なるクラスターが明らかになりました。これらの3つのクラスターは、問題の問題に非常に関連していることが判明し、他の調査結果とも一致していました。そのため、分散の48%のみがキャプチャされたという事実を除いて、他のすべては非常に良好でした。 私の2人のレビュアーのうちの1人は言った:1つは48%の分散しか説明できず、それが必要とされるより少ないので、これらの発見にあまり頼ることができない。 質問 PCAが有効 にするためにどの程度の分散をキャプチャする必要があるかについて、必要な値はありますか?使用中のドメインの知識と方法論に依存していませんか?説明された分散の単なる値に基づいて、分析全体のメリットを判断できる人はいますか? ノート データは、リアルタイム定量ポリメラーゼ連鎖反応(RT-qPCR)と呼ばれる分子生物学の非常に感度の高い方法で測定された遺伝子の11変数です。 分析はRを使用して行われました。 マイクロアレイ分析、ケモメトリックス、分光分析などの分野での実際の問題に取り組んでいる個人的な経験に基づいたデータアナリストからの回答は大歓迎です。 可能な限り参考文献で回答をサポートすることを検討してください。
15 variance  pca 

1
曲線近似から共分散行列を解釈するにはどうすればよいですか?
私は統計があまり得意ではないので、これが単純な質問であればおifびします。一部のデータに曲線を当てはめていますが、データがの形の負の指数関数に最適な場合があり、a ∗ e (− b ∗ x 2)に近い場合があります+ C。ただし、これらの両方が失敗する場合があり、線形フィットにフォールバックしたいと思います。私の質問は、どのモデルが特定のデータセットに最も適合するかを、結果の分散共分散行列から最適に決定する方法です。a ∗ e(− b ∗ x )+ ca∗e(−b∗バツ)+ca * e^{(-b * x)} + ca ∗ e(− b ∗ x2)+ ca∗e(−b∗バツ2)+ca * e^{(-b * x^2)} + cscipy.optimize.curve_fit()関数?分散はこの行列の対角線の1つにあると思いますが、どのように解釈するのかわかりません。 更新:同様の質問に基づいて、分散共分散行列が、3つのモデルのうちどれがデータに最も適合するかを教えてくれることを期待しています(これら3つのモデルの1つに多くのデータセットを適合させようとしています)。 結果の行列は、指定された例では次のようになります。 pcov_lin [[ 2.02186921e-05 -2.02186920e-04] [ -2.02186920e-04 2.76322124e-03]] pcov_exp [[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00] [ -7.76201283e-02 …

2
変数のパーティションの分散を計算する方法
(独立した)サンプルを並行して収集する実験を実行しています。サンプルの各グループの分散を計算し、それからすべてを組み合わせて、すべてのサンプルの合計分散を見つけます。 用語がわからないので、これの派生を見つけるのに苦労しています。1つのRVのパーティションと考えています。 だから私は、、...、およびからを見つけたいと思う、ここで =。Var(X)Var(X)Var(X)Var(X1)Var(X1)Var(X_1)Var(X2)Var(X2)Var(X_2)Var(Xn)Var(Xn)Var(X_n)XXX[X1,X2,…,Xn][X1,X2,…,Xn][X_1, X_2, \dots, X_n] 編集:パーティションは同じサイズ/カーディナリティではありませんが、パーティションサイズの合計はサンプルセット全体のサンプル数に等しくなります。 編集2:ここに並列計算のための式がありますが、それはセットではなく、2セットへのパーティションの場合のみをカバーしています。nnn
15 variance 

1
「ヘイウッドケース」の正確な定義は何ですか?
私は、「ヘイウッドケース」という用語を多少非公式に使用して、オンラインの「有限応答」反復更新された分散の推定値が、数値精度の問題により負になった状況を指していました。(Welfordのメソッドのバリアントを使用してデータを追加し、古いデータを削除しています。)数値誤差またはモデリング誤差により分散推定値が負になったが、同僚が私の用語の使用法で混乱しています。グーグル検索は、因子分析で使用されることを除いて、あまり検索されず、負の分散推定の結果を参照しているようです。正確な定義は何ですか?そして、元のヘイウッドは誰でしたか?

2
どのモデルの場合、MLEのバイアスは分散よりも速く低下しますか?
してみましょう trueパラメータの最尤推定値も一部のモデルの。データポイント数が増えると、エラーは通常O(1 / \ sqrt n)として減少します。三角形の不等式と期待値の特性を使用すると、このエラー率が「バイアス」\ lVert \ mathbb E \ hat \ theta-\ theta ^ * \ rVertと「偏差」\ lVert \ mathbb Eの両方を意味することを示すことができます。\ hat \ theta-同じO(1 / \ sqrt {n})での\ hat \ theta \ rVertの減少θ^θ^\hat\thetaθ∗θ∗\theta^*nnn∥θ^−θ∗∥‖θ^−θ∗‖\lVert\hat\theta-\theta^*\rVertO(1/n−−√)O(1/n)O(1/\sqrt n)∥Eθ^−θ∗∥‖Eθ^−θ∗‖\lVert \mathbb E\hat\theta - \theta^*\rVert∥Eθ^−θ^∥‖Eθ^−θ^‖\lVert \mathbb E\hat\theta - \hat\theta\rVertO(1/n−−√)O(1/n)O(1/\sqrt{n})割合。もちろん、モデルがより速い速度で縮小するバイアスを持つことは可能です。多くのモデル(通常の最小二乗回帰など)にはバイアスがありません。 O(1 / \ sqrt n)よりも速く収縮するバイアスを持つモデルに興味O(1/n−−√)O(1/n)O(1/\sqrt n)がありますが、偏差がO(1 …

5
広がりの「均一性」の尺度はありますか?
私はウェブで調べましたが、役に立つものは見つかりませんでした。 私は基本的に、値がどのくらい「均等に」分布しているかを測定する方法を探しています。同様に、Xのような「均等な」分散ディストリビューション: そして、ほぼ同じ平均と標準偏差の「不均一」な分布Y: しかし、m(X)> m(Y)のような均等性の尺度mはありますか?存在しない場合、このようなメジャーを作成する最良の方法は何でしょうか? (Khan Academyの画像スクリーンショット)

1
変量効果を持つモデルのlmerで分散成分を推定し、lmeの結果と比較する方法
2つの異なるソース集団からの異なる家族を育てる実験を行いました。各家族には、2つの治療法のいずれかが割り当てられました。実験の後、私は各個人のいくつかの特性を測定しました。治療またはソースの効果とそれらの相互作用をテストするために、ランダムな因子として家族を持つ線形混合効果モデルを使用しました。 lme(fixed=Trait~Treatment*Source,random=~1|Family,method="ML") これまでのところ、ここで相対的な分散成分、つまり、相互作用だけでなく治療またはソースによって説明される変動の割合を計算する必要があります。 ランダム効果がなければ、平方和(SS)を簡単に使用して、各要因によって説明される分散を計算できます。しかし、混合モデル(ML推定あり)にはSSがありません。したがって、分散を推定するために、ランダム効果としてトリートメントとソースも使用できると考えました。 lme(fixed=Trait~1,random=~(Treatment*Source)|Family, method="REML") ただし、場合によっては、lmeが収束しないため、lme4パッケージのlmerを使用しました。 lmer(Trait~1+(Treatment*Source|Family),data=DATA) サマリー関数を使用してモデルから分散を抽出する場所: model<-lmer(Trait~1+(Treatment*Source|Family),data=regrexpdat) results<-VarCorr(model) variances<-results[,3] VarCorr関数と同じ値を取得します。次に、これらの値を使用して、合計を合計変動として、変動の実際の割合を計算します。 私が苦労しているのは、初期lmeモデルの結果の解釈(固定効果としての処理とソースを使用)と、分散コンポーネントを推定するランダムモデル(ランダム効果としての処理とソースを使用)です。ほとんどの場合、各要因によって説明される分散の割合は、固定効果の有意性に対応していないことがわかります。 たとえば、形質HDの場合、最初のlmeは、相互作用の傾向と治療の重要性を示唆しています。逆方向の手順を使用すると、治療にはかなりの傾向があることがわかります。ただし、分散コンポーネントを推定すると、Sourceの分散が最も高く、分散全体の26.7%を占めることがわかります。 lme: anova(lme(fixed=HD~as.factor(Treatment)*as.factor(Source),random=~1|as.factor(Family),method="ML",data=test),type="m") numDF denDF F-value p-value (Intercept) 1 426 0.044523 0.8330 as.factor(Treatment) 1 426 5.935189 0.0153 as.factor(Source) 1 11 0.042662 0.8401 as.factor(Treatment):as.factor(Source) 1 426 3.754112 0.0533 そして、lmer: summary(lmer(HD~1+(as.factor(Treatment)*as.factor(Source)|Family),data=regrexpdat)) Linear mixed model fit by REML Formula: …
14 r  anova  variance  lme4-nlme 


3
RでLeveneテスト機能を使用するには?
私は統計とRの初心者で、Levene関数の使用に問題があります(2つのサンプルの分散の等価性を確認したいと思います)。ドキュメントには、実行する必要があると書かれています: levene.test(y、グループ) しかし、私はyとグループとして何を置くべきか分かりませんか?分散の等価性を確認したい2つの異なるサンプルがあります。サンプルの値の1つをyとして、2番目の値をグループパラメーターとして設定する必要がありますか? ヒントはありますか?

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.