タグ付けされた質問 「independence」

イベント(または確率変数)は、それらのいくつかについての情報が他の発生(/分布)の確率について何も伝えていない場合、独立しています。代わりに、この変数を独立変数の使用[予測子]に使用しないでください。

3
共分散がゼロに等しいと、バイナリ確率変数の独立性を意味しますか?
XXXとが2つの可能な状態しかとれない2つのランダム変数である場合、が独立性を意味することをどのように示すことができますか?この種のことは、が独立性を意味しないということをその日に学んだことに反します...C o v (X 、Y )= 0 C o v (X 、Y )= 0YYYCov(X,Y)=0Cov(X,Y)=0Cov(X,Y) = 0Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y) = 0 ヒントは、可能な状態としてとから開始し、そこから一般化することを示しています。そして、私はそれを行うことができ、を示すことができますが、これは独立性を意味しませんか?0 E (X Y )= E (X )E (Y )111000E(XY)=E(X)E(Y)E(XY)=E(X)E(Y)E(XY) = E(X)E(Y) これを数学的にどのように行うか混乱しているようです。

3
直感のために、無相関であるが従属するランダム変数の実際の例は何ですか?
非相関が独立を意味しない理由を説明する際に、ランダム変数の束を含むいくつかの例がありますが、それらはすべてとても抽象的に見えます:1 2 3 4。 この答えは理にかなっているようです。私の解釈:ランダム変数とその二乗は無相関の場合があります(明らかに相関の欠如は線形独立性に似ているため)が、明らかに依存しています。 例としては、(標準化された)高さと高さ2は無相関だが依存しているかもしれないが、高さと高さ2を比較したい理由がわからない。22^222^2 初等確率理論または同様の目的で初心者に直観を与える目的で、無相関だが従属する確率変数の実際の例は何ですか?

3
爆弾はどこにありますか:行と列の合計を与えられた確率を推定する方法は?
この質問は、ポケモンソウルシルバーのミニゲームに触発されたものです。 この5x6領域に15個の爆弾が隠れていると想像してください(編集:最大1個の爆弾/セル): 行/列の合計を考慮して、特定のフィールドで爆弾を見つける確率をどのように推定しますか? 列5(合計爆弾= 5)を見ると、次のように思うかもしれません。この列では、行2で爆弾を見つけるチャンスは行1で見つける可能性の2倍です。 この(間違った)直接比例の仮定は、基本的に標準の独立テスト操作(カイ二乗など)を間違ったコンテキストに描画すると説明できるため、次の推定につながります。 ご覧のように、直接比例は100%を超える確率の推定につながり、それ以前でも間違っています。 そこで、考えられるすべての順列の計算シミュレーションを実行し、15個の爆弾を配置する276のユニークな可能性を導きました。(与えられた行と列の合計) 276のソリューションの平均は次のとおりです。 これは正しい解決策ですが、指数関数的な計算作業のため、推定方法を見つけたいと思います。 私の質問は今です:これを推定する確立された統計的方法はありますか?これが既知の問題であるかどうか、それがどのように呼ばれるか、お勧めできる論文/ウェブサイトがあるかどうか疑問に思っていました!

1
観測値が独立していない場合の無効な推論
基本的な統計では、一般的な線形モデルでは、推論が有効であるためには、観測は独立している必要があることを学びました。クラスタリングが発生すると、それが考慮されない限り、独立性が無効な推論につながる可能性がなくなります。このようなクラスタリングを説明する1つの方法は、混合モデルを使用することです。シミュレートされているかどうかにかかわらず、これを明確に示すサンプルデータセットを見つけたいと思います。クラスター化されたデータを分析するために、UCLAサイトのサンプルデータセットの1つを使用してみました > require(foreign) > require(lme4) > dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta") > m1 <- lm(api00~growth+emer+yr_rnd, data=dt) > summary(m1) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 740.3981 11.5522 64.092 <2e-16 *** growth -0.1027 0.2112 -0.486 0.6271 emer -5.4449 0.5395 -10.092 <2e-16 *** yr_rnd -51.0757 19.9136 -2.565 0.0108 * > m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), …

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

1
独立のための共同MGFに関する必要かつ十分な条件
CDFとの共同分布に対して、共同モーメント生成関数があるとします。あるの両方に必要かつ十分の独立の条件と?私は必要性だけを述べたいくつかの教科書を調べた:F X 、Y(X 、Y )M X 、Y(S 、T )= M X 、Y(S 、0 )⋅ M X 、Y(0 、T )X YMX,Y(s,t)MX,Y(s,t)M_{X,Y}(s,t)FX,Y(x,y)FX,Y(x,y)F_{X,Y}(x,y)MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)M_{X,Y}(s,t)=M_{X,Y}(s,0)⋅M_{X,Y}(0,t)XXXYYY Fバツ、Y(x 、y)= Fバツ(X )⋅ FY(y)⟹Mバツ、Y(s 、t )= Mバツ(S )⋅ MY(t )FX,Y(x,y)=FX(x)⋅FY(y)⟹MX,Y(s,t)=MX(s)⋅MY(t)F_{X,Y}(x,y)=F_X(x)\cdot F_Y(y) \implies M_{X,Y}(s,t)=M_X(s) \cdot M_Y(t) 独立性が意味するため、この結果は明らかです。周辺のMGFは共同MGFによって決定されるため、次のようになります。MX,Y(s,t)=E(esX+tY)=E(esX)E(etY)MX,Y(s,t)=E(esX+tY)=E(esX)E(etY)M_{X,Y}(s,t)=\mathbb{E}(e^{sX+tY})=\mathbb{E}(e^{sX}) \mathbb{E}(e^{tY}) X,Y independent⟹MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)X,Y independent⟹MX,Y(s,t)=MX,Y(s,0)⋅MX,Y(0,t)X,Y\text{ independent} \implies M_{X,Y}(s,t)=M_{X,Y}(s,0)⋅M_{X,Y}(0,t) しかし、オンラインで検索したところ、証拠がない、コンバースへの一時的な参照しか見つかりませんでした。次のスケッチプルーフは機能しますか? ジョイントMGF与えられると、これは、とおよびそれらのMGF の周辺分布を一意に決定します。M_X および。単独で周辺分布は、多くの他の可能な関節分布と互換性があり、一意た関節の分布を決定及び CDFと独立している、およびMGF:X Y …

4
誰かがどのように依存性とゼロ共分散があるかを説明できますか?
誰かがGregのように説明できますが、より詳細には、確率変数はどのように依存することができますが、共分散はゼロですか?ここのポスターであるGregは、ここの円を使用した例を示しています。 誰かがこのプロセスをいくつかの段階で説明する一連のステップを使用して、このプロセスをより詳細に説明できますか? また、心理学の例を知っている場合は、この概念と関連する例を示してください。説明は非常に正確で、順番にしてください。また、結果がどのようになるかを説明してください。

1
カイ二乗検定はどのような特徴選択に使用できますか?
ここで私は、教師あり学習での結果選択に関する特徴選択にカイ二乗検定を使用するために他の人が一般的に何をするかについて尋ねています。私が正しく理解している場合、彼らは各機能と結果の間の独立性をテストし、各機能のテスト間のp値を比較しますか? ではhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test、 ピアソンのカイ2乗検定は、カテゴリデータのセットに適用される統計的検定であり、セット間に観測された差が偶然に生じた可能性を評価します。 ... 独立性のテストでは、分割表で表された2つの変数のペアの観測値が互いに独立しているかどうかを評価します(たとえば、国籍が異なる応答をポーリングして、国籍が応答に関連しているかどうかを確認します)。 では、独立性がテストによってテストされる2つの変数は、カテゴリカルまたは離散(カテゴリカル以外の順序付けを許可)でなければならないが、連続ではないのでしょうか。 http://scikit-learn.org/stable/modules/feature_selection.html、彼ら アイリスデータセットに対してテストを実行して、2つの最良の特徴のみを取得します。χ2χ2\chi^2 虹彩データセットは、すべての機能が大切数値と連続しており、そして結果は、クラスラベル(カテゴリ)です。カイ二乗独立性検定は、連続特徴にどのように適用されますか? データセットにカイ二乗独立検定を適用するには、最初にビニング(つまり、最初に特徴の連続ドメインをビンに離散化し、次に特徴をビン内の特徴の値の出現で置き換える)により、連続特徴を離散特徴に変換しますか? )? いくつかのビンでの発生は多項式の特徴(各ビンで発生するかしないかのどちらか)を形成するため、カイ2乗独立検定をそれらに適用できます。 ところで、私はカイ二乗独立検定をあらゆる種類の機能と結果に適用できますか? 結果の部分では、分類だけでなく、カイ二乗独立検定、連続結果をビニングすることにより、回帰の機能も選択できます。 scikit学習サイトにも書いてあります 各非負の特徴とクラスの間のカイ2乗統計を計算します。 このスコアが含まれている必要がありますXからテストカイ二乗統計値の最高値は、とn_features機能を選択するために使用することができる唯一の非負のようにブール値や周波数などの機能 (文書分類では例えば、用語カウント)、に対するクラス。 テストで非負の機能が必要なのはなぜですか? 特徴に兆候はないが、カテゴリー的または離散的である場合、テストをそれらに適用できますか?(私のパート1を参照) 特徴が否定的である場合、それらのドメインを常にビニングし、それらをその出現に置き換えることができます(虹彩データセットにテストを適用するために私が推測するのと同じように、パート2を参照)。 注:Scikit Learnは一般的な原則に従っていると思います。それが私がここで求めていることです。そうでない場合は、それでも大丈夫です。

1
月次収益の分散に基づく年次収益の分散
私は時系列の財務的リターンの全体的な分散/標準誤差の事柄を理解しようとしています、そして私は行き詰まっていると思います。期待値1.00795、分散0.000228(標準偏差は0.01512)の一連の月次株価データ(としましょう)があります。年間リターンの最悪のケースを計算しようとしています(たとえば、期待値から標準誤差の2倍を引いたとしましょう)。それを行う最善の方法はどちらですか?A。1か月分()を計算し、それを12倍します(= 0.7630)。B。月が独立していると仮定して、 12回定義し、期待値を見つけますXXX μX−2⋅σX=0.977μX−2⋅σX=0.977\mu_X-2\cdot \sigma_X=0.977 Y=X⋅X⋅...⋅XY=X⋅X⋅...⋅XY=X\cdot X\cdot ...\cdot XE[Y]=(E[X])12E[Y]=(E[X])12E[Y]=(E[X])^{12})と分散。この場合の標準偏差は0.0572であり、期待値から標準偏差の2倍を引いた値が0.9853です。C。月次標準偏差にを乗算して年間偏差を取得します。これを使用して年間最悪のケースを見つけます値()。0.9949と表示されます。 どちらが正しいですか?予想される年間値からstdの2倍を計算するには、月次データについてのみこれらのプロパティがわかっている場合、正しい方法は何ですか?(一般的に、 12回、場合、var[Y]=(var[X]+(E[X])2)12−((E[X]2)12var⁡[Y]=(var⁡[X]+(E[X])2)12−((E[X]2)12\operatorname{var}[Y]=(\operatorname{var}[X]+(E[X])^2)^{12} - ((E[X]^2)^{12} 12−−√12\sqrt{12}μ−2⋅σμ−2⋅σ\mu - 2\cdot \sigmaY=X⋅X⋅...⋅XY=X⋅X⋅...⋅XY=X\cdot X\cdot ...\cdot XμXμX\mu_XσXσX\sigma_X知られている、何ですか?)μY−2⋅σYμY−2⋅σY\mu_Y-2\cdot \sigma_Y

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
非相関性が独立性を意味するのはどの分布ですか?
古くからある統計では、「無相関は独立を意味するものではありません」としています。通常、このリマインダーは、「2つの変数が一緒に正規分布しているにもかかわらず、無相関が独立性を暗示している」という心理的に心地よい(そして科学的に正しい)ステートメントで補足されます。 幸せな例外の数を1から2に増やすことができます。2つの変数がベルヌーイ分布である場合、再び、無相関は独立性を意味します。場合とYは 2 Bermoulli RVの、あるX 〜B (q個のX)、XXXYYY、我々が持っているため、 P (X = 1 )= E (X )= Q 、X、および同様のための Y、それらの共分散でありますX∼B(qx),Y∼B(qy)X∼B(qx),Y∼B(qy)X \sim B(q_x),\; Y \sim B(q_y)P(X=1)=E(X)=qxP(X=1)=E(X)=qxP(X=1) = E(X) = q_xYYY Cov(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqyCov⁡(X,Y)=E(XY)−E(X)E(Y)=∑SXYp(x,y)xy−qxqy\operatorname{Cov}(X,Y)= E(XY) - E(X)E(Y) = \sum_{S_{XY}}p(x,y)xy - q_xq_y =P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy=P(X=1,Y=1)−qxqy=P(X=1∣Y=1)P(Y=1)−qxqy = P(X=1,Y=1) - q_xq_y = P(X=1\mid Y=1)P(Y=1)-q_xq_y =(P(X=1∣Y=1)−qx)qy=(P(X=1∣Y=1)−qx)qy= \Big(P(X=1\mid Y=1)-q_x\Big)q_y 無相関のために、共分散がゼロである必要があります。 Cov(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)Cov⁡(X,Y)=0⇒P(X=1∣Y=1)=P(X=1)\operatorname{Cov}(X,Y) = 0 …

2
変数が完全な同時依存性を示す場合、多変量中心極限定理(CLT)は成り立ちますか?
タイトルは私の質問を要約したものですが、明確にするために、次の簡単な例を検討してください。ましょう、I = 1、...、N。定義: \ begin {equation} S_n = \ frac {1} {n} \ sum_ {i = 1} ^ n X_i \ end {equation} および \ begin {equation} T_n = \ frac {1} {n} \ sum_ ^ N(X_I ^ 2 - 1の){I 1 =} \端{式} 私の質問:にもかかわらずS_NとT_Nがときに完全に依存しており、N = 1、DO \ SQRT {N} …


2
独立性の検定と均質性の検定
私は基本的な統計コースを教えており、今日は2つのカテゴリーの独立性のカイ2乗検定と均質性の検定について説明します。これら2つのシナリオは概念的には異なりますが、同じテスト統計と分布を使用できます。均一性のテストでは、カテゴリの1つの限界合計は、設計自体の一部であると想定されます。これらは、各実験グループに対して選択された被験者の数を表します。しかし、カイ2乗検定はすべての周辺合計の条件付けを中心に展開するため、均質性の検定とカテゴリカルデータを使用した独立性の検定を区別しても、数学的影響はありません-少なくとも、この検定を使用する場合はありません。 私の質問は次のとおりです:独立性のテスト(すべての周辺がランダム変数)または同質性のテスト(周辺の1つのセットが存在する場合)に応じて、異なる分析をもたらす統計的思考または統計的アプローチの学校はありますか?デザインで設定)? 継続的なケースでは、同じ対象についてを観察し、独立性をテストするか、または異なる母集団で観察し、それらが同じ分布に由来するかどうかをテストする場合、方法は異なります(相関分析対t検定)。カテゴリカルデータが離散化された連続変数から得られた場合はどうなりますか?独立性と均質性のテストは区別できないでしょうか?(X 1、X 2)(X,Y)(X,Y)(X,Y)(X1,X2)(X1,X2)(X_1, X_2)

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.