タグ付けされた質問 「independence」

イベント(または確率変数)は、それらのいくつかについての情報が他の発生(/分布)の確率について何も伝えていない場合、独立しています。代わりに、この変数を独立変数の使用[予測子]に使用しないでください。

2
iidデータの逆説(少なくとも私にとって)
統計に関する私の集計(および乏しい)知識が許す限り、がiidのランダム変数である場合、用語が示すように、それらは独立しており、同一に分布しています。バツ1、X2、。。。、Xnバツ1、バツ2、。。。、バツnX_1, X_2,..., X_n ここでの私の懸念は、iidサンプルの以前のプロパティです。これは、 p (Xn| バツ私1、X私2、。。。、X私k)= p (Xn)、p(バツn|バツ私1、バツ私2、。。。、バツ私k)=p(バツn)、p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}), 個別ののst。 1 ≤ I 、J &lt; N私j私ji_j1 ≤ Ij&lt; n1≤私j&lt;n1 \leq i_j < n ただし、同一の分布の独立したサンプルの集合が分布構造に関する情報を提供し、上記の場合の結果としてに関する情報を提供することを知っているので、実際には、 バツnバツnX_np (Xn| バツ私1、X私2、。。。、X私k)= p (Xn)。p(バツn|バツ私1、バツ私2、。。。、バツ私k)=p(バツn)。p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}). 私は間違いの犠牲者であることは知っていますが、その理由はわかりません。これで私を助けてください。

2
一般的なデータセットのデータ増強技術?
多くの機械学習アプリケーションでは、いわゆるデータ増強方法により、より良いモデルを構築できます。たとえば、猫と犬の枚の画像のトレーニングセットを想定します。回転、ミラーリング、コントラスト調整などにより、元の画像から追加の画像を生成できます。100100100 画像の場合、データの増加は比較的簡単です。ただし、(たとえば)サンプルのトレーニングセットと、さまざまなものを表す数百個の連続変数があるとします。データ拡張は、もはやそれほど直感的ではないようです。そのような場合に何ができますか?100100100

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
誰かがPTLOS演習4.1を解決しましたか?
これは、2003年のエドウィンジェインズによる確率理論:科学の論理で与えられた演習です。ここには部分的な解決策があります。私はより一般的な部分的な解決策を考え出しましたが、他の誰かがそれを解決したかどうか疑問に思っていました。答えを投稿する前に少し待って、他の人に試してもらいます。 さて、H iで示される相互排他的で網羅的なnnn仮説があると仮定します。Hi(i=1,…,n)Hi(i=1,…,n)H_i \;\;(i=1,\dots,n)。さらに、 D jで示されるmmmデータセットがあるとしますDj(j=1,…,m)Dj(j=1,…,m)D_j \;\;(j=1,\dots,m)。i番目の仮説の尤度比は次の式で与えられます。 LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯¯¯¯¯i)LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯i)LR(H_{i})=\frac{P(D_{1}D_{2}\dots,D_{m}|H_{i})}{P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})} これらは条件付き確率であることに注意してください。i番目の仮説が与えられた場合HiHiH_{i}、mmmデータセットが独立していると仮定します。 P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D_{1}D_{2}\dots,D_{m}|H_{i})=\prod_{j=1}^{m}P(D_{j}|H_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 1} ここで、分母もこの状況を考慮に入れれば非常に便利になります。 P(D1D2…,Dm|H¯¯¯¯¯i)=∏j=1mP(Dj|H¯¯¯¯¯i)(i=1,…,n)Condition 2P(D1D2…,Dm|H¯i)=∏j=1mP(Dj|H¯i)(i=1,…,n)Condition 2P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})=\prod_{j=1}^{m}P(D_{j}|\overline{H}_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 2} この場合、尤度比は各データセットのより小さい係数の積に分割されるため、次のようになります。 LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯¯¯¯¯i)LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯i)LR(H_i)=\prod_{j=1}^{m}\frac{P(D_{j}|H_{i})}{P(D_{j}|\overline{H}_{i})} したがって、この場合、各データセットのだろう「のための投票HiHiH_i」または「反対票HiHiH_i」独立して、他のデータセットの。 演習では、n&gt;2n&gt;2n>2(2つ以上の仮説)の場合、この因数分解が発生するような非自明な方法がないことを証明します。つまり、条件1と条件2が成立すると仮定すると、最大で1つの要因 1と異なっているので、1つだけのデータセットは、尤度比に寄与する。P(D1|Hi)P(D1|H¯¯¯¯¯i)P(D2|Hi)P(D2|H¯¯¯¯¯i)…P(Dm|Hi)P(Dm|H¯¯¯¯¯i)P(D1|Hi)P(D1|H¯i)P(D2|Hi)P(D2|H¯i)…P(Dm|Hi)P(Dm|H¯i)\frac{P(D_{1}|H_{i})}{P(D_{1}|\overline{H}_{i})}\frac{P(D_{2}|H_{i})}{P(D_{2}|\overline{H}_{i})}\dots\frac{P(D_{m}|H_{i})}{P(D_{m}|\overline{H}_{i})} 個人的には、この結果は非常に魅力的でした。なぜなら、複数の仮説検定は一連のバイナリ仮説検定に他ならないことを基本的に示しているからです。

4
カテゴリデータでは、変数が関連していないクラスターが存在する可能性がありますか?
クラスター分析を説明しようとするとき、プロセスが変数が相関しているかどうかに関連していると誤解するのは一般的です。混乱を乗り越える方法の1つは、次のようなプロットです。 これにより、クラスターがあるかどうかの問題と、変数が関連しているかどうかの問題の違いが明確に表示されます。ただし、これは連続データの区別のみを示しています。カテゴリデータを持つアナログを考えるのに問題があります。 ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no 2つの明確なクラスターがあることがわかります。プロパティAとBの両方を持つ人と、持たない人です。ただし、変数を見ると(たとえば、カイ2乗検定で)、それらは明らかに関連しています: tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, …

1
多重比較文献における「依存」テストと「独立」テストの平易な言葉の意味は?
家族ごとのエラー率(FWER)と誤発見率(FDR)の両方の文献で、FWERまたはFDRを制御する特定の方法は、依存テストまたは独立テストに適していると言われています。たとえば、1979年の論文「A Simple Sequentially Rejective Multiple Test Procedure」では、ホルムはステップアップシダック法とステップアップボンフェローニ制御法を対比するために次のように書いています。 テスト統計が独立している場合、同じ計算上の単純さが得られます。 BenjaminiとHochbergによる「偽発見率の制御」(1995)で、著者は次のように書いています。 定理1のための独立した検定統計量及び偽ヌル仮説の任意の構成のために、上記の手順コントロールFDRにおいて。q∗q∗q^{*} その後、2001年に、ベンジャミニとイェクティエリは次のように書いています。 1.3。問題。実際にはFDRのアプローチを使用しようとすると、依存テスト統計はより頻繁に遭遇している独立したもの、その好例であること上記の複数のエンドポイントの例。 これらの著者は、扶養家族のどの特定の意味を使用していますか?テストが明確な言語の説明を伴う場合、テストを相互に依存または独立させるものの正式な定義に満足しています。 考えられるいくつかの異なる意味を考えることができますが、もしあれば、それらは次のようになるかもしれません: 「従属」とは、多変量検定(つまり、同じまたは類似の予測子を持つ多くの従属変数)を意味します。独立とは、単変量テスト(つまり、多くの独立変数、1つの従属変数)を意味します。 「依存」とは、ペアになった/一致した被験者に基づくテスト(ペアになったt検定、反復測定ANOVAなど)を意味します。「独立」とは、対応のない/独立したサンプル研究デザインを意味します。 「依存」とは、テストが拒否される確率が別のテストが拒否される確率と相関することを意味し、「正の依存」とは、この相関が正であることを意味します。「独立」とは、拒否確率が無相関であることを意味します。 参照 Benjamini、Y。およびHochberg、Y。(1995)。誤検出率の制御:複数のテストに対する実用的かつ強力なアプローチ。王立統計学会誌。シリーズB(方法論)、57(1):289–300。 Benjamini、Y。およびYekutieli、D。(2001)。依存関係にある複数のテストでの偽発見率の制御。統計学年報、29(4):1165–1188。 ホルム、S。(1979)。単純な連続的に拒絶する複数のテスト手順。Scandinavian Journal of Statistics、6(65-70):1979。

5
独立に関連するこの数量には名前がありますか?
明らかにイベントAとBは、PrのIFF独立している(A∩B)(A∩B)(A\cap B) = Prの(A)(A)(A)のPr (B)(B)(B)。関連する数量Qを定義しましょう: Q≡Pr(A∩B)Pr(A)Pr(B)Q≡Pr(A∩B)Pr(A)Pr(B)Q\equiv\frac{\mathrm{Pr}(A\cap B)}{\mathrm{Pr}(A)\mathrm{Pr}(B)} したがって、AとBは、Q = 1の場合に独立しています(分母が非ゼロであると仮定)。Qには実際には名前がありますか?今私を逃れている基本的な概念を指しているように感じます。


3
非ゼロ相関は依存関係を意味しますか?
ゼロ相関は独立性を意味しないという事実を知っています。非ゼロの相関が依存関係を意味するかどうかに興味があります。つまり、いくつかのランダム変数XおよびYの場合、一般にf X 、Y(x 、y )≠ f X(x )f Y(y )?Corr (X、Y)≠ 0Corr(X,Y)≠0\text{Corr}(X,Y)\ne0バツXXYYYfバツ、Y(x 、y)≠ fバツ(x )fY(y)fX,Y(x,y)≠fX(x)fY(y)f_{X,Y}(x,y) \ne f_X(x) f_Y(y)

2
コンピューターベースの実験/シミュレーションにおける残差の独立性?
古科学で使用されている特定のタイプのモデルに適合するさまざまな方法のコンピューターベースの評価を実施しました。大規模なトレーニングセットがあるため、テストセットをランダムに(階層化されたランダムサンプリングで)設定しました。トレーニングセットサンプルに異なる方法を適合させ、結果モデルを使用して、テストセットサンプルの応答を予測し、テストセット内のサンプルのRMSEPを計算しました。これは単一の実行です。mmmmmm その後、新しいテストセットをランダムにサンプリングして異なるトレーニングセットを選択するたびに、このプロセスを何度も繰り返しました。 これを行った後、メソッドのいずれかがRMSEPのパフォーマンスを改善するか、悪化させるかを調査したいと思います。また、ペアワイズ法の複数の比較を行いたいです。mmm 私のアプローチは、線形混合効果(LME)モデルをRunの単一のランダム効果に適合させることでした。私は使用lmer()からlme4のからの私のモデルや機能に合わせてパッケージmultcompの多重比較を行うためのパッケージ。私のモデルは本質的に lmer(RMSEP ~ method + (1 | Run), data = FOO) ここmethodで、テストセットのモデル予測を生成するために使用されたメソッドを示す要因であり、「実験」のRun特定の実行ごとのインジケータです。 私の質問は、LMEの残差に関するものです。実行の単一のランダム効果を考えると、ランダム効果がもたらす誘導相関に基づいて、その実行のRMSEP値はある程度相関しているが、実行間で無相関であると想定しています。 この実行間の独立性の仮定は有効ですか?そうでない場合は、LMEモデルでこれを説明する方法がありますか、または質問に答えるために別のタイプの静的分析を採用する必要がありますか?

4
独立性がゼロ相関を意味するのはなぜですか?
まず第一に、私はこれを求めていません: ゼロ相関が独立性を意味しないのはなぜですか? これは(むしろうまく)ここで対処されています:https : //math.stackexchange.com/questions/444408/why-does-zero-correlation-not-imply-independence 私が求めているのは逆です... 2つの変数は互いに完全に独立しています。 彼らは偶然にわずかな相関関係を持っていなかったのでしょうか? そうではないはずです...独立は、非常に小さい相関を意味しますか?


1
多変量ガウスデータのPCAコンポーネントは統計的に独立していますか?
データが多変量正規分布している場合、PCAコンポーネント(主成分分析)は統計的に独立していますか?もしそうなら、どのようにこれを実証/証明できますか? 私が尋ねたのは、この投稿を見たので、トップの答えは次のとおりです: PCAは、明示的なガウス性の仮定を行いません。データで説明された分散を最大化する固有ベクトルを見つけます。主成分の直交性は、データの可能な限り多くの変動を説明するために最も相関のない成分を見つけることを意味します。多変量ガウス分布の場合、成分間のゼロ相関は独立性を意味し、ほとんどの分布には当てはまりません。 答えは証拠なしに述べられており、データが多変量正規である場合、PCAが独立したコンポーネントを生成することを暗示しているようです。 具体的には、データが次のサンプルであるとします。 x∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma}) 我々は置くのサンプルサンプルの我々の行列の行にので、ある。のSVDの計算(センタリング後)nnnxx\mathbf{x}XX\mathbf{X}XX\mathbf{X}n×mn×mn \times mXX\mathbf{X} X=USVTX=USVT\mathbf{X} = \mathbf{USV}^{T} の列は統計的に独立しており、行も統計的に独立していると言えますか?これは一般に、に当てはまるのですか、それともまったく当てはまりませんか?UU\mathbf{U}VTVT\mathbf{V}^Tx∼N(μ,Σ)x∼N(μ,Σ)\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})
16 pca  independence  svd 

2
IIDサンプリングのテスト
サンプリングがIID(独立および同一分散)であることをどのようにテストまたはチェックしますか?ガウス分布および同一分布を意味するのではなく、単にIIDであることに注意してください。 そして、思い浮かぶのは、サンプルを同じサイズの2つのサブサンプルに繰り返し分割し、Kolmogorov-Smirnov検定を実行して、p値の分布が均一であることを確認することです。 そのアプローチに関するコメント、および提案を歓迎します。 バウンティを開始した後の明確化: 非時系列データに適用できる一般的なテストを探しています。

2
距離相関計算の理解
私の知る限り、距離相関は、2つの数値変数間に関係があるかどうかを確認するための堅牢で普遍的な方法です。たとえば、数字のペアのセットがある場合: (x1, y1) (x2, y2) ... (xn, yn) 距離相関を使用して、2つの変数(xおよびy)の間に(必ずしも線形ではない)関係があるかどうかを確認できます。また、xおよびyは、異なる次元のベクトルにすることができます。 距離相関の計算は比較的簡単です。まず、を使用して距離行列を計算します。次に、y iを使用して距離行列を計算します。x iとy iの数が同じであるため(ペアになっているため)、2つの距離行列は同じ次元になります。xiバツ私x_iyiy私y_ixiバツ私x_iyiy私y_i 現在、ペアリングできる距離がたくさんあります。たとえば(2,3)、最初の距離行列の要素(2,3)は、2番目の距離行列の要素とペアになります。したがって、距離のペアのセットがあり、それを使用して相関(距離間の相関)を計算できます。 2種類の距離が相関している場合、Xが近いと通常Yが近いことを意味します。たとえば、がx 13に近い場合、y 7はy 13に近い可能性が高いことを意味します。したがって、XとYは依存していると結論付けることができます。x7バツ7x_7x13バツ13x_{13}y7y7y_7y13y13y_{13} 理にかなっているように思えますが、理解できない2つの側面があります。 まず、距離相関を計算するために、2つの距離行列を直接使用しません。それらに二重センタリング手順を適用します(そのため、行(または列)のすべての要素の合計がゼロに等しくなります)。なぜそうする必要があるのか​​分かりません。このステップの背後にあるロジック(または直感)とは何ですか? 第二に、元の距離行列では、対角線上にゼロがあります。したがって、距離間の相関を計算すると、最初の行列の多くのゼロが2番目の行列の対応するゼロとペアになっているため、統計的に有意な相関があります。この問題はどのように解決されますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.