タグ付けされた質問 「non-independent」

データ、イベント、プロセスなどは、1の知識が他の状態または値に関するいくつかの情報を提供する場合、独立していません。

5
統計的学習におけるiid仮定の重要性について
統計的学習では、暗黙的または明示的に、トレーニングセットD = { X、y }は、同じ結合分布P(X、X、)から独立して描画されるN個の入力/応答タプル(X i、y i)で構成されると常に仮定しますy )とD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}NNN(Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) およびp(y|X)p(y|X)p( y \vert {\bf{X}})特定の学習アルゴリズムを介して取得しようとしている関係。数学的には、このiidの仮定は次のように記述します。 (Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j …


5
FDR制御に通常の方法を使用するための条件としての「正の依存関係」の意味
BenjaminiとHochbergは、False Discovery Rate(FDR)を制御するための最初の(そして今でも最も広く使用されていると思う)メソッドを開発しました。 それぞれ異なる比較のためのP値の束から始め、どの値が「ディスカバリー」と呼ばれるほど低いかを判断し、FDRを指定された値(たとえば10%)に制御します。通常の方法の仮定の1つは、比較のセットが独立しているか「正の依存関係」を持っていることですが、P値のセットを分析する文脈でそのフレーズが何を意味するか正確にはわかりません。

7
相関は関連付けと同等ですか?
私の統計学教授は、「相関」という言葉は変量間の線形関係に厳密に適用されるのに対し、「連合」という言葉はあらゆるタイプの関係に広く適用されると主張しています。言い換えれば、彼は「非線形相関」という用語は矛盾表現であると主張している。 「相関と依存関係」に関するウィキペディアの記事のこのセクションで作成できることから、ピアソン相関係数は2つの変量間の関係の「線形性」の程度を説明しています。これは、「相関」という用語が実際には線形関係にのみ適用されることを示唆しています。 一方、「非線形相関」をグーグルですばやく検索すると、この用語を使用する多くの公開論文が見つかります。 私の教授は正しいですか、それとも「相関関係」は単に「連合」の同義語ですか?

1
依存観測のPCAのプロパティ
通常、ケースがiidであると想定されるデータの次元削減手法としてPCAを使用します 質問:依存する非iidデータにPCAを適用する際の典型的なニュアンスは何ですか?iidデータを保持するPCAの優れた/有用なプロパティは、侵害された(または完全に失われた)ものですか? たとえば、データは多変量時系列である場合があり、その場合、自己相関または自己回帰条件付き不均一分散(ARCH)が予想されます。 時系列データにPCAを適用する上でいくつかの関連の質問は、前に依頼されている例えば1、2、3、4、私は(個々のポイントに多くの拡大を必要とせずに)、より一般的かつ総合的な答えを探しています。 編集: @ttnphnsが指摘したように、PCA 自体は推論分析ではありません。ただし、PCAの一般化パフォーマンス、つまり、サンプルPCAの母集団の対応に注目することができます。例えば、Nadler(2008)に書かれているとおり: 与えられたデータが(一般的に未知の)分布からの有限でランダムなサンプルであると仮定すると、興味深い理論的および実用的な問題は、有限データから計算されたサンプルPCA結果と基礎となる母集団モデルの結果の間の関係です。 参照: ナズラー、ボアズ。「主成分分析の有限サンプル近似結果:行列摂動アプローチ。」 統計学年報(2008):2791-2817。

1
多重比較文献における「依存」テストと「独立」テストの平易な言葉の意味は?
家族ごとのエラー率(FWER)と誤発見率(FDR)の両方の文献で、FWERまたはFDRを制御する特定の方法は、依存テストまたは独立テストに適していると言われています。たとえば、1979年の論文「A Simple Sequentially Rejective Multiple Test Procedure」では、ホルムはステップアップシダック法とステップアップボンフェローニ制御法を対比するために次のように書いています。 テスト統計が独立している場合、同じ計算上の単純さが得られます。 BenjaminiとHochbergによる「偽発見率の制御」(1995)で、著者は次のように書いています。 定理1のための独立した検定統計量及び偽ヌル仮説の任意の構成のために、上記の手順コントロールFDRにおいて。q∗q∗q^{*} その後、2001年に、ベンジャミニとイェクティエリは次のように書いています。 1.3。問題。実際にはFDRのアプローチを使用しようとすると、依存テスト統計はより頻繁に遭遇している独立したもの、その好例であること上記の複数のエンドポイントの例。 これらの著者は、扶養家族のどの特定の意味を使用していますか?テストが明確な言語の説明を伴う場合、テストを相互に依存または独立させるものの正式な定義に満足しています。 考えられるいくつかの異なる意味を考えることができますが、もしあれば、それらは次のようになるかもしれません: 「従属」とは、多変量検定(つまり、同じまたは類似の予測子を持つ多くの従属変数)を意味します。独立とは、単変量テスト(つまり、多くの独立変数、1つの従属変数)を意味します。 「依存」とは、ペアになった/一致した被験者に基づくテスト(ペアになったt検定、反復測定ANOVAなど)を意味します。「独立」とは、対応のない/独立したサンプル研究デザインを意味します。 「依存」とは、テストが拒否される確率が別のテストが拒否される確率と相関することを意味し、「正の依存」とは、この相関が正であることを意味します。「独立」とは、拒否確率が無相関であることを意味します。 参照 Benjamini、Y。およびHochberg、Y。(1995)。誤検出率の制御:複数のテストに対する実用的かつ強力なアプローチ。王立統計学会誌。シリーズB(方法論)、57(1):289–300。 Benjamini、Y。およびYekutieli、D。(2001)。依存関係にある複数のテストでの偽発見率の制御。統計学年報、29(4):1165–1188。 ホルム、S。(1979)。単純な連続的に拒絶する複数のテスト手順。Scandinavian Journal of Statistics、6(65-70):1979。

3
直感のために、無相関であるが従属するランダム変数の実際の例は何ですか?
非相関が独立を意味しない理由を説明する際に、ランダム変数の束を含むいくつかの例がありますが、それらはすべてとても抽象的に見えます:1 2 3 4。 この答えは理にかなっているようです。私の解釈:ランダム変数とその二乗は無相関の場合があります(明らかに相関の欠如は線形独立性に似ているため)が、明らかに依存しています。 例としては、(標準化された)高さと高さ2は無相関だが依存しているかもしれないが、高さと高さ2を比較したい理由がわからない。22^222^2 初等確率理論または同様の目的で初心者に直観を与える目的で、無相関だが従属する確率変数の実際の例は何ですか?

1
混合効果モデルが依存関係を解決するのはなぜですか?
学生の試験の成績が、それらの学生が勉強する時間数によってどのように影響されるかに興味があるとします。この関係を調べるために、次の線形回帰を実行できます。 exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i しかし、複数の異なる学校の生徒をサンプリングすると、同じ学校の生徒は、異なる学校の生徒よりも互いに似ていると思われるかもしれません。この依存関係の問題に対処するために、多くの教科書/ Webでのアドバイスは、混合効果を実行し、ランダム効果として学校に入ることです。したがって、モデルは次のようになります。 しかし、これにより、線形回帰?exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i 12歳の子供と話しているかのように返信してください

1
ツインスタディデータによる線形混合効果モデリング
i番目の家族のj番目の兄弟から測定されたいくつかの応答変数yijyijy_{ij}があるとします。さらに、各被験者からいくつかの行動データx i jが同時に収集されました。次の線形混合効果モデルを使用して状況を分析しようとしています。jjjiiixijxijx_{ij} yij=α0+α1xij+δ1ixij+εijyij=α0+α1xij+δ1ixij+εijy_{ij} = \alpha_0 + \alpha_1 x_{ij} + \delta_{1i} x_{ij} + \varepsilon_{ij} ここで、α0α0\alpha_0とα1α1\alpha_1、それぞれ固定切片と傾きであり、 δ1iδ1i\delta_{1i}ランダム傾きであり、εijεij\varepsilon_{ij}残差です。 ランダム効果のための前提条件は、δ1iδ1i\delta_{1i}及び残留εijεij\varepsilon_{ij}(各ファミリー内の2つだけの兄弟が存在すると仮定されます) δ1i(εi1,εi2)T∼dN(0,τ2)∼dN((0,0)T,R)δ1i∼dN(0,τ2)(εi1,εi2)T∼dN((0,0)T,R)\begin{align} \delta_{1i} &\stackrel{d}{\sim} N(0, \tau^2) \\[5pt] (\varepsilon_{i1}, \varepsilon_{i2})^T &\stackrel{d}{\sim} N((0, 0)^T, R) \end{align} ここで、未知の分散パラメータであり、分散共分散構造Rは、フォームの2×2対称行列でありますτ2τ2\tau^2RRR (r21r212r212r22)(r12r122r122r22)\begin{pmatrix} r_1^2&r_{12}^2\\ r_{12}^2&r_2^2 \end{pmatrix} 2人の兄弟間の相関関係をモデル化します。 これは、そのような兄弟研究に適したモデルですか? データは少し複雑です。50の家族のうち、90%近くが二卵性(DZ)双生児です。残りの家族のために、 2人は兄弟が1人だけです。 2つには1つのDZペアと1つの兄弟があります。そして 2つには1つのDZペアと2つの追加の兄弟があります。 lmeRパッケージnlmeは、(1)不足または不均衡な状況でも簡単に処理できると考えています。私の問題は、(2)と(3)の対処方法です。私が考えることができる1つの可能性は、各サブファミリーが1つまたは2つの兄弟を持つように(2)および(3)のこれらの4つのファミリーのそれぞれを2つに分割して、上記のモデルを適用できるようにすることです。これでいいですか?もう1つの選択肢は、(2)と(3)の余分な1つまたは2つの兄弟からデータを単に破棄することです。これは無駄であると思われます。より良いアプローチはありますか? たとえば、r 2 12 = 0.5のように、残差分散共分散行列Rlmeの値を修正できるようです。相関構造を課すことは理にかなっていますか、それとも単にデータに基づいて推定する必要がありますか?rrrRRRr212r122r_{12}^2

1
長期分散とは何ですか?
時系列分析の分野での長期分散はどのように定義されますか? データに相関構造がある場合に利用されることを理解しています。したがって、確率過程はX1,X2…X1,X2…X_1, X_2 \dots iidのランダム変数のファミリーではなく、同じようにのみ分布していますか? 概念の概観とその推定に伴う困難について、標準的な参考資料を入手できますか?



5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


6
観察的(すなわち、ランダム化されていない)研究で非独立の共変量を制御することはどの程度問題がありますか?
MillerとChapman(2001)は、観察(非ランダム化)研究の独立変数と従属変数の両方に関連する非独立共変量を制御することは絶対に不適切であると主張しています-これは社会科学では日常的に行われています。そうすることはどのくらい問題がありますか?この問題に対処する最善の方法は何ですか?自分の研究の観察研究で非独立共変量を日常的に管理している場合、それをどのように正当化しますか?最後に、これは同僚と方法論を論じるときに選ぶ価値のある戦いですか(つまり、それは本当に重要ですか)? ありがとう Miller、GA、&Chapman、JP(2001)。共分散の誤解された分析。Journal of Abnormal Psychology、110、40-48。- http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.