タグ付けされた質問 「multilevel-analysis」

階層のいくつかのレベルで構成されるデータセットの統計分析(例:学校に入れ子にされたクラスに入れ子になった生徒、または階層的な予測)。混合モデルに関する質問については、[mixed-model]タグを使用してください。ネストされたランダム効果には、[nested-data]を使用します。

1
クロスランダム効果とネストランダム効果:lme4でどのように違い、どのように正しく指定されていますか?
ネストされたランダム効果とクロスされたランダム効果を理解した方法は次のとおりです。 ネストされたランダム効果は、下位レベルの要因が上位レベルの要因の特定のレベル内にのみ現れる場合に発生します。 たとえば、ある時点でのクラス内の生徒。 ではlme4、私たちは2つの等価のいずれかの方法で、ネストされたデータのランダム効果を表すことを考えました: (1|class/pupil) # or (1|class) + (1|class:pupil) 交差ランダム効果とは、特定の因子が上位レベル因子の複数のレベルに現れることを意味します。 たとえば、数年にわたって測定されたクラス内に生徒がいます。 ではlme4、次のように記述します。 (1|class) + (1|pupil) ただし、特定のネストされたデータセットを見ると、両方のモデル式で同じ結果が得られていることに気付きました(以下のコードと出力)。ただし、2つの式が異なる結果を生成する他のデータセットを見てきました。ここで何が起こっているのでしょうか? mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ (1 | schoolid) …

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

8
どのような条件下で、マルチレベル/階層分析を使用する必要がありますか?
より基本的な分析や従来の分析(ANOVA、OLS回帰など)とは対照的に、マルチレベル分析や階層分析の使用を検討すべき条件はどれですか?これが必須と見なされる状況はありますか?マルチレベル/階層分析の使用が不適切な状況はありますか?最後に、初心者がマルチレベル/階層分析を学ぶのに役立つリソースは何ですか?


2
「ディープラーニング」とマルチレベル/階層モデリングの違いは何ですか?
「ディープラーニング」は、マルチレベル/階層モデリングの単なる別の用語ですか? 前者よりも後者の方がはるかに精通していますが、主な違いは定義にあるのではなく、アプリケーションドメイン内での使用方法と評価方法にあります。 典型的な「深層学習」アプリケーションのノードの数は多く、一般的な階層形式を使用するように見えますが、マルチレベルモデリングのアプリケーションは、通常、モデル化される生成プロセスを模倣する階層関係を使用します。適用された統計(階層モデリング)ドメインで一般的な階層を使用することは、現象の「誤った」モデルと見なされますが、ドメイン固有の階層をモデル化することは、一般的な深層学習機械を作成する目的を覆すと見なされる場合があります。 これらの2つのことは、実際には2つの異なる名前の2つの異なる方法で使用される同じ機械ですか?

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
「独立した観測」とはどういう意味ですか?
私は、独立した観測の仮定が意味するものを理解しようとしています。いくつかの定義は次のとおりです。 「2つのイベントは、場合にのみ独立しています。」(統計用語辞書)P(a∩b)=P(a)∗P(b)P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) 「あるイベントが発生しても、別のイベントの確率は変わりません」(ウィキペディア)。 「1つの観測値のサンプリングは、2番目の観測値の選択に影響しません」(David M. Lane)。 しばしば与えられる従属的な観察の例は、以下のように教師内にネストされた学生です。教師は生徒に影響を与えますが、生徒はお互いに影響を与えないと仮定しましょう。 では、これらのデータの定義はどのように違反されますか?[student = 1]のサンプリング[grade = 7]は、次にサンプリングされるグレードの確率分布に影響しません。(または、もしそうなら、観測1は次の観測に関して何を予測しますか?) gender 代わりに 測定した場合、観測はなぜ独立しているのteacher_idでしょうか?同じように観測に影響しませんか? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
ニュースの方程式:マルチレベルモデルを一般ユーザーに翻訳する
New York Timesは、ニューヨーク市の教育者にフィードバックを提供するために使用されている「付加価値」教師評価システムについて長いコメントを持っています。ledeは、スコアの計算に使用される方程式です-コンテキストなしで表示されます。修辞的な戦略は、数学による脅迫のようです。 記事の全文は、http://www.nytimes.com/2011/03/07/education/07winerip.htmlで入手できます。 著者のMichael Wineripは、方程式の意味は、マット・デイモン以外の誰もが理解できる能力を超えていると主張している。 「Ms. Isaacsonの3.69予測スコアの計算はさらに困難です。32の変数に基づいています。これは、学生が「プレテスト年前に成績を保持した」か、学生が「プレテストまたはポストテスト年。" これらの32個の変数は、「グッドウィルハンティング」ではマットデイモンだけが解くことができる方程式の1つに見える統計モデルにプラグインされます。 このプロセスは透明に見えますが、教師、校長、ジャーナリストなどの賢い人々にとっても泥だらけです。 アイザックソン氏は2つのアイビーリーグの学位を持っているかもしれませんが、彼女は失われています。「これを理解するのは不可能だと思う」と彼女は言った。 平易な英語で、Ms。Isaacsonは、学科が彼女に何を伝えようとしているのかを最もよく推測しています。66人の学生のうち65人が州のテストで得点しましたが、彼女の3人は4人でした。 しかし、それは推測に過ぎません。」 素人にモデルをどのように説明しますか?参考までに、完全な技術レポートは次の場所にあります。 http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf 更新:Andrew Gelmanはここで彼の考えを提供しています:http : //www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

2
なぜ弱いと考え分散に先立って?
バックグラウンド 最も一般的に使用される分散の弱い事前分布の1つは、パラメーターの逆ガンマです(Gelman 2006)。α=0.001,β=0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 ただし、この分布の90%CIは約です。[3×1019,∞][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf このことから、は分散が非常に高くなる可能性が低く、分散が1未満になる非常に低い確率であると解釈します。P (σ &lt; 1 | α = 0.001 、β = 0.001 )= 0.006IG(0.001,0.001)IG(0.001,0.001)IG(0.001, 0.001)P(σ&lt; 1 | α = 0.001 、β= 0.001 )= 0.006P(σ&lt;1|α=0.001、β=0.001)=0.006P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006 pigamma(1, 0.001, 0.001) [1] 0.006312353 質問 私は何かを見逃していますか、これは実際に有益な事前ですか? 明確にするために更新しますが、この「情報」を検討していた理由は、分散が非常に強く、これまでに測定されたほとんどすべての分散のスケールをはるかに超えると主張しているためです。 フォローアップ分散推定値の多数のメタアナリシスでは、より合理的な前を提供するだろうか? 参照 …

2
階層モデルのフィッシャー情報
次の階層モデル、 および、 ここで、は正規分布です。与えられたの周辺分布のフィッシャー情報の正確な式を取得する方法はあり。つまり、次のフィッシャー情報は何ですか: 与えられた の周辺分布の式を取得できます。しかし、wrtを区別してから期待値を取ることは非常に難しいようです。明らかな何かが欠けていますか?任意の助けをいただければ幸いです。バツ〜N(μ 、1 )、バツ〜N(μ、1)、 X \sim {\mathcal N}(\mu,1), μ 〜L P L A C E(0 、C)μ〜Laplace(0、c) \mu \sim {\rm Laplace}(0, c) N(⋅ 、⋅ )N(⋅、⋅)\mathcal{N}(\cdot,\cdot)バツバツXcccp (x | c )= ∫p(x | μ )p (μ | c )dμp(バツ|c)=∫p(バツ|μ)p(μ|c)dμ p(x | c) = \int p(x|\mu) p(\mu|c) d\mu バツバツXcccccc

4
平均の信頼区間を計算する方法は?
実験を3回繰り返すと想像してください。各実験では、3つの測定値を収集します。3つの実験的手段の違いと比較して、3つはかなり近い傾向があります。総平均の計算は非常に簡単です。しかし、どうすれば大平均の信頼区間を計算できますか? サンプルデータ: 実験1:34、41、39 実験2:45、51、52 実験3:29、31、35 各実験の平均値がそうであるように、実験内の複製値はガウス分布に従うと仮定します。実験内の変動のSDは、実験的手段間のSDよりも小さくなっています。また、各実験で3つの値の順序付けがないと仮定します。各行の3つの値の左から右への順序は完全に任意です。 簡単なアプローチは、最初に各実験の平均を計算することです:38.0、49.3、および31.7、次にこれらの3つの値の平均とその95%信頼区間を計算します。この方法を使用すると、総平均は39.7で、95%の信頼区間は17.4から61.9の範囲です。 このアプローチの問題は、3つの複製の間の変動を完全に無視することです。そのバリエーションを説明する良い方法がないのだろうか。

1
クラスタ化された標準エラーとマルチレベルモデリング
私はいくつかの本(Raudenbush&Bryk、Snijders&Bosker、Gelman&Hillなど)といくつかの記事(Gelman、Jusko、Primo&Jacobsmeierなど)をざっと読みましたが、まだ頭をかき回していませんクラスター化された標準エラーの使用とマルチレベルモデリングの主な違い。 私は手元にある研究の質問に関係する部分を理解しています。マルチレベルモデリングからしか得られない特定のタイプの回答があります。ただし、たとえば、関心のある係数が2番目のレベルにのみある2レベルモデルの場合、1つの方法を他の方法よりも行う利点は何ですか?この場合、クラスターの予測や個々の係数の抽出について心配する必要はありません。 私が見つけた主な違いは、クラスターのサンプルサイズが等しくない場合にクラスター化された標準誤差が発生し、ランダム係数分布の仕様を前提とするマルチレベルモデリングが弱いことです(クラスター化された標準誤差の使用はモデルフリーです) 。 そして最終的に、これはすべて、表面上どちらかの方法を使用できるモデルについて、係数と標準誤差の点で同様の結果を得る必要があることを意味しますか? 回答や役立つ資料をいただければ幸いです。

5
マルチレベル構造方程式モデリングのためのRパッケージ?
すべての変数がグループ内にネストされた個々の観測値であるマルチステージパスモデル(AはBを予測し、BはCを予測し、CはDを予測します)をテストします。これまで、Rでの複数のユニークなマルチレベル分析を通じてこれを行ってきました。 SEMのような手法を使用して、複数のパスを同時にテストし(A-&gt; B-&gt; C-&gt; D)、2レベル(グループ内の個人)を適切に処理することをお勧めします。 MPLUSがこれを処理できることを理解しています。使用できるRパッケージはありますか?

3
クラスターSEを使用する場合と固定効果を使用する場合
あなたは、個人がグループ内に配置されているデータの単一断面(学校内などの生徒を)持っていて、フォームのモデルを推定したいと仮定し、個々のレベル特性とのベクトルである定数を。Y_i = a + B*X_iXa この場合、観測されていないグループ間不均一B性が、対象の独立変数と相関しているため、ポイント推定値とそのSEにバイアスをかけていると仮定します。 1つのオプションは、グループ(学校)によってSEをクラスター化することです。もう1つは、グループFEを含めることです。別の方法は両方を使用することです。これらのオプションを選択する際に考慮すべきことは何ですか?グループごとにSEをクラスタ化し、グループFEを使用する理由は特に不明です。私の特定のケースでは、35のグループと、各グループ内にネストされた5,000人の個人がいます。このpdfの説明に従いましたが、クラスター化されたSEと固定効果の両方を使用する理由と時期についてはあまり明確ではありません。 (マルチレベルモデルに適合することを提案する代わりに、クラスター化されたSEとFEの長所と短所について議論してください。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.