タグ付けされた質問 「cross-section」

5
機械学習で階層/ネストされたデータを処理する方法
例で問題を説明します。いくつかの属性(年齢、性別、国、地域、都市)を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


2
長期的な変化を推測/予測するために断面データを使用するのはなぜ悪いことですか?
存在することを望んでいる論文を探していますが、存在するかどうかはわかりません。横断的データを使用して長期的な変化を推測/予測することが悪いことである可能性がある理由について、ケーススタディのセット、および/または確率論からの議論である可能性があります(つまり、必ずしもそうではないかもしれませんが)。 私はいくつかの大きな間違いがあったのを見てきました。イギリスの裕福な人々は旅行するため、社会が豊かになるにつれて、人口は全体としてより多く旅行するという推論がなされました。その推論は、10年以上の長期間にわたって真実ではないことが判明しました。そして、国内の電力使用と同様のパターン:横断的なデータは、時間とともに明らかにならない、収入の大幅な増加を意味します。 コホート効果やサプライサイドの制約など、いくつかのことが起こっています。 そのようなケーススタディをまとめた単一のリファレンスがあると非常に便利です。および/または確率理論を使用して、横断データを使用して長期的な変化を推論/予測することが非常に誤解を招く可能性がある理由を説明する そのような論文は存在しますか、ある場合、それは何ですか?

2
データセットの平均を使用して相関を向上させることはできますか?
従属変数と独立変数を持つデータセットがあります。どちらも時系列ではありません。私は120の観察結果を持っています。相関係数は0.43 この計算の後、両方の変数の列を追加し、12観測ごとの平均を示します。その結果、2つの新しい列に108観測(ペア)が追加されます。これらの列の相関係数は0.77です このようにして相関を改善したようです。これは許可されていますか?平均を使用して、独立変数の説明力を増やしましたか?

1
断面データでOLS回帰を実行する場合、残差の自己相関をテストする必要がありますか?
時間に関係なく、一連の観察結果があります。自己相関テストを実行する必要があるかどうか疑問に思っていますか?私のデータには時間コンポーネントがないので、それは意味がないように思えます。しかし、実際にシリアル相関LMテストを試したところ、残差の強い自己相関が示されました。それは意味がありますか?私が考えていることは、実際にデータセット内の観測値を可能な限り任意の順序に並べ替えることができ、これにより残差の自己相関が変化することです。だから問題は-この場合、自己相関についてまったく気にする必要がありますか?また、テストで示されている場合、Newey-Westを使用してSEを調整する必要がありますか?ありがとう!
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.