統計とビッグデータ controlling-for-a-variable

5

この質問の動機付けになった記事は次のとおりです。私はこの記事が好きで、問題の2つの変数間の真の関係を最もよく分離するために、「他の変数の制御」（IQ、キャリア、収入、年齢など）の概念をうまく示しています。典型的なデータセットの変数を実際にどのように制御するか説明していただけますか？たとえば、同じ焦りとBMIを持ち、収入が異なる2人の場合、これらのデータをどのように扱いますか？それらを、同様の収入、忍耐、BMIを持つ異なるサブグループに分類しますか？しかし、最終的に制御する変数（IQ、キャリア、収入、年齢など）は数十個あります。これらの（潜在的に）100のサブグループをどのように集約しますか？実際、私はこのアプローチが間違ったツリーをbarえていると感じています。ここ数年、私が最後までやりたいと思っていたことに光を当ててくれてありがとう...！

141 regression causality confounding controlling-for-a-variable statistics-in-media

3

重回帰において「その他はすべて等しい」とはどういう意味ですか？

重回帰を行って、変数の変化について変数の平均変化を調べて、他のすべての変数を一定に保持している場合、他の変数を一定に保持しているのはどの値ですか？彼らの平均？ゼロ？値はありますか？yyyxバツx 私はそれが価値があると思う傾向があります。明確化を探しています。誰かが証拠を持っているなら、それも素晴らしいでしょう。

22 multiple-regression interpretation least-squares regression-coefficients controlling-for-a-variable

2

因子/変数をどのように「制御」しますか？

私の理解では、「コントロール」には統計上で2つの意味があります。対照群：実験では、対照群のメンバーに治療は施されていません。例：プラセボと薬物：あるグループに薬物を投与し、他のグループ（対照）には投与しません。これは「制御実験」とも呼ばれます。変数の制御：特定の独立変数の効果を分離する手法。この技術に与えられた他の名前のいくつかは、「会計」、「保持定数」、「制御」、いくつかの変数です。例：サッカー視聴調査（好きか嫌いか）では、性別がバイアスを引き起こすと考えられるため、性別の影響を取り除くことができます。つまり、男性は女性よりもそれを好む可能性があります。したがって、私の質問はポイント（2）に対するものです。2つの質問：一般的に、どのようにして変数を「制御」/「アカウント」しますか。どのようなテクニックが使用されていますか？（回帰の観点から、ANOVAフレームワーク）。上記の例では、男性と女性をランダムに選択することがコントロールを構成していますか？つまり、「ランダム」は他の効果を制御するためのテクニックの1つですか？

19 regression self-study anova experiment-design controlling-for-a-variable

3

変数の制御が不適切な場合

少なくとも1つの素朴な例を考えることができます。XとZの関係を調べたいとします。また、YがZに影響を与えるのではないかと疑って、Yを制御します。しかし、結局のところ、X Yの場合、XはYを与えられたZから独立しているため、XとZの関係を「カバー」します。さて、前の例では、勉強しなければならない関係がXとY、およびYとZの関係である場合があります。ただし、そのようなことを先験的に知っていれば、最初の場所。私がDIDで行った研究は、XとZの間に関係がないことを示唆していますが、これは事実ではありません... XとZは関連しています。これは、次の依存関係図に示されています。適切なシナリオでは、ZはXとYに依存し、XとYは独立しています。Yを正しく制御してXとZの関係を決定します。左のシナリオでは、ZはXに依存するYに依存します。XとZはYが与えられると独立します。 Y. 私の質問は基本的に「変数Yを制御するのが適切な場合とそうでない場合」です。XとYの関係を完全に調査することは困難または不可能な場合がありますオプション。調査を実施する前に、どのように決定すればよいのでしょうか？引用に感謝します。

15 mediation controlling-for-a-variable

4

勾配ブースティングマシンの精度は、反復回数が増えると低下します

caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

制御変数のグループを比較するとき、等価性のテストを使用する必要がありますか？

治療と結果を検討する多くの論文では、「グループは広く類似している」などの重要性のテストとテキストを含む迷惑変数（多くの場合、人口統計、時には病状）と呼ばれるものの表（通常は「表1」） XXXXXに大きな違いはありませんでした。表を参照してください。したがって、明確な目標は、異なる治療に割り当てられたグループが類似していることを示すことです。しかし、これは「nullを受け入れる」可能性があり、私たちがしなければならない（または行うことを要求する）ことは等価性のテストであるように思えます。これは、無作為化試験または観察研究に適用できます。ここに何かが足りませんか？

13 equivalence controlling-for-a-variable

1

回帰モデルの変数の制御と研究デザインの変数の制御の違いは何ですか？

研究デザインで変数を制御する方が、回帰モデルでその場で制御するよりも、エラーを減らすのに効果的だと思います。これら2つの「制御」のインスタンスの違いを正式に説明してもらえますか？エラーを削減し、より正確な予測を行う上で、それらはどれほど効果的ですか？

11 regression experiment-design controlling-for-a-variable

3

変数のマッチングや統計的制御などの方法間のリンクは何ですか？

研究記事では、研究者が特定の変数を制御していることがよくあります。これは、マッチング、ブロッキングなどの方法で実行できます。しかし、変数の制御は、影響を与える可能性のあるいくつかの変数を測定し、それらに対していくつかの統計分析を実行することによって統計的に行われるものであると常に思っていました。したがって、たとえば、独立変数と交絡変数を測定し、分析を行う調査やその他のテストを行うことができます。準実験で変数を制御することは可能ですか？変数のマッチングや統計的制御などの方法間のリンクは何ですか？

10 experiment-design random-variable controlling-for-a-variable

タグ付けされた質問 「controlling-for-a-variable」

タグ付けされた質問「controlling-for-a-variable」