統計とビッグデータ confounding

5

この質問の動機付けになった記事は次のとおりです。私はこの記事が好きで、問題の2つの変数間の真の関係を最もよく分離するために、「他の変数の制御」（IQ、キャリア、収入、年齢など）の概念をうまく示しています。典型的なデータセットの変数を実際にどのように制御するか説明していただけますか？たとえば、同じ焦りとBMIを持ち、収入が異なる2人の場合、これらのデータをどのように扱いますか？それらを、同様の収入、忍耐、BMIを持つ異なるサブグループに分類しますか？しかし、最終的に制御する変数（IQ、キャリア、収入、年齢など）は数十個あります。これらの（潜在的に）100のサブグループをどのように集約しますか？実際、私はこのアプローチが間違ったツリーをbarえていると感じています。ここ数年、私が最後までやりたいと思っていたことに光を当ててくれてありがとう...！

141 regression causality confounding controlling-for-a-variable statistics-in-media

15

2016年の米国選挙結果：予測モデルで何が問題になったのですか？

最初はBrexitで、現在は米国の選挙です。多くのモデル予測は大きく外れていましたが、ここで学ぶべき教訓はありますか？昨日午後4時（PST）になっても、ベッティングマーケットはヒラリー4対1を好んでいました。私は、実際のお金が出回っている賭け市場は、利用可能なすべての予測モデルのアンサンブルとして機能するはずだと考えています。そのため、これらのモデルが非常に良い仕事をしなかったと言うのは決して大げさではありません。 1つの説明は、有権者が自分自身をトランプ支持者として特定したがらないということでした。モデルにそのような効果をどのように組み込むことができますか？私が読んだマクロの説明の1つはポピュリズムの上昇です。問題は、統計モデルがそのようなマクロトレンドをどのようにキャプチャできるかということです。これらの予測モデルは世論調査や感情からのデータを重視しすぎており、100年の展望で国が立っている場所からは十分ではありませんか？友達のコメントを引用しています。

108 predictive-models ensemble confounding

3

どの病院を選択すべきですか？1つは成功率が高いが、もう1つは全体的な成功率が高い

統計の先生が次の問題について言ったことについて質問があります。私の質問は、この状況でのシンプソンのパラドックスの発生についてでさえありません。私の質問は、A）とF）ではなくA）とD）が正しい答えであるという私の教授の主張についてです。彼は言った：「タイプE手術の成功率は非常に低いため、それらは困難であり、珍しいことではないと結論付けることができます。したがって、MercyはHopeと比較してより良い機器/医師を持っていると思われます。」私は、マーシーが「より困難な手術」を行っていることを彼がどのように統計的に推測できるのか理解していない。マーシーは、タイプEの手術で明らかに成功率が高いのですが、なぜこれが「より困難な手術」を意味するのでしょうか。私はこの問題の言葉遣いにうんざりしていると思いますが、教授は困惑していません。なぜ私が間違っているのか、どのようにこれを教授に説明できるのかを誰かが説明できますか？町にはMercyとHopeという2つの病院があります。操作を行うには、これらのいずれかを選択する必要があります。手術チームの成功に基づいて決定を下すことにします。幸いなことに、新しい医療計画の下で、病院は手術の成功に関するデータを提供し、5つの広範な手術カテゴリーに分類されています。2つの病院について次のデータを取得するとします。 Mercy Hospital Type A B C D E All Operations 359 1836 299 2086 149 4729 Successful 292 1449 179 434 13 2366 Hope Hospital Type A B C D E All Operations 88 514 222 86 45 955 Successful 70 391 113 12 2 588 …

27 self-study confounding simpsons-paradox

3

「関連するすべての予測変数」を含める必要が本当にありますか？

推論に回帰モデルを使用する基本的な前提は、「すべての関連する予測子」が予測式に含まれていることです。理論的根拠は、重要な現実世界の要因を含めないと、係数に偏りが生じ、そのため不正確な推論（つまり、変数バイアスの省略）につながるということです。しかし、研究の実践では、「関連するすべての予測子」に似たものを含む人を見たことはありません。多くの現象には無数の重要な原因があり、それらすべてを含めることは不可能ではないにしても非常に困難です。すぐに使える例は、結果としてうつ病をモデル化することです：「関連するすべての変数」を含むモデルに近いものは誰も作成していません：例えば、親の歴史、性格特性、ソーシャルサポート、収入、それらの相互作用など。等... さらに、そのような複雑なモデルのフィッティングは、非常に大きなサンプルサイズがない限り、非常に不安定な推定値につながります。私の質問は非常に簡単です。「関連するすべての予測変数を含める」という仮定/アドバイスは、単に「言う」が、実際には決して意味のないものですか。そうでない場合、なぜ実際のモデリングのアドバイスとしてそれを与えるのですか？そして、これはほとんどの係数がおそらく誤解を招くことを意味しますか？（たとえば、いくつかの予測因子のみを使用する人格要因とうつ病に関する研究）。言い換えれば、これは私たちの科学の結論にとってどれほど大きな問題なのでしょうか？

15 regression assumptions bias predictor confounding

1

交絡因子-定義

M. Katzの著書「多変量解析」（6ページのセクション1.2）で、「交絡因子はリスク要因に関連し、結果に因果関係があります。」なぜ交絡因子は結果に因果関係があるのでしょうか？交絡因子が結果に関連付けられれば十分ですか？

14 causality definition confounding

1

比率を分析するための手法

比率とレートの分析に関するアドバイスとコメントを探しています。私が仕事をしている分野では、特に比率の分析が広まっていますが、これが問題になる可能性があることを示唆するいくつかの論文を読みました。 Kronmal、Richard A.1993。スプリアス相関と比率標準の誤りを再検討。Journal of the Royal Statistical SocietyシリーズA 156（3）：379-392 および関連論文。私がこれまでに読んだことから、比率は偽の相関を生成し、原点を通る回帰直線を強制し（これは常に適切ではない）、それらをモデリングすると正しく行われないと限界の原則に違反する可能性があります（リチャード・ゴールドスタインによる比率の使用））。ただし、比率の使用が正当化される機会がなければならず、このトピックに関して統計学者からの意見が必要でした。

13 modeling multiple-regression generalized-linear-model interaction confounding

4

傾向スコアのマッチングが因果推論に役立つのはなぜですか？

傾向スコアマッチングは、観察研究で因果推論を行うために使用されます（Rosenbaum / Rubinの論文を参照）。それが機能する理由の背後にある単純な直感は何ですか？言い換えれば、治療に参加する確率が2つのグループで等しくなるようにすると、交絡の影響がなくなり、その結果を使用して治療の因果関係を判断できるのはなぜですか。

13 causality regression-strategies propensity-scores confounding

3

実験計画の潜在的な混乱

質問の概要警告：この質問には多くの設定が必要です。どうか我慢してください。私と私の同僚は、実験計画に取り組んでいます。このデザインは、以下にリストする多数の制約を回避する必要があります。制約を満たし、関心のある効果の公平な推定値を提供する設計を開発しました。しかし、私の同僚は、設計に混乱があると考えています。この点については、解決に至らずに吐き気を催しているので、この点については外部の意見をお願いします。この研究の目標、私たちの制約、潜在的な混乱、およびこの「混乱」が問題ではないと私が考える理由を以下に説明します。各セクションを読むときに、私の全体的な質問に留意してください。私が説明するデザインには混乱がありますか？ [この実験の詳細は変更されましたが、私の質問をするために必要な必須要素は同じままです] 実験目標白人男性によって書かれたエッセイが、白人女性、黒人男性、または黒人女性によって書かれたエッセイよりも有利に評価されるかどうかを判断したいと思います（エッセイ著者変数）。また、高品質または低品質の助成金（品質変数）で見つかったバイアスがより多く現れるかどうかを判断したいと考えています。最後に、12の異なるトピック（トピック変数）について書かれたエッセイを含めたいと思います。ただし、実質的に重要なのは最初の2つの変数のみです。トピックは論文ごとに異なる必要がありますが、トピックごとに評価がどのように異なるかに実質的に関心はありません。制約参加者の数と収集できるエッセイの数には制限があります。その結果、オーサーシップは参加者間で完全に操作することも、エッセイ間で完全に操作することもできません（つまり、各エッセイは複数の条件に割り当てられなければなりません）。各エッセイには白人男性、白人女性、黒人男性、黒人女性のバージョンがありますが、各エッセイは高品質と低品質のいずれかで、1つのトピックのみになります。または、この制約を別の方法で言えば、エッセイ内で品質やトピックを操作することはできません。これらは特定のエッセイに固有の特性であるためです。疲労のため、特定の参加者が評価できるエッセイの数には制限があります。特定の人が読むエッセイはすべて、単一のトピックに関するものでなければなりません。言い換えると、各参加者が同様のトピックのエッセイのみを読むようにする必要があるため、エッセイを完全にランダムに参加者に割り当てることはできません。エッセイの多くは黒人または女性の著者によって書かれているため、実験の目的について参加者に疑わせたくないので、各参加者は、白人ではない男性著者によって執筆されたと思われるエッセイを1つしか表示できません。提案された設計私の提案する設計では、最初に各エッセイを4つの異なる著者バージョン（白人男性、白人女性など）に操作します。同様のトピックの4つのエッセイを使用して「セット」を定義します。各セットは、2つの高品質のエッセイと2つの低品質のエッセイで構成されます。各参加者は、下の図に示すように、所定のセットから3つのエッセイを受け取ります。各参加者は、自分が割り当てられた3つのエッセイのそれぞれに単一の評価を提供します。潜在的な交絡私の同僚は、上記の設計には混乱が含まれると考えています。問題は、高品質のエッセイが白人ではない男性作家による執筆に割り当てられた場合、常に1つの高品質のエッセイと1つの低品質のエッセイとペアになることです（エッセイ1については、参加者1-3を参照してください図で）。一方、同じエッセイが白人男性作家による執筆に割り当てられている場合、1つの高品質のエッセイと1つの低品質のエッセイが3回（エッセイ1、参加者4-6の場合）、2つの低品質のエッセイ3回（エッセイ1、参加者7-9の場合）。低品質のエッセイにも同様の問題があります。低品質のエッセイに白人以外の男性著者がいる場合、常に低品質のエッセイと高品質のエッセイが表示されます（エッセイ3については、参加者7-9を参照）。ただし、同じエッセイに白人男性著者がいる場合、1つの高品質のエッセイと1つの低品質のエッセイで3回（エッセイ3、参加者10-12）、2つの高品質のエッセイで3回（エッセイ3、参加者1-3）。上記のパターンが問題になる可能性があるのは、「コントラスト効果」の存在を仮定した場合です。具体的には、高品質のエッセイが1つの低品質のエッセイと1つの高品質のエッセイ（合理的な仮定）とペアリングされる場合よりも、2つの低品質のエッセイとペアリングされる場合の平均でより好意的に評価される場合、白人男性のエッセイは、著者以外の理由による白人女性、黒人男性、および黒人女性のエッセイ。高品質のエッセイのコントラスト効果は、低品質のエッセイのコントラスト効果によってバランスがとれる場合とされない場合があります。つまり、2つの高品質のエッセイと対になった低品質のエッセイが特に不利に評価される場合とそうでない場合があります。とにかく、私の同僚の主張では、あらゆる種類のコントラスト効果の可能性により、白人男性によって書かれたエッセイが他の著者のエッセイよりも好意的に評価されるかどうかを判断するために、このデザインに問題が生じます。潜在的な交絡が問題ではないと思う理由私にとって重要なのは、コントラスト効果が存在する場合でも、白人男性のエッセイが他のエッセイとは異なる評価の程度を推定できるかどうか（つまり、興味のある効果を推定できるかどうか）です。そのため、コントラスト効果を含む50個のデータセットをシミュレートし、対象の効果をテストするモデルに適合するシミュレーションを実施しました。特定のモデルは、エッセイ（各エッセイが複数の参加者によって評価される）および参加者（各参加者が複数のエッセイを評価する）のランダムインターセプトを含む混合効果モデルです。エッセイレベルには、人種、性別、およびそれらの相互作用のランダムな勾配が含まれ（両方の変数はエッセイ内で操作されます）、参加者レベルには品質のランダムな勾配が含まれます（参加者内で品質が操作されます）。関心のある効果は、人種、性別、人種と性別の間の相互作用、およびこれらの変数と品質のそれぞれの間の高次相互作用の効果です。このシミュレーションの目的は、データにコントラスト効果を導入すると、人種、性別、人種と性別の相互作用、これらの変数と品質の間の高次の相互作用。詳細については、以下のコードチャンクを参照してください。シミュレーションによると、コントラスト効果の存在は、関心のある効果の推定値にバイアスをかけません。さらに、コントラスト効果のサイズは、設計の他の効果と同じ統計モデルで推定できます。私にとって、これはすでに、私の同僚によって特定された「コントラスト効果」が混乱ではないことを示唆しています。しかし、私の同僚は懐疑的なままです。 require(lme4) require(plyr) participant <- rep(1:12, 3) essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9)) quality <- ifelse(essay == 1 | essay == 2, …

12 mixed-model experiment-design simulation confounding

3

制御された実験で潜んでいる変数のどのような例が出版物にありますか？

本論文で：潜む変数：いくつかの例ブライアンL.ジョイナーアメリカ統計学者Vol。35、No。4、1981年11月227-233 ブライアン・ジョイナーは、「ランダム化は万能薬ではない」と主張しています。これは、以下のような一般的なステートメントとは対照的です。適切に設計された実験には、独立変数と従属変数の間の観測された関係の説明として、研究者が無関係な変数を排除できる設計機能が含まれています。これらの無関係な変数は潜伏変数と呼ばれます。引用はこの質問から取られたものであり、出典はありませんが、私の経験では、それは一般的な態度を表しています：潜む変数と影響力のある観察の例与えられた1つの例は、70年代のげっ歯類に対する赤色＃40食用色素の安全性（特に発がん）をテストしたときに、ケージの位置の影響が研究を混乱させることがわかったということです。現在、私はげっ歯類の発がんについて研究している多くの雑誌の記事を読んだことがあり、この影響を制御していると報告している人を見たことがありません。これらの研究の詳細については、こちらをご覧ください。規制プロセスにおける統計のケーススタディ：FD＆C Red No. 40実験。ペイウォールされていないバージョンは見つかりませんでしたが、ここに抜粋があります： 1月の会議で、私たちは予備的な分析（14）を発表しました。これは、ケージ列とRE（細網内皮腫瘍）の死亡率との強い相関を示し、17％（下列）から32％（上列）（表2）。この強い関連性を性別、投与量グループ、ラックカラムまたは位置で説明することはできませんでした。その後の分析（18）では、ケージの位置（前と後）が非RE死亡率と相関している可能性があり、その位置が非RE死亡までの時間と相関していることが示されました。私は特に医学文献の複製にこのような問題があるように思われることに特に関心がありますが、あらゆる分野の例を歓迎します。観察研究ではなく、無作為化対照実験の例に興味があることに注意してください。

11 confounding random-allocation

2

ルービンの因果モデルにおける混乱のなさ-レイマンの説明

ルービンの因果モデルを実装する場合、私たちが必要とする（テストできない）仮定の1つは、混乱しないことです。つまり、（Y（0 ）、Y（1 ））⊥ T| バツ(Y(0),Y(1))⊥T|X(Y(0),Y(1))\perp T|X LHSが反事実である場合、Tは治療であり、Xは私たちが制御する共変量です。ルービン因果モデルについてあまり知らない人に、これをどのように説明するのかと思います。理論的にはこの仮定が必要な理由は理解していますが、なぜこれが重要なのかは概念的にはわかりません。具体的には、Tが治療である場合、潜在的な結果は治療に大きく依存するのではないでしょうか。同様に、無作為化比較試験がある場合、自動的にます。なぜこれが成り立つのですか？（Y（0 ）、Y（1 ））⊥ T(Y(0),Y(1))⊥T(Y(0),Y(1))\perp T RCMを研究していない誰かに、無制限/無視可能性の仮定をどのように説明しますか？

11 causality treatment-effect confounding

2

効果修飾子と交絡因子の両方として機能する変数を持つことは可能ですか？

特定のリスクと結果の関連のペアに対して、効果（測定）修飾子と交絡因子の両方として機能する変数を持つことは可能ですか？私はまだ区別が少しわかりません。私は違いを理解するのを助けるためにグラフィカルな表記法を見てきましたが、表記法の違いは当惑しています。両者のグラフィック/視覚的な説明と、それらが重複する可能性がある場合は、役立つでしょう。

10 interaction causality confounding

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

2

バイアスと交絡変数のオーバーマッチング

私が理解しているように、マッチングは観察研究で因果関係を特定する1つの方法です。「類似」している観察を照合し、治療を受けたまたは受けなかった観察を比較することにより、これを一種の準実験と見なすことができます。オーバーマッチングとは何ですか？それはどのようなバイアスをもたらしますか？私は主に経済学の観点からマッチングを見てきたが、最近、「オーバーマッチング」がバイアスにつながる可能性があることを示唆する疫学に関するいくつかの論文を見た。論文の用語を理解するのは難しいと思います。誰かが主要な概念のいくつかを説明してくれると助かります。以下はアイデアを参照する記事です：オーバーマッチングはバイアスを引き起こす可能性があります。BMJ。2002 8月10日。325（7359）

8 epidemiology bias confounding matching

1

ウィルコクソン順位和検定の実行中に変数を制御するにはどうすればよいですか？

ウィルコクソン順位和検定を行って、2つのグループの変数分布に違いがあるかどうかを調べました。テスト結果は、違いが存在することを示しました。X1X1X_1 しかし、この違いを引き起こしている交絡変数があるのではないかと思います。X2X2X_2 をどのように制御できますか？X2X2X_2 シナリオ例：ジョーは、男性と女性のリスニング能力に違いがあるかどうかを知りたいと考えています。ジョーは、「年齢」は彼の研究において交絡変数である可能性があると考えています。彼は「年齢」をコントロールしたいと思っています。ジョーが実行できるノンパラメトリックテストはありますか？

7 nonparametric wilcoxon-mann-whitney confounding

タグ付けされた質問 「confounding」

タグ付けされた質問「confounding」