治療の影響を受ける共変量で必要な良いデータの例


19

私は多くのRデータセット、DASLでの投稿、および他の場所を見てきましたが、実験データの共分散分析を説明する興味深いデータセットの良い例をあまり見つけていません。統計の教科書には、不自然なデータを含む「おもちゃ」のデータセットが多数あります。

例があります:

  • データは本物であり、興味深いストーリーがあります
  • 少なくとも1つの治療因子と2つの共変量があります
  • 少なくとも1つの共変量は1つ以上の治療因子の影響を受け、1つは治療の影響を受けません。
  • 観察的ではなく実験的、できれば

バックグラウンド

私の本当の目標は、Rパッケージのビネットに入れる良い例を見つけることです。しかし、より大きな目標は、共分散分析におけるいくつかの重要な懸念を示すために、人々が良い例を見る必要があるということです。次の構成シナリオを検討してください(そして、農業に関する私の知識はせいぜい表面的なものであると理解してください)。

  • 肥料を区画にランダム化して、作物を植える実験を行います。適切な生育期間の後、作物を収穫し、品質特性を測定します-それが応答変数です。しかし、栽培期間中の総降雨量、収穫時の土壌酸性度、そしてもちろんどの肥料が使用されたかを記録しています。したがって、2つの共変量と1つの処理があります。

結果データを分析する通常の方法は、因子としての処理と共変量の相加効果をもつ線形モデルを適合させることです。次に、結果を要約するために、平均降水量と平均土壌酸性度3での各肥料のモデルからの予測である「調整済み平均」(別名最小二乗平均)を計算します。これにより、すべてが平等になります。これらの結果を比較すると、降雨量と酸性度が一定に保たれるためです。

しかし、これはおそらく間違ったことです。肥料はおそらく土壌の酸性度と反応に影響を与えるからです。治療効果には酸性度への影響が含まれるため、調整された手段は誤解を招く可能性があります。これを処理する1つの方法は、モデルから酸性度を取り除くことです。その後、降雨量を調整した手段で公平な比較を行います。しかし、酸性度が重要な場合、この公平性は、残留変動の増加という大きな犠牲を伴います。

モデルの元の値の代わりに調整されたバージョンの酸性度を使用することにより、この問題を回避する方法があります。私のRパッケージlsmeansの今後の更新により、これは非常に簡単になります。しかし、私はそれを説明する良い例が欲しいです。いくつかの優れた実例となるデータセットを教えてくれた人に感謝し、正当に認めます。


1
これは間違いなく重要で興味深い問題でもあるが、それは何に関する規則のファウル落ちる可能性があるかのように思える話題に「:特定のデータセットの取得についての質問は、(彼らはあまりにも特化されます) -トピックオフになっている。
Glen_b -Reinstateをモニカ14


1
私のこれまでの回答の印象は、このような他の質問にそれを支持してしっかりと裁定することによって空白のチェックを与えることに慎重であるが、私たちは主にこの特定の質問に賛成しており、あなたが得るかもしれない種類の答え(多分それは私だけです)。私たちが望んでいないだろうと、悪い点を証明することでデータセットを頼むこの質問の模造書かれているとの統計ではなくに関する統計情報を表示します。すなわち、それは統計的な原理を実証して助けを求めるために一つのことだが、それは、ドメイン固有のデータセットを求めるために、別のだろう...
ニックStauner

3
いいアイデアのようですね。私は...私の評判を下げるために、過去にはるかに悪い事をやった
RVL

2
@SteveS賞金の良い候補だと思う。実際、私はここに来て自分1つ付けましたが、ラスがすでにそうしていたことを発見しただけです。1週間で良い答えがなければ、私はそれに2番目の報奨金を置くことを検討するかもしれません。ラス:興味深い質問に対する報奨金は十分な注意を引く傾向があり、その後の賛成票はしばしばとにかくほとんど彼らにお金を払うので、評判の損失はしばしば一見したようにそれほど急ではありません。
Glen_b-モニカの復活2014

回答:


6

mediationRパッケージをチェックアウトすることをお勧めします。治療変数が応答変数と共変量(すなわち、治療効果のメディエーター)の両方に影響するような実験データjobsframing、治療の影響を受けない共変量が含まれます。

あなたが調停研究を正確に説明したにもかかわらず、作物の品質に対する肥料の影響は土壌の酸性度への影響によって媒介されるため、私は調停の文献を調べました。mediationパッケージ内のデータセットが満足できない場合でも、調停に関する文献を調べると、見つかるかもしれません。


ありがとう。パッケージをインストールし、調べます。そして、何か新しいことを学ぶ機会です。
rvl 14

興味深いのは、私が参加したばかりのJSMセッションの3つの講演のうち2つでジョブデータが言及されたことです
...-rvl

1
まあ、私は何らかの形で賞金を分割できることを望みます。しかし、このパッケージには、私が尋ねたものに非常に適した準備の整ったデータセットが含まれているので、@ MasatoNakazawaが恩恵を受けます。本当にありがとう。framingデータを使用すると、媒介変数が固定されている場合のLSmeans(ロジスティックモデルに基づく)の交互作用プロットは、治療や他の共変量によって予測される値に設定されたものとは劇的に異なり、したがって、媒介を取ることの重要性を示しますアカウントに変数。
RVL 14

1
レン博士、ありがとうございます。実際、論文であなたの記事を引用しました。私はあなたのような定評のある統計学者の助けになれたことを光栄に思います。
中澤正人14

4

メディエーションパッケージのデータセットの1つで分析がどのように行われるかを示すと思いました。ではframing被験者は移民に関する議会にメッセージを送信する機会を持っているところ、実験が行われています。ただし、一部の被験者(treat=1)は、ラテン系の人を否定的に描いたニュース記事を最初に見せられました。バイナリ応答(メッセージを送信したかどうか)empに加えて、治療が適用された後の被験者の感情状態も測定しました。さまざまな人口統計変数もあります。

まず、必要なパッケージをRにロードし、ラベルeducを短い文字列に変更しましょう。

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

ロジスティック回帰モデルに適合

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

ここで予測が共変量で作られている従来の調整手段の表示でありageincome及びemoそれらの平均値に設定は:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(応答スケールに変換された従来の「調整済み平均」の相互作用プロット)

これは奇妙な結果です。なぜなら、表示された治療効果は女性と男性では逆であり、教育の効果は予想されるような単調ではないからです。

ただし、h emoは、治療後の測定値です。これは、治療がそれに影響を与えた可能性があることを意味しemoます。つまり、媒介共変量です。したがって、応答変数の予測値をemo一定に保持しながら比較することは意味がない場合があります。代わりに、emo与えられた予測値treatと人口統計変数に設定されている予測を見てみましょう。

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(媒介効果を考慮した予測の相互作用プロット)

この結果はかなり異なっており、それemoが強力な仲介の役割を果たしていることを示唆しています。(調停パッケージには、これらの効果の強さを推定する機能があります。)上記の予測は、感情的な反応を考慮すると、ネガティブなニュースにさらされた男性の被験者は、女性やメッセージを見ていない人よりもメッセージを送信する可能性が高いことを示唆していますネガティブなニュース。また、の効果educは(ほぼ)単調です。

@MasatoNakagawaに、この興味深い例を紹介し、因果関係に関する最近の研究に同調してくれてありがとう。


3

遺伝子環境相互作用GWAS研究を調べてください。彼らが本質的に実行する統計分析は、あなたが説明したものです。問題は、あなたの環境が表現型にとって重要であるかどうかです(観察可能な機能)。一般に、ある学派はすべての環境情報を無視し、遺伝子構造が表現型を説明すると言います。これは、ストーリーが環境であり、遺伝子を無視しているという生態学的研究とは完全に対照的です。両方の当事者が同じ問題を理解しようとしているため、この2つを合体させる最近の試みがありました。

BMIを勉強しているとします。遺伝子による固定効果として、遺伝マトリックスの最初のいくつかの主要なコンポーネントを使用します。教育は、固定効果として、教育水準が1で、教育水準が低い場合は0の指数に適合します。教育指数と、その人が住んでいるコミュニティの富との間には、かなり強い相関関係があります。そのため、低所得のコミュニティはより多くのファーストフードレストランを持つ可能性が高いと主張するでしょう。ファーストフードは肥満誘発性のトリガーとして機能します。「遺伝子セットアップで何かをトリガーして脂肪の蓄積を促進します」ので、何らかの形で遺伝子構造に現れます。

そのようなデータのシミュレーションは問題ではありません。見上げる

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

これにより、症状の原因となるGWAS(遺伝単位と考えてください)データをシミュレートできます。特に指示がない場合は、症状と1000のコントロールで1000を生成します。私が使用しているこれらのシミュレーションの標準は、9990 SNPが症状を引き起こさないのに対し、10 SNPはそうです。これらがどのようにシミュレートされるかの指示を読んでください。

出力は、人が肥満の場合は1、そうでない場合は0になります。肥満レベルとの合理的な相関関係に基づいて、教育要素(大学教育の終了/大学教育の終了ではない)をシミュレートします。

お役に立てれば!!!


ありがとう。しかし、実際のデータをまだ保持しています...さらに、GWASスタディが何であるかわかりません。DUH、リンクをたどって見つけたばかりです。
rvl 14

私は別の回答者に賞金を与えましたが、私はこの提案に感謝し、それに従うことを意図しています。ありがとう。
RVL 14

1

Freakonomicsを読み、彼らの研究が基づいている論文を見つけ、そのデータを入手できるかどうかを確認することをお勧めします。彼らは非常に興味深いデータセットでいくつかの非常に興味深い研究を行っており、場合によっては、データの制限にもかかわらず仮説をテストする非常に巧妙な方法を見つけ出します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.