治療の影響を受ける共変量で必要な良いデータの例
私は多くのRデータセット、DASLでの投稿、および他の場所を見てきましたが、実験データの共分散分析を説明する興味深いデータセットの良い例をあまり見つけていません。統計の教科書には、不自然なデータを含む「おもちゃ」のデータセットが多数あります。 例があります: データは本物であり、興味深いストーリーがあります 少なくとも1つの治療因子と2つの共変量があります 少なくとも1つの共変量は1つ以上の治療因子の影響を受け、1つは治療の影響を受けません。 観察的ではなく実験的、できれば バックグラウンド 私の本当の目標は、Rパッケージのビネットに入れる良い例を見つけることです。しかし、より大きな目標は、共分散分析におけるいくつかの重要な懸念を示すために、人々が良い例を見る必要があるということです。次の構成シナリオを検討してください(そして、農業に関する私の知識はせいぜい表面的なものであると理解してください)。 肥料を区画にランダム化して、作物を植える実験を行います。適切な生育期間の後、作物を収穫し、品質特性を測定します-それが応答変数です。しかし、栽培期間中の総降雨量、収穫時の土壌酸性度、そしてもちろんどの肥料が使用されたかを記録しています。したがって、2つの共変量と1つの処理があります。 結果データを分析する通常の方法は、因子としての処理と共変量の相加効果をもつ線形モデルを適合させることです。次に、結果を要約するために、平均降水量と平均土壌酸性度3での各肥料のモデルからの予測である「調整済み平均」(別名最小二乗平均)を計算します。これにより、すべてが平等になります。これらの結果を比較すると、降雨量と酸性度が一定に保たれるためです。 しかし、これはおそらく間違ったことです。肥料はおそらく土壌の酸性度と反応に影響を与えるからです。治療効果には酸性度への影響が含まれるため、調整された手段は誤解を招く可能性があります。これを処理する1つの方法は、モデルから酸性度を取り除くことです。その後、降雨量を調整した手段で公平な比較を行います。しかし、酸性度が重要な場合、この公平性は、残留変動の増加という大きな犠牲を伴います。 モデルの元の値の代わりに調整されたバージョンの酸性度を使用することにより、この問題を回避する方法があります。私のRパッケージlsmeansの今後の更新により、これは非常に簡単になります。しかし、私はそれを説明する良い例が欲しいです。いくつかの優れた実例となるデータセットを教えてくれた人に感謝し、正当に認めます。