RCTのベースラインの違い:共変量として含める必要がある変数(ある場合)


8

私は最近、参加者を2つの治療グループの1つにランダムに割り当てた研究を完了しました。ベースライン、介入直後、1か月、および4か月で、やや多数の結果変数について参加者をテストしました。グループx時間の相互作用を調べるために、いくつかの混合ANOVAを実行することを計画していました。比較には、2(グループ)x 2(時間:ベースラインと介入後)の比較と、2(グループ)x 3(時間:ベースライン、1か月、4か月)の比較があります。

分析を開始する前に、2つの治療グループをすべてのベースライン変数で比較しました。グループを比較するために.05のアルファレベルを使用する場合は4つのベースライン変数、または.01のアルファレベルを使用する場合は2つのベースライン変数でグループが異なることがわかりました。

これについて2つの質問があります。

  1. ベースラインでグループを比較するには、どのアルファレベルを使用すればよいですか?私は2つのグループを24のベースライン特性で比較しているため、0.01のアルファレベルを考えていました。多数のテストが行​​われているので、家族レベルのエラー率を減らすには、0.05よりも厳しいアルファレベルを選択する必要があると思いました。実行されましたが、私のリーディングから、ほとんどの人は.05を使用しているようです。何がお勧めですか?

  2. これらの違いについてどうすればよいですか?これらの変数を共変量として含めることもできますが、サンプルサイズが非常に小さく、4つの共変量を使用するのは適切ではないようです(.05レベルで有意である場合、差異のみを受け入れる方がよい理由の1つでもあります)。

これについて何か助けていただければ幸いです!

回答:


8

Stephen Sennが書いたように、無作為化研究でベースライン分布を比較することは適切ではありません。これについて私が話したいのは、「どこでやめますか?」という質問をすることです。よく見ると、相殺する共変量が見つかります。

モデルを選択するための基礎は、事後の違いではなく、どの変数が応答変数の重要な予測子である可能性が高いかに関するアプリオリな主題知識です。応答変数のベースラインバージョンは確かに支配的な予測子ですが、他にも重要であると思われるものがあります。目標は、結果の説明可能な異質性を説明して、精度とパワーを最大化することです。モデルの定式化における統計的有意性検定の役割はほとんどありません。

事前に指定されたモデルは、重要な変数(結果を予測する変数)の確率の違いに対応します。


ご回答ありがとうございます。複数のt検定に基づいて互いに異なるベースライン変数は、一部の結果変数のベースラインレベルです(たとえば、ベースラインのうつ病スコアは異なり、1か月と4か月のうつ病は結果の尺度の1つです)。
レイチェル

3

通常、ベースラインで2つのグループを比較する際に注意する必要があるのは、差異の統計的有意性ではなく、差異のサイズです。これらの差異のいずれかが、調査に影響を与えるのに十分な大きさですか?研究の焦点であるグループ比較と変数関係に影響を与えるのに十分な大きさですか?それを調整する(共変量として使用することにより)必要な大きさですか?

さて、あなたのケースは少し興味深いです、ランダムな割り当てでも、.05レベルで有意差を示す24の変数のうち4つがあります(予想される5%ではなく17%)。これは、ランダム化プロセスや研究の他の側面に関係しているように思えるかもしれません。しかし理論的には、無作為化が完全に行われ、その後どちらのグループでも消耗がなかった場合、24!/(4!(24-4)!)に基づいて、この極端な結果が2.4%の確率で発生するはずです。 .05 ^ 4)(.95 ^(24-4))。結局のところ、それは本当にそれほど珍しいことではありません。あなたが持っているのは、ランダムな違いのセットかもしれません。違いの大きさに基づいて判断することに固執します。


2
多様性についての優れた点。違いの評価に関しては、大きな違いを探すことは、小さなP値を探すことと非常に高い相関があると思います。私もお勧めしません。
フランクハレル

これらの違いのいずれかが研究にとって問題になるほど大きく、それを調整する(共変量として使用する)必要があるほど大きいかどうかは、どうすればわかりますか?ベースラインでの4つの差それぞれの効果サイズ(コーエンのdを使用)は、それぞれ0.78、0.64、1.06、および0.89です。
レイチェル

2
できないしできない。事後調整ではなく、適切なモデルを前もって策定することを検討してください。
フランクハレル

わかりました。混合モデル設計を使用するのではなく、別の方法で結果を分析する必要がありますか?それとも、違いを説明するだけで十分ですか?
レイチェル

3
私の唯一の考えは、対象のエキスパートに、見つけた違いについてエキスパートに知らせずに、応答変数の重要な予測子が何であるかを尋ね、これらの予測子を調整することです。
フランクハレル

2

+1から@FrankHarrell。もう1つ小さな点を追加します。参加者をランダムにグループに割り当てた場合、介入前の共変量値の「有意な」差異は、必ずタイプIエラーになります。


1
うまく言えば、あなたのコメントは、母集団推論のベースライン差分検定の対象を正確に指定することの難しさを指摘しています。
フランクハレル

2
@gung-こんにちは!この観点についてはどうですか:RCTでは、2つのグループがすべてです。もちろん、それらは同じ母集団に由来します。タイプIなどのエラーを起こす母集団は2つありません。したがって、統計的有意性は無関係ですが、大きな差異は問題になる可能性があり、共変量を使用した調整が必要になる可能性があります。
rolando2 2012年

2
私は最初の部分が好きですが、最後の部分は見た目よりも複雑で、大規模な応答の不均一性の説明を調整できない場合、事後調整によってバイアスが生じる可能性があります。さらに、データは、調整する共変量のセットを示すことができません。
フランクハレル

@ rolando2、それについて私が考える方法は次のとおりです。あなたの母集団は、サンプルが抽出された母集団です。「治療」はあなたのランダムな割り当て手順です。&応答変数は、チェックしている共変量です。t検定は、ランダム割り当て手順が共変量の平均値に関連付けられているかどうかを確認します。ここで、割り当て手順に欠陥がある場合、結果の共変量値と関連付けられることは完全に合理的ですが、それが本当にランダムである場合、定義上、それは不可能であり、したがってすべての「重要な」発見はタイプIエラーです。
gung-モニカの復活

2
とにかく、ベースラインで結果変数を調整しています。それが標準です。次に、ランダム化手順が有効であり、したがって有効な推論を提供することを信頼しています。割り当て手順に欠陥があり、結果として得られる推論が無効であると思われる場合は、新しいサンプルを収集し、真にランダムな手順で参加者を治療グループに割り当て、結論に自信を持つことができます。研究を再実行します。
gung-モニカの復活
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.