制御変数のグループを比較するとき、等価性のテストを使用する必要がありますか?


13

治療と結果を検討する多くの論文では、「グループは広く類似している」などの重要性のテストとテキストを含む迷惑変数(多くの場合、人口統計、時には病状)と呼ばれるものの表(通常は「表1」) XXXXXに大きな違いはありませんでした。表を参照してください。したがって、明確な目標は、異なる治療に割り当てられたグループが類似していることを示すことです。

しかし、これは「nullを受け入れる」可能性があり、私たちがしなければならない(または行うことを要求する)ことは等価性のテストであるように思えます。

これは、無作為化試験または観察研究に適用できます。ここに何かが足りませんか?


1
私はあなたが「表1」に言及していると思う。あなたはRCTそれ自体について、または観察研究についても尋ねていますか?
グング-モニカの復職

@gungはい、通常は表1です。観察研究またはRCTである可能性があります。あなたのコメントを反映するために質問を編集しました。
ピーター・フロム-モニカの復職

1
明白なことを述べるリスクを冒しても:この問題に対処するいくつかの論文があります(例えばde Boer et al。(2015))。結論は、仮説検定はベースライン表では放棄されるべきだということです。臨床試験のCONSORTステートメントと観察研究のSTROBEステートメントは、ベースラインテーブルで仮説検定を避けることを推奨しています。同等性テストの方が良い場合、私は知りません。
COOLSerdash

nullをテストするか、等価性をテストするかは、動機に依存し、テーブルから引き出すことができる議論に影響します。同等性を主張することは非常に強力な条件であり、著者が人口統計などについて強力な結論を導きたい場合を除き、ほとんどの場合に必要ではないと思われます。人口統計。私はそれを検討していませんが、それがどのように見えるかについて他の意見に興味があります。
-ReneBt

回答:


10

これは、1)仮説を明確に指定すること、2)仮説効果の根底にある原因メカニズムを理解すること、および3)プレゼンテーションの選択/スタイルに関する多くの関連する問題を導入する複雑な問題です。

正しい統計的慣行を適用して、「グループ類似している」と主張する場合、等価性のテストを実行する必要があることは正しいです。ただし、同等性のテストには、NHSTの同等物と同じ問題があります。検出力は、サンプルサイズと比較の数を単に反映したものであり、違いが予想されますが、メイン分析での範囲と効果ははるかに重要です。

これらの状況に直面したとき、ベースラインの比較はほとんどの場合、レッドヘリングです。(科学と統計の)より良い方法を適用できます。このような質問に答える際に考慮するいくつかのストックの概念/応答があります。

「合計」列は、処置ごとの列よりも重要です。これらの値について議論する必要があります。

臨床試験では、通常、安全性サンプルが分析されます。これは、最初にアプローチされ、同意され、次に無作為化され、最終的に少なくとも1回の制御または治療の反復にさらされた人々のサブセットです。そのプロセスでは、さまざまな程度の参加バイアスに直面します。

おそらく、これらの研究の最も重要で省略された側面は、表1の結果を集約して提示することです。これにより、表1の最も重要な目的が達成されます。他の研究者に対して、結果が適用されるより広範な母集団に対して研究サンプルがどれほど一般化可能であるかを示します。

包含/除外基準およびサンプルの一般化可能性を完全に無視した場合、固定された調査員、読者、およびレビューアーが患者の特性内の接線方向の傾向にどのように驚くかがわかります。

私はこれを問題として見落とした裁判のアナリストだと言って恥ずかしい。患者を募集し、その後、物流上の問題により、介入を実施するまで約1年待ちました。配偶者図は、これらの期間の間に大幅な低下を示しただけでなく、サンプルがシフトしました。結果は、主に私たちが手を差し伸べようとしていた人々よりも、未雇用/失業者で、年上で、健康的でした。私はこの研究の一般化可能性について深い懸念を抱いていましたが、それらの懸念を知らせるために働きかけるのは困難でした。

ベースライン特性の不均衡を検出するテストの検出力とType-Iエラーは、特性の実際の数に依存します

前述のように、このようなベースライン変数の詳細なリストを表示するポイントは、サンプルの完全なスナップショットを提供することです。患者の病歴、研究室、薬、人口統計。これらはすべて、臨床医が患者への治療を推奨するために使用する側面です。彼らはすべて結果を予測すると信じられています。しかし、そのような要因の数は膨大です。最大30の異なる変数を比較できます。タイプIエラーの大まかなリスクは、1-(1-0.05)^ 30 = 0.79です。テストを実行する必要がある場合は、ボンフェローニまたは順列の修正をお勧めします。

最も純粋な形式の統計的テストは公平であり、事前に指定されることになっています。ただし、ベースライン特性の選択と表示は多くの場合相対的です。後者のアプローチが適切だと思います:私のトライアルのように、サンプルを効果的に説明する興味深い特徴がある場合、それらの値をアドホックに提示することを選択する自由が必要です。テストは何らかの価値がある場合に実行できますが、通常の注意事項が適用されます:それらは興味のある仮説ではなく、重要な結果と重要でない結果が意味するものについて混乱のリスクが高く、結果はより反映していますサンプルサイズとプレゼンテーションの考慮事項は真実ではありません。

再ランダム化は可能ですが、患者が治療を受ける前に限ります

前述したように、分析されるサンプルは通常、安全なサンプルです。ただし、再ランダム化は、治験薬の投与を受けていない患者に対して強く支持され、理論的に一貫したアプローチです。これは、バッチ登録が実行される設定にのみ適用されます。ここでは、100人の参加者が募集され、ランダム化されます。たとえば、確率が高い割合の高齢者を1つのグループに割り当てる場合、年齢のバランスを取るためにサンプルを再ランダム化できます。これは、ほとんどの試験が実施される設定である順次または時間差登録では行えません。これは、登録のタイミングが一般的なケースの「バイアス」によって患者の状態を予測する傾向があるためです(混乱したインシデントと一般的な資格基準)。

バランスの取れた設計は、有効な推論の要件ではありません

ランダム化の仮定では、理論的には、すべての参加者が平均して共変量の均等な分布を持つことになります。ただし、前述のように、30以上のレベルを比較する場合、不均衡の累積確率は無視できません。実際、全体を考慮すると、共変量の不均衡は無関係かもしれません。

ランダム化が公正であれば、治療群では年齢が上昇するが、対照群では喫煙が上昇する可能性があります。どちらも結果のリスクに個々に寄与します。効率的で有効な推論に必要なのは、傾向スコアがグループ間でバランスが取れていることです。これははるかに弱い状態です。残念ながら、リスクモデルなしでは、傾向のバランスを調べることはできません。ただし、そのような傾向は共変量の組み合わせに依存していること、および正確に表示することは不可能であるにもかかわらず、ランダム化されたサンプルの傾向の不均衡の可能性ははるかに低い可能性があることがわかります。

リスクモデルがわかっている場合、または結果の強力な予測因子が存在する場合、治療グループ間でバランスが取れているかどうかに関係なく、これらの要因を調整するだけで、より効率的かつ有効なRCTが行われます

私のお気に入りの論文の1つであるランダム化比較試験の7つの神話は、これについて議論しています。調整変数が結果を強く予測する場合、調整により効率が向上します。たとえばブロックされたランダム化を使用して、完全な50/50バランスでも、またはランダム化の実行方法の偶然としてでも、調整によりCIが縮小され、同等の能力を持つスタディを必要とする参加者が少なくなります。これにより、コストとリスクが削減されます。これが頻繁に行われないのは衝撃的です。

観察研究では、表1が示す内容に関係なく、交絡の制御が必要です

ランダム化の仮定により、交絡が排除されます。非ランダム化処理では、混乱が生じます。交絡因子は、結果の原因となる変数であり、準実験的治療の受け入れを予測します。どの変数が交絡因子であるかを判断するテストはありません。これらの質問に答えるためにデータを覗き込むリスクは、交絡因子が縦方向の値を完全に測定することなく、メディエーターやコライダーと事実上見分けがつかないということです(それでも...)。メディエーターの調整は効果を弱め、コライダーの調整はあらゆるタイプのバイアスを引き起こす可能性があります。さらに、交絡因子の合計セットを調整する必要はありませんが、バックドアの基準を削除する必要があります。

たとえば、青少年の肺機能と喫煙に関する研究では、年長の子供は喫煙する可能性が高くなりますが、背が高いため肺機能は大きくなります。バックドアの基準を満たすため、高さだけを調整するだけで交絡を除去できます。年齢をさらに調整すると、効率が失われます。ただし、喫煙者と非喫煙者のテーブル1の「バランス」を調べるだけでは、年齢と身長の両方が「アンバランス」であるため、コントロールする必要があります。それは間違っています。


1
私はこれに同意し、p値の問題をよく認識しています。(このサイトで見つける人はほとんどいないか、私よりもアンチp値です)。そして、私は皆、より良い方法を求めています。そのいくつかはあなたが提起しています。もちろん、一部の変数はサプレッサーになる可能性があります(そのため、変数を含めるとメインエフェクトのサイズが大きくなります)。しかし、たとえば、私が雑誌の論文をレビューしている場合、表1の同等性テストを推奨することは良いと思いますか、それともここで完全な答えを求めますか?
ピーターフロム-モニカの復職

1
@PeterFlomコンテキストが少し良くなりました。統計レビューアとして、コメントがその後の分析に関連するかどうかを検討します。関係ない場合は、役に立たないのでそのコメントを削除することをお勧めします。関連する場合は、a)より堅牢な分析アプローチを検討するか、b)感度分析を使用して、影響の可能性があるかどうかを判断することをお勧めします。共変量のバランスは、分析に影響を与える限り重要であるため、ここで注意を払うことをお勧めします。それは性向に合ったデザインではないでしょうか?
AdamO

1
@PeterFlomレビューアとして、「表1」のp値をすべて削除することを推奨するのは理にかなっていますか?
アメーバは、

1
AdamO、すばらしい回答(+1)ですが、「表1」のコンテキストでは、複数のテスト調整を「推奨」することを推奨することに少し懸念があります。ここでタイプIエラーは懸念事項ですか?この場合、実際にはタイプIIエラーの方がはるかに重要だと感じています(ベースライン変数が治療群と対照群で異なるという事実を見逃したくないでしょう)。Bonferroniを使用すると、タイプIIエラーが大幅に増加します。これは、同等性のテストに関する@Peterのポイントに関連しています。ある意味では、「同等性」の観点に切り替えると、タイプIとタイプIIは場所を交換します。
アメーバは、モニカを復活させる

1
@amoeba絶対に。このアプローチを主張する場合(推奨ではありません)、NHSTではタイプIエラーを制御する必要があります。私のポイントは、FWERを制御する必要があるということです。どの変数が不均衡であるかは気にしないからです。0.2のような寛大な値に設定できます。私はパワーが行くれる任意の等価テストを認識していないよアップこのようなテストのための正当化は、長ったらしい、主観的、かつ不正確であるので、サンプルサイズが大きくなるにつれて。
AdamO
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.