これは、1)仮説を明確に指定すること、2)仮説効果の根底にある原因メカニズムを理解すること、および3)プレゼンテーションの選択/スタイルに関する多くの関連する問題を導入する複雑な問題です。
正しい統計的慣行を適用して、「グループが類似している」と主張する場合、等価性のテストを実行する必要があることは正しいです。ただし、同等性のテストには、NHSTの同等物と同じ問題があります。検出力は、サンプルサイズと比較の数を単に反映したものであり、違いが予想されますが、メイン分析での範囲と効果ははるかに重要です。
これらの状況に直面したとき、ベースラインの比較はほとんどの場合、レッドヘリングです。(科学と統計の)より良い方法を適用できます。このような質問に答える際に考慮するいくつかのストックの概念/応答があります。
「合計」列は、処置ごとの列よりも重要です。これらの値について議論する必要があります。
臨床試験では、通常、安全性サンプルが分析されます。これは、最初にアプローチされ、同意され、次に無作為化され、最終的に少なくとも1回の制御または治療の反復にさらされた人々のサブセットです。そのプロセスでは、さまざまな程度の参加バイアスに直面します。
おそらく、これらの研究の最も重要で省略された側面は、表1の結果を集約して提示することです。これにより、表1の最も重要な目的が達成されます。他の研究者に対して、結果が適用されるより広範な母集団に対して研究サンプルがどれほど一般化可能であるかを示します。
包含/除外基準およびサンプルの一般化可能性を完全に無視した場合、固定された調査員、読者、およびレビューアーが患者の特性内の接線方向の傾向にどのように驚くかがわかります。
私はこれを問題として見落とした裁判のアナリストだと言って恥ずかしい。患者を募集し、その後、物流上の問題により、介入を実施するまで約1年待ちました。配偶者図は、これらの期間の間に大幅な低下を示しただけでなく、サンプルがシフトしました。結果は、主に私たちが手を差し伸べようとしていた人々よりも、未雇用/失業者で、年上で、健康的でした。私はこの研究の一般化可能性について深い懸念を抱いていましたが、それらの懸念を知らせるために働きかけるのは困難でした。
ベースライン特性の不均衡を検出するテストの検出力とType-Iエラーは、特性の実際の数に依存します
前述のように、このようなベースライン変数の詳細なリストを表示するポイントは、サンプルの完全なスナップショットを提供することです。患者の病歴、研究室、薬、人口統計。これらはすべて、臨床医が患者への治療を推奨するために使用する側面です。彼らはすべて結果を予測すると信じられています。しかし、そのような要因の数は膨大です。最大30の異なる変数を比較できます。タイプIエラーの大まかなリスクは、1-(1-0.05)^ 30 = 0.79です。テストを実行する必要がある場合は、ボンフェローニまたは順列の修正をお勧めします。
最も純粋な形式の統計的テストは公平であり、事前に指定されることになっています。ただし、ベースライン特性の選択と表示は多くの場合相対的です。後者のアプローチが適切だと思います:私のトライアルのように、サンプルを効果的に説明する興味深い特徴がある場合、それらの値をアドホックに提示することを選択する自由が必要です。テストは何らかの価値がある場合に実行できますが、通常の注意事項が適用されます:それらは興味のある仮説ではなく、重要な結果と重要でない結果が意味するものについて混乱のリスクが高く、結果はより反映していますサンプルサイズとプレゼンテーションの考慮事項は真実ではありません。
再ランダム化は可能ですが、患者が治療を受ける前に限ります
前述したように、分析されるサンプルは通常、安全なサンプルです。ただし、再ランダム化は、治験薬の投与を受けていない患者に対して強く支持され、理論的に一貫したアプローチです。これは、バッチ登録が実行される設定にのみ適用されます。ここでは、100人の参加者が募集され、ランダム化されます。たとえば、確率が高い割合の高齢者を1つのグループに割り当てる場合、年齢のバランスを取るためにサンプルを再ランダム化できます。これは、ほとんどの試験が実施される設定である順次または時間差登録では行えません。これは、登録のタイミングが一般的なケースの「バイアス」によって患者の状態を予測する傾向があるためです(混乱したインシデントと一般的な資格基準)。
バランスの取れた設計は、有効な推論の要件ではありません
ランダム化の仮定では、理論的には、すべての参加者が平均して共変量の均等な分布を持つことになります。ただし、前述のように、30以上のレベルを比較する場合、不均衡の累積確率は無視できません。実際、全体を考慮すると、共変量の不均衡は無関係かもしれません。
ランダム化が公正であれば、治療群では年齢が上昇するが、対照群では喫煙が上昇する可能性があります。どちらも結果のリスクに個々に寄与します。効率的で有効な推論に必要なのは、傾向スコアがグループ間でバランスが取れていることです。これははるかに弱い状態です。残念ながら、リスクモデルなしでは、傾向のバランスを調べることはできません。ただし、そのような傾向は共変量の組み合わせに依存していること、および正確に表示することは不可能であるにもかかわらず、ランダム化されたサンプルの傾向の不均衡の可能性ははるかに低い可能性があることがわかります。
リスクモデルがわかっている場合、または結果の強力な予測因子が存在する場合、治療グループ間でバランスが取れているかどうかに関係なく、これらの要因を調整するだけで、より効率的かつ有効なRCTが行われます
私のお気に入りの論文の1つであるランダム化比較試験の7つの神話は、これについて議論しています。調整変数が結果を強く予測する場合、調整により効率が向上します。たとえばブロックされたランダム化を使用して、完全な50/50バランスでも、またはランダム化の実行方法の偶然としてでも、調整によりCIが縮小され、同等の能力を持つスタディを必要とする参加者が少なくなります。これにより、コストとリスクが削減されます。これが頻繁に行われないのは衝撃的です。
観察研究では、表1が示す内容に関係なく、交絡の制御が必要です
ランダム化の仮定により、交絡が排除されます。非ランダム化処理では、混乱が生じます。交絡因子は、結果の原因となる変数であり、準実験的治療の受け入れを予測します。どの変数が交絡因子であるかを判断するテストはありません。これらの質問に答えるためにデータを覗き込むリスクは、交絡因子が縦方向の値を完全に測定することなく、メディエーターやコライダーと事実上見分けがつかないということです(それでも...)。メディエーターの調整は効果を弱め、コライダーの調整はあらゆるタイプのバイアスを引き起こす可能性があります。さらに、交絡因子の合計セットを調整する必要はありませんが、バックドアの基準を削除する必要があります。
たとえば、青少年の肺機能と喫煙に関する研究では、年長の子供は喫煙する可能性が高くなりますが、背が高いため肺機能は大きくなります。バックドアの基準を満たすため、高さだけを調整するだけで交絡を除去できます。年齢をさらに調整すると、効率が失われます。ただし、喫煙者と非喫煙者のテーブル1の「バランス」を調べるだけでは、年齢と身長の両方が「アンバランス」であるため、コントロールする必要があります。それは間違っています。