Cox回帰予測モデルのサンプルサイズと交差検証法

コミュニティに提起したい質問があります。最近、腫瘍マーカーの予後研究のために統計分析を提供するように依頼されました。私は主にこれら2つの参照を使用して、私の分析を導きました。

McShane LM、他腫瘍マーカー予後研究に関する推奨事項の報告（注釈）。J Natl Cancer Inst。2005年8月17日。97（16）：1180-4。
サイモンRMなど高次元データに基づく生存リスク分類子の予測精度を評価するための交差検証の使用。簡単なバイオインフォーム。2011年5月; 12（3）：203-14。Epub 2011 2月15日。

以下の研究と分析をまとめました。コメント、提案、または批判をいただければ幸いです。

研究の背景：

がんXの一部の患者は、治療後早期に再発します。現在医師が使用している臨床予後スコアは、これらの患者の臨床転帰を予測する上で十分な役割を果たしていません。したがって、この標準スコア以上の価値を追加する生物学的予後マーカーを特定することは有用です。この研究の目的は、そのようなバイオマーカーを発見することです。

調査方法：

候補バイオマーカーの事前選択

がんXに関連する12のバイオマーカーが以前の研究で特定された。以下に示すように、患者/腫瘍の独立したサンプルで、これらの12の候補と癌Xの関連を検証しようとしました。

事前選択された候補バイオマーカーの単変量検証

これらのバイオマーカーのレベルは、220人の患者/腫瘍のセットで測定されました。

[注：データをマスクして、*。csvファイルとして公開ダウンロードできるようにしました。ファイルには次の列があります。「ID」、各患者の一意の識別子。「PS」は各患者の予後スコアで、1は予後良好を示し、2は予後不良を示します。「m1」〜「m12」、各腫瘍マーカーのレベル。「時間」、月単位。「イベント」。0は監視が中止されたことを示し、1は治療失敗が発生したことを示す。

従属変数としての死亡までの時間を含む単変量Cox回帰モデルは、12のバイオマーカーのそれぞれについて作成されました（n = 220の観測値、イベントの数= 91）。

    Risk  LCI  UCI pValue
1   0.93 0.86 1.02 0.1088
2   0.93 0.88 0.99 0.0215
3   0.99 0.92 1.05 0.6528
4   0.93 0.87 1.00 0.0468
5   0.93 0.88 0.98 0.0055
6   0.97 0.92 1.01 0.1202
7   0.91 0.83 0.99 0.0297
8   0.98 0.90 1.07 0.6972
9   0.99 0.92 1.06 0.7841
10  1.01 0.91 1.11 0.9149
11  0.96 0.87 1.05 0.3837
12  0.90 0.83 0.97 0.0047

0.05 / 12 = 0.004のしきい値p値を使用すると、有意な結果はありませんでした。

多変数分析

10倍の交差検証を使用して、12のバイオマーカーすべてを一度に段階的Cox回帰アルゴリズムに入力することにより、モデルをデータに適合させることが決定されました。10の異なるトレーニングセットで10のモデルを作成した後、時間依存のROC曲線を作成して、「高」と「低」の2つの患者グループを特定するための最適なカットオフポイントを選択できるようにしました。「1-TP + FP」を最小化するカットポイントが選択されました。次に、これらの10個のモデルに、検証グループの対応する患者について予測を行うよう依頼しました。次に、これらの患者を「高」および「低」リスクグループに分類し、単一の交差検証済みカプランマイヤー曲線にプロットしました。

結論

高リスク曲線と低リスク曲線の信頼区間は大幅に重なり、識別されたバイオマーカーは有用な予後マーカーではなかったことを示唆しています。したがって、私たちの研究では、これらのマーカーと患者の予後との間の有意な単変量または多変量の関連は確認されていません。

コミュニティへの質問

データを正しい方法で分析しましたか？

もしあなたがこの研究の統計学者であったなら、あなたは何か違うことをしたでしょうか？

検証分析を実行する前に、含めるサンプル数と検出可能な効果サイズを決定するためのサンプルサイズと検出力の計算は実行されませんでした。これらの分析を今行って、将来の研究の指針にしたいと思います。誰かがこれを行う方法を教えてもらえますか？

私が本当に興味を持っているのは、これらのバイオマーカーが臨床予後スコア以上の予測情報を提供するかどうかです。私が理解していることから、これには3つの異なるモデルを作成する必要があります：（1）臨床共変量のみのモデル、（2）バイオマーカー共変量のみのバイオマーカーモデル、および（3）両方のタイプの共変量に基づくバイオマーカー/臨床モデル。これまでのところ、モデル1（上記には示されていません。サンプルでは高リスク患者と低リスク患者を区別できませんでした）と2（上記に示されています）を作成しました。1と2は重要ではなかったので、私はモデル3を作成しませんでした。どうすればいいですか？

分析上の懸念についての追加のコメントは大歓迎です！お気軽にマスクデータをダウンロードしてご覧ください。

— アレクサンダー
ソース

あなたは問題をうまく説明し、いくつかの方法でうまく設定しました。「予後スコア」の定義は明確ではありませんでしたが、2レベルのスコアが臨床的に役立つとは考えられません。それらを選択するとき、専門家の意見に基づいて、関連する利用可能なすべての臨床変数を調整することが重要です。ここにいくつかの改善の機会があります：

10分割交差検証は不安定であり、適切な精度を得るには100回繰り返す必要があります（または400リサンプルでEfron-Gong楽観ブートストラップを使用します。これらは両方ともR rmsパッケージで利用可能です）
信号をROCカーブによって駆動される「良い」と「悪い」に分割することは一般的な手法ですが、優れた統計的原理に基づいていませんでした。その塩の価値があるバイオマーカーは、用量反応関係を持っている必要があり、2つの非常に恣意的なグループへの分割は不必要であり、誤解を招きやすく、情報と電力を失う。
ROCカーブには、このコンテキストではまったく何も提供されません。
バイオマーカーのカットポイントを選択することは、統計的な災害です。特に、各マーカーのカットポイントは患者の他のすべてのマーカー値の絶対値に依存するため、カットポイントが有用である場合、それらは共変量端ではなくバックエンドにのみ存在する可能性があることを数学的に認識できません。
ペナルティなしの段階的回帰は信頼できません。セットアップでは、すべてのマーカーを1つのモデルに入れず、尤度比テストを行って、臨床変数に追加する値をテストする理由はありません。 $\chi^2$
5.の良い代替案は、バイオマーカーを結果に関連付ける前に、バイオマーカーの冗長分析または変数クラスタリングを行って、その数を減らすことです。
サンプルサイズが大きい場合は、回帰スプラインを使用してすべての変数を非線形にモデルに入力できます。時折、1つのバイオマーカーを滑らかにし、非線形にすることで、線形性を強制するよりもその値が2倍になります。
最適なスコアリングルールである対数尤度（ペナルティ付き尤度はさらに優れています）がその役割を果たします。不適切な精度のスコアリングルールに時間を費やさないでください。
私の本のRegression Modeling Strategiesで説明されているように、バイオマーカーの有用性を説明するために、対数尤度に基づく「妥当性指標」の使用を検討してください。

— フランク・ハレル
ソース