連続データからカテゴリカルへの移行は常に間違っていますか?


14

データの設定方法について読んだとき、私がよく遭遇することの1つは、いくつかの連続したデータをカテゴリデータに変換することは良い考えではないということです。しきい値が十分に決定されていない場合、間違った結論を下す可能性が非常に高いからです。

しかし、私は現在いくつかのデータ(前立腺がん患者のPSA値)を持っていますが、一般的なコンセンサスは、あなたが4歳未満の場合、おそらくそれを持っていない、あなたが上にいる場合は危険にさらされ、 10と20を超えると、おそらくそれがあります。そんな感じ。その場合、連続PSA値を0〜4、4〜10、および> 10のグループに分類することは依然として間違っていますか?または、いわばしきい値が「十分に決定」されているので、実際には大丈夫ですか。


5
(通常どおり)依存します。たとえば、医師がどのように決定を下すかを研究しており、医師がこれらのカテゴリに基づいて決定を下す場合、同じカテゴリを使用する必要があります。代わりに、PSAの上昇に関連する生物学的結果を調査している場合、PSAをまったく分類したくない可能性があります。したがって、「大丈夫ですか」という広範な質問に対する明確な答えはありません。
whuber

データをどうしようとしていますか?そのような境界は通常、あなたが理解したいものに関連していないので、手でそれらを置くことは質問を懇願していますか?
-RemcoGerlich

ロジスティック回帰モデルのデータを設定しています。したがって、主な問題は、実際には連続データのみを使用するか、代わりに個別データを使用するかです。
デンバーダン

1
「連続」データが何であるかは私には明らかではありません。それは現実に存在するものではありません。無限の精度を持つ測定/統計のようなものはありません。
ジミージェームズ

1
@BillHorvathええ、私は医者ではないので、これがどのように決定されたかは完全にはわかりません。Wikiページを見ると、1つの場所が示されています。「PSAレベル4〜10 ng / mL(ナノグラム/ミリリットル)は疑わしいと見なされ、繰り返しテストで異常なPSAを確認することを検討する必要があります。 」そして別の場所:「低リスク:PSA <10、グリーソンスコア≤6、および臨床病期≤T2a中間リスク:PSA 10-20、グリーソンスコア7、または臨床病期T2b / c高リスク:PSA> 20 、グリーソンスコア≥8、または臨床病期≥T3 "
デンバーダン

回答:


23

閾値に急激な不連続性はありますか?

たとえば、値が3.9と4.1の2人の患者AとB、および値が6.7と6.9の別の2人の患者CとDがあるとします。AとBのがんの可能性の違いは、CとDの対応する違いよりもはるかに大きいのでしょうか?

はいの場合、離散化は理にかなっています。

そうでない場合、データを理解する上でしきい値は理にかなっているかもしれませんが、統計的に意味のある意味で「十分に決定」されていません。離散化しないでください。代わりに、「そのままで」あなたのテストの点数を使用して、あなたは、非線形性のいくつかの種類、使用の疑いがある場合は

これは非常にお勧めです。


2
下部にあるそのリンクは素晴らしい点でいっぱいです。この答えの将来の読者はそれをチェックアウトする必要があります。
eric_kernfeld

提案された休憩で結果に大きなジャンプがあり、結果がそれらのグループ内で比較的均一である場合を除き、離散化は意味をなさないと思います。それ以外の場合は、関数@Stephan Kolassaの「ジャンプ」にアプローチするより良い方法があります
LSC

1

その過程で情報を失うため、標準的な答えは常に悪いと思う。自然な間隔データを取得し、それをカテゴリー化することから何かを得ることになるケースは信じられません。


適切な状況は、その特定のxとDVとの関係に真の不連続性があり、「カテゴリー」内で結果が比較的均一である場合です。
LSC
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.