回答:
失われる情報:変数によって異なります。一般に、二分することにより、ある変数と別の変数の間に直線的な効果があると断言します。たとえば、がんに関する研究で汚染物質への曝露の継続的な測定を検討します。「高」と「低」に二分すると、重要なのはこれらの2つの値だけであると断言できます。癌のリスクは高く、低いリスクはあります。しかし、リスクがしばらくの間着実に上昇し、その後、横ばいになってから再び上昇し、最終的に高い値で急上昇するとしたらどうでしょうか。そのすべてが失われます。
あなたが得るもの:それは簡単です。二分変数は、多くの場合、統計的に扱うのがはるかに簡単です。連続変数は2つの明確なグループに該当する場合-があり、それを行うには理由があり、とにかく、私は最初の場所での変数のその自然な形ない限り、二分避ける傾向にあります。とにかくフィールドが二分されて変数の二分された形式を持っている場合にも役立ちます。たとえば、多くの人が400未満のCD4細胞数がHIVの重要な閾値であると考えています。そのため、Above / Below 400には0/1変数がよくありますが、連続CD4カウント変数も保持します。これは、研究を他の人と結び付けるのに役立ちます。
私はピーターに少し反対します。連続変数をカテゴリに分割することは、多くの場合、粗い二分法よりもはるかに賢明ですが、私はむしろ分位の分類に反対しています。このような分類は、意味のある解釈をするのが非常に困難です。最初のステップは、生物学的または臨床的に十分にサポートされている分類を使用できるかどうかを確認することであり、これらのオプションを使い切ってから分位数を使用する必要があると思います。
二分法は、データ分析に魔法のような考え方を追加します。これはめったに良いアイデアではありません。
Royston、Altman、およびSauerbreiによる、悪い考えであるいくつかの理由に関する記事を次に示します。
私自身の考え:従属変数、たとえば出生体重2.5 kg(これは常に行われます)を二分すると、1.5 kgで生まれた赤ちゃんと2.51で生まれた赤ちゃんのように2.49 kgで生まれた赤ちゃんを治療しています3.5 kgの人と同じようにkg。これは意味がありません。
多くの場合、より適切な代替手段は分位点回帰です。最近、NESUGでこれについて書いた。その論文はこちら
上記の例外の1つは、カテゴリが実質的に動機付けられている場合です。たとえば、運転行動を扱っている場合、運転の法定年齢に基づいて分類するのが賢明です。
@Epigradと@Peterの両方の回答が気に入ってサポートしています。インターバル変数をバイナリ1にビニングすると、メトリック変数が(潜在的に)順序変数になります。バイナリ変数を使用すると、平均や分散を計算することは不適切です(一部の人々はそうしますが)。また、他のところで述べたように、一部の多変量解析は理論的または論理的に適用できません。たとえば、セントロイド/ワード階層クラスタリングまたはバイナリ変数を使用した因子分析を使用するのは正しくないと思います。
調査のクライアントは、出力で変数を二分することをしばしば強制します。なぜなら、1つの連続的な特性ではなく、少数のクラスの観点で考えるほうが簡単で、情報が霧が少なく、(誤って)かさばるからです。
ただし、二分法が必要になる場合があります。たとえば、強力な二峰性がある場合、または分析(MAMBACなど)で2つの潜在クラスの存在が示される場合。