変数を二分することの効果は何ですか？

変数を二分する場合、プロセスで失われる情報は何ですか？
二分法は分析でどのように役立ちますか？

regression data-transformation binary-data

— ミミ
ソース

GelmanとParkには、継続変数から2つではなく3つのカテゴリを作成する方法を比較した記事があります。通常は、以下で説明する理由により、変数を連続したままにしておくのが最善です。

— マイケルビショップ

回答:

失われる情報：変数によって異なります。一般に、二分することにより、ある変数と別の変数の間に直線的な効果があると断言します。たとえば、がんに関する研究で汚染物質への曝露の継続的な測定を検討します。「高」と「低」に二分すると、重要なのはこれらの2つの値だけであると断言できます。癌のリスクは高く、低いリスクはあります。しかし、リスクがしばらくの間着実に上昇し、その後、横ばいになってから再び上昇し、最終的に高い値で急上昇するとしたらどうでしょうか。そのすべてが失われます。

あなたが得るもの：それは簡単です。二分変数は、多くの場合、統計的に扱うのがはるかに簡単です。連続変数は2つの明確なグループに該当する場合-があり、それを行うには理由があり、とにかく、私は最初の場所での変数のその自然な形ない限り、二分避ける傾向にあります。とにかくフィールドが二分されて変数の二分された形式を持っている場合にも役立ちます。たとえば、多くの人が400未満のCD4細胞数がHIVの重要な閾値であると考えています。そのため、Above / Below 400には0/1変数がよくありますが、連続CD4カウント変数も保持します。これは、研究を他の人と結び付けるのに役立ちます。

私はピーターに少し反対します。連続変数をカテゴリに分割することは、多くの場合、粗い二分法よりもはるかに賢明ですが、私はむしろ分位の分類に反対しています。このような分類は、意味のある解釈をするのが非常に困難です。最初のステップは、生物学的または臨床的に十分にサポートされている分類を使用できるかどうかを確認することであり、これらのオプションを使い切ってから分位数を使用する必要があると思います。

— フォマイト
ソース

こんにちは@epigrad。分位点回帰の解釈はかなり簡単だと思います。「平均」の代わりに「XXXパーセンタイル」を使用することを除いて、通常のOLS回帰に非常に似ています。

— ピーターフロム-モニカを回復

@PeterFlom申し訳ありませんが、もっと明確にすべきでした。臨床的/生物学的証拠から構築されたカテゴリーと比較すると、臨床的/生物学的に関連する解釈として構成するのは難しいと思います。これは明らかに私の分野のフィールド固有のバイアスです。

— フォマイト

ああ、わかりました、@ epigrad、それは理にかなっています。そして、このケースを含めるために回答を編集します。

— ピーターフロム-モニカを復活

EpiGradと@PeterFlomは「分位点回帰」を異なる方法で解釈しているようです。EpiGradは、X変数を変位値で定義されたグループに分割することについて語っていますが、Peter Flomは、平均ではなく、応答の90番目の変位値のモデリングについて語っています。

— アニコ

@アニコそれも可能かもしれません。私は（おそらく間違って）Peterがデータを変位値に分類し、それを回帰モデルで使用することを意味すると思っていました。私の分野ではよくある（そして厄介な）傾向。そうではないかもしれません。

— フォマイト

二分法は、データ分析に魔法のような考え方を追加します。これはめったに良いアイデアではありません。

Royston、Altman、およびSauerbreiによる、悪い考えであるいくつかの理由に関する記事を次に示します。

私自身の考え：従属変数、たとえば出生体重2.5 kg（これは常に行われます）を二分すると、1.5 kgで生まれた赤ちゃんと2.51で生まれた赤ちゃんのように2.49 kgで生まれた赤ちゃんを治療しています3.5 kgの人と同じようにkg。これは意味がありません。

多くの場合、より適切な代替手段は分位点回帰です。最近、NESUGでこれについて書いた。その論文はこちら

上記の例外の1つは、カテゴリが実質的に動機付けられている場合です。たとえば、運転行動を扱っている場合、運転の法定年齢に基づいて分類するのが賢明です。

— ピーター・フロム-モニカの復職
ソース

ピーターは美しく言いました。分析における二分法が良い考えである状況を想像することはできません。

— フランクハレル

@Epigradと@Peterの両方の回答が気に入ってサポートしています。インターバル変数をバイナリ1にビニングすると、メトリック変数が（潜在的に）順序変数になります。バイナリ変数を使用すると、平均や分散を計算することは不適切です（一部の人々はそうしますが）。また、他のところで述べたように、一部の多変量解析は理論的または論理的に適用できません。たとえば、セントロイド/ワード階層クラスタリングまたはバイナリ変数を使用した因子分析を使用するのは正しくないと思います。

調査のクライアントは、出力で変数を二分することをしばしば強制します。なぜなら、1つの連続的な特性ではなく、少数のクラスの観点で考えるほうが簡単で、情報が霧が少なく、（誤って）かさばるからです。

ただし、二分法が必要になる場合があります。たとえば、強力な二峰性がある場合、または分析（MAMBACなど）で2つの潜在クラスの存在が示される場合。

— ttnphns
ソース

あなたの議論を理解するのに苦労しています。そして、クライアントが悪い統計業務に従事することを望んでいる場合、私たちは二度考えるべきです。注：trichotomiseは言葉ではありません。二分法=二分法（2）+ tomous（カット）なので、使用すると三分法/三分法になります。

— フランクハレル

クライアントの通過は嘆きであり、議論ではありませんでした。ギリシャ語に関しては、あなたは正しいです。私は言葉を削除しました。

— ttnphns

ありがとう。クライアントとの集中的な教育プロセスではありますが、私は可能な限り、統計的な嘆きを是正措置に変換するよう努めています。

— フランクハレル