連続予測変数を分割することの利点は何ですか?


78

モデルで使用する前に、連続予測変数を取得してそれを分割(たとえば、五分位数に分割)することの価値は何かと思っています。

変数をビニングすると情報が失われるように思えます。

  • これは、非線形効果をモデル化できるからですか?
  • 変数を連続的に保ち、それが実際に直線関係ではなかった場合、データに最適な何らかの曲線を考え出す必要がありますか?

12
1)いいえ。ビンニングによって情報が失われるのは正しいことです。可能な場合は避けてください。2)一般に、データの背後にある理論と一致する曲線関数が優先されます。
-O_Devinyak

8
メリットについては知りませんが、広く認識され
Glen_b

2
それに対する不本意な議論:臨床解釈と結果の提示を単純化することができます-例えば。血圧は多くの場合二次予測因子であり、臨床医は低血圧、正常血圧、高血圧のカットオフの使用をサポートでき、これらの広範なグループの比較に関心があるかもしれません。
user20650

4
@ user20650:私はあなたを理解したとは確信していませんが、できる限り最高のモデルに適合させ、そのモデルの予測を使用して、幅広いグループについて言いたいことを言いたいと思いませんか?私の研究の「高血圧グループ」は、必ずしも一般集団と同じ圧力分布を持っているとは限らないため、結果は一般化されません。
スコルチ

7
単純化された臨床解釈はThe気楼です。分類された連続変数からの効果推定値には、既知の解釈がありません。
フランクハレル

回答:


64

あなたは両方の点で正しいです。フランク・ハレルのページを参照してくださいここに連続変数をビニングでの問題の長いリストのため。いくつかのビンを使用すると、予測子の多くの情報が破棄されます。多くを使用する場合は、滑らかではないが直線的な関係にウィグルを収め、多くの自由度を使い切る傾向があります。一般に、予測子に多項式()またはスプライン(滑らかに結合する区分的多項式)を使用することをお勧めします。ビニングは、カットポイントでの反応の不連続性(何かが沸騰する温度や運転の法定年齢など)が予想される場合、および反応がそれらの間でフラットな場合にのみ、本当に良いアイデアです。x+x2+

値?—まあ、それはそれについて考えることなく曲率を考慮するための迅速で簡単な方法です、そして、モデルはあなたがそれを使用しているもののために十分であるかもしれません。予測子の数と比較して大量のデータがある場合、すべての予測子が多数のカテゴリに分割されている場合に適切に機能する傾向があります。この場合、各予測バンド内で応答の範囲は小さく、平均応答が正確に決定されます。

[コメントに応じて編集:

連続変数のフィールド内で使用される標準的なカットオフがある場合があります。たとえば、医学では血圧測定は低、中、高に分類されます。モデルを提示または適用するときに、このようなカットオフを使用する多くの理由があります。特に、決定ルールは多くの場合、モデルに入る情報よりも少ない情報に基づいているため、簡単に適用できる必要がある場合があります。しかし、これらのカットオフは、モデルを近似するときに予測子をビニングするのに適しているとは限りません。

血圧によって継続的に変化する反応があるとします。高血圧グループを研究の予測因子として定義する場合、推定している効果は、そのグループの個人の特定の血圧に対する平均応答です。それはだではありません特別な対策を講じない限り、一般集団の高血圧の人々、または別の研究の高血圧グループの人々の平均応答の推定値。私が想像するように、一般集団の血圧の分布がわかっている場合、血圧が連続変数。粗ビニングは、モデルをほぼ一般化できるようにします。

一般に、カットオフ間の応答の動作について質問がある場合は、最初にできる限り最適なモデルを適合させ、それを使用して回答します。

[プレゼンテーションに関して。これはニシンだと思います。

(1)プレゼンテーションの容易さは、不適切なモデリングの決定を正当化するものではありません。(そして、ビニングが良いモデリング決定である場合、追加の正当化を必要としません。)確かにこれは自明です。提示するのが難しいため、重要な相互作用をモデルから取り除くことを推奨する人はいません。

(2)どのような種類のモデルを適合させても、解釈に役立つと思われる場合は、カテゴリの観点からその結果を提示できます。でも...

(3)上記の理由により、誤解を助長しないように注意する必要があります。

(4)非線形応答を提示することは実際には難しくありません。個人的な意見、明らかに、そして聴衆は異なります。しかし、フィットした応答値と予測値のグラフが、曲線であるという理由だけで困惑することはありません。相互作用、ロジット、ランダム効果、多重共線性、…—これらはすべて説明がはるかに困難です。]

[@Rolandが提起した追加のポイントは、予測変数の測定の正確さです。彼は、分類が特に正確でない場合に分類が適切であると示唆しています。常識は、あなたがそれらをさらに正確に再統計することによって問題を改善しないことを示唆するかもしれません、そして常識は正しいでしょう:MacCallum et al(2002)、 "On the Practice on Quantitative Variables"、Psychological Methods7、 1、pp17–19。]


6
広範な問題に関する優れたコメント。ここで徹底的に定量的思考を宣伝することが重要です。例えば、あるレベルの災害より上、あるレベルの快適さより下など、閾値を超えることはすでに強調されすぎています。
ニックコックス

14
医師が使用するカットオフの検証を示すよう、誰にでも挑戦します。
フランクハレル

このビニングアプローチには他の分野でもいくつかの利点があることに注意してください-車両の向きなどのマルチモーダル分布を予測するための大きなニューラルネットと組み合わせると、特に人気があります。たとえば、arxiv.org / abs / 1612.00496を参照してください。
N. McA。

11

私が尋ねてから学んだこの答えの一部は、ビニングではなく、ビニングが2つのわずかに異なる質問に答えようとしていることです - データの増分変化は何ですか?そして、最低と最高の違いは何ですか?

ビニングではなく「これはデータに見られる傾向の定量化」であり、ビニングでは「これは増分ごとにどれだけ変化するかを示す十分な情報がありませんが、上部と下部は異なると言えます」 。


5

臨床医として、答えはあなたが何をしたいかに依存すると思います。最適な適合または最適な調整を行いたい場合は、連続変数と二乗変数を使用できます。

統計を重視しないオーディエンスの複雑な関連性を説明し、伝えたい場合は、カテゴリ変数を使用する方が適切です。最後の小数部にわずかに偏った結果を与える可能性があることを受け入れます。非線形の関連付けを示すために、少なくとも3つのカテゴリを使用することを好みます。別の方法は、特定のポイントでグラフと予測結果を生成することです。次に、興味深い連続共変量ごとに一連のグラフを作成する必要があります。偏見が強すぎることを恐れている場合は、両方のモデルをテストして、違いが重要かどうかを確認できると思います。あなたは実用的かつ現実的である必要があります。

多くの臨床状況では、計算は正確なデータに基づいていないことに気付くと思います。たとえば、大人に薬を処方するとき、とにかくキロあたりの正確なmgでそれをしません(手術と治療の選択とのたとえ)単なるナンセンスです)。


1
なぜアナロジーはまったくナンセンスなのですか?連続変数を分類しても、モデルが著しく悪化することはありませんか?または、著しく悪いモデルを使用しても実際的な結果が得られないためですか?
スコルチ

9
それは単に@Rolandの場合ではありません。カットオフから得られる推定値は、人々が推定値の推定値を理解していないため、単純です。それは、彼らが科学的な量、つまりサンプルや実験の外で意味を持つ量を推定しないからです。たとえば、超高値または超低値の患者をデータセットに追加すると、高:低オッズ比または平均差が増加します。また、カットオフの使用は、生物学が不連続であることを意味しますが、そうではありません。
フランクハレル

@Scortchi説明が簡単なため(実際に?)医学的治療から外科的治療に変更することは、年齢を説明変数として身長に置き換えるようなものです。
ローランド

二分された変数を避けることに同意します。臨床医学は、最後の小数が重要である岩石科学ではありません。モデルでは、年齢と年齢のカテゴリを連続変数および2乗変数として使用すると、結果の最後の10進数でのみ変化しますが、関連付けの理解と伝達性が大幅に向上します。
ローランド

4

以前のポスターで述べたように、一般的に連続変数を二分することは避けるのが最善です。ただし、質問に対する答えとして、連続変数を二分することが利点をもたらす場合があります。

たとえば、特定の変数に母集団のかなりの割合の欠損値が含まれているが、高度に予測可能であることがわかっており、欠損値自体に予測値が含まれている場合。たとえば、クレジットスコアリングモデルで変数を考えてみましょう。たとえば、平均回転クレジットバランス(これは、技術的には連続ではありませんが、この場合、そのように扱われるのに十分近い正規分布を反映しています)特定のターゲット市場での応募者プールの約20%の欠損値。この場合、この変数の欠損値は明確なクラスを表します。これらのクラスは、オープンで回転可能なクレジットラインを持っていません。これらの顧客は、例えば、利用可能な回転信用枠を持っているが、定期的に残高を持たない顧客と比較して、まったく異なる行動を示します。

二分法の別の利点:係数をゆがめる重要な異常値の影響を緩和するために使用できますが、処理する必要がある現実的なケースを表します。外れ値の結果が、最も近いパーセンタイルの他の値と大きく変わらないが、限界精度を達成するのに十分なパラメーターを歪める場合、同様の効果を示す値でそれらをグループ化することが有益な場合があります。

分布は自然にクラスのセットに自然に役立つ場合があります。その場合、二分法は実際に連続関数よりも高い精度を提供します。

また、前述したように、聴衆によっては、プレゼンテーションのしやすさが損失の正確さを上回る場合があります。例としてクレジットスコアリングを再び使用するために、実際には、高度な規制は時々離散化の実際的なケースを作ります。精度が高いほど貸し手は損失を削減できますが、実務家は、規制当局(数千ページのモデル文書を要求する場合があります)およびクレジットを拒否された場合は法的に資格がある消費者がモデルを容易に理解する必要があることも考慮する必要があります理由の説明。

それはすべて手元の問題とデータに依存しますが、確かに二分法にメリットがある場合があります。


二分法は2つのビンに入れています-離散化を意味しますか?
スコルチ

2
最初の2つの例の両方で、離散化は、真のゲストにラッチすることで、パーティへの道をブラフしようとしています。だまされてはいけません。(1)オープンリボルビングクレジットラインを別個のクラスとしてモデル化しない場合は、ダミー変数を使用してその条件を示し、平均リボルビングクレジット残高に一定の値を割り当てます。(2)特定の極端な予測値を「大」または「小」として同一に扱いたい場合は、それらを切り捨てます。残りの値をいじる必要はありません。3番目のケースは争われていません-例を自由に追加してください。
スコルチ

3

変数が特定のしきい値で効果を持つ場合、ビニングして新しい変数を作成するのは良いことです。元の変数とビニング変数の両方を常に保持し、どちらの変数がより良い予測変数であるかを確認します。


3

私は、アナリストが連続データの時期尚早な離散化に抵抗するべきだというフランク・ハレルのアドバイスの熱心なファンです。そして、CVとSOについて、連続変数間の相互作用を視覚化する方法を示すいくつかの答えがあります。しかし、私はまた、このアドバイスを順守するための障壁の医学の世界で実世界の経験を持っています。多くの場合、臨床医と非臨床医の両方が「分裂」に期待する魅力的な部門があります。従来の「法線の上限」は、そのような「自然な」分割点の1つです。1つは、基本的に関係の統計的基礎を最初に調べてから、調査結果の内容を視聴者が期待し、容易に理解できる用語で伝えることです。私の「アレルギー」にもかかわらず バープロットに、彼らは科学的および医学的談話で非常に一般的です。したがって、聴衆はそれらを処理するための既成の認知パターンを持っている可能性が高く、結果を知識ベースに統合することができます。

さらに、予測変数の非線形形式間のモデル化された相互作用のグラフィカル表示には、ほとんどの視聴者が消化するのが困難な等高線図またはワイヤフレーム表示の提示が必要です。私は、医療および一般大衆が、結果を離散化およびセグメント化したプレゼンテーションをより受け入れやすいと感じました。したがって、結論は、統計分析が完了した、分割が適切に行われると思います。プレゼンテーションフェーズで行われます。


1

多くの場合、連続変数のビニングは、情報の損失による損害を引き起こすという不安を伴います。ただし、情報の損失を抑えることができるだけでなく、情報を取得してより多くの利点を得ることができます。

ビニングを使用して分類された変数を取得すると、連続変数に適用できない学習アルゴリズムを適用できる場合があります。データセットはこれらのアルゴリズムのいずれかに適している可能性があるため、ここが最初の利点です。

ビニングによる損失を推定するという考え方は、「無関係な属性を使用したPAC学習」という論文に基づいています。サンプルを正と負に分割できるように、概念がバイナリであるとします。負のサンプルと正のサンプルの各ペアについて、概念の違いは、特徴の1つの違いによって説明される場合があります(または、特定の特徴によって説明できない場合)。機能の違いのセットは、概念の違いに対する可能な説明のセットです。したがって、概念を決定するために使用するデータです。ビニングを行ってもペアについて同じ説明が得られる場合、必要な情報は失われていません(そのような比較によって機能する学習アルゴリズムに関して)。分類が非常に厳密な場合、おそらくより少ない説明のセットがありますが、どれだけ、どこで失うかを正確に測定することができます。これにより、ビンの数と説明のセットをトレードオフできます。

これまでのところ、分類によって失うことはないかもしれませんが、そのようなステップを適用することを検討する場合、利益を得たいと考えています。確かに、分類の恩恵を受けることができます

列車セットに見られない値でサンプルを分類するように求められる多くの学習アルゴリズムは、値を「不明」と見なします。したがって、トレイン中に見られない(または十分に見られない)すべての値を含む「不明」のビンを取得します。このようなアルゴリズムの場合、未知の値のペアの違いは分類の改善に使用されません。ビニング後のペアを不明なペアと比較し、ビニングが有用で実際に獲得したかどうかを確認します。

各フィーチャの値の分布を確認することにより、不明な値がどの程度一般的であるかを推定できます。特徴は数回しか現れない値であり、その分布のかなりの部分がビニングの良い候補です。多くのシナリオでは、サンプルに未知の値が含まれる可能性が増加する未知の機能が多数あることに注意してください。そのような状況では、すべてまたは多くの機能を処理するアルゴリズムがエラーになりやすいです。

A. DhagatとL. Hellerstein、「無関係な属性を使用したPAC学習」、「Proceedings of the IEEE Symp。Foundation on Computer Science '、1994年。http://citeseer.ist.psu.edu/dhagat94pac.html

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.