パーセンタイルを予測子として使用する-良い考えですか?


9

線形回帰を使用して顧客のログ(支出)を予測する問題について考えています。

入力として使用する機能を検討していて、変数のパーセンタイルを入力として使用してもよいかどうか疑問に思っています。

たとえば、会社の収益を入力として使用できます。私が疑問に思っているのは、代わりに会社の収益パーセンタイルを使用できるかどうかです。

別の例は、カテゴリー産業分類子(NAICS)です。NAICSコードごとの中央値支出を見て、各NAICSコードを「NAICSパーセンタイル」に割り当てるとしたら、それは私が使用できる有効な説明変数ですか?

パーセンタイルを使用するときに注意すべき問題があるかどうか疑問に思っていますか?ある意味で、ある種の特徴スケーリングと同等ですか?


2
元のデータがある場合、なぜパーセンタイルを使用するのですか?パーセンタイルは序数のみであり、測定基準ではないため、多分それは良い考えではありません。しかし、バイアス/効率についてはわかりません。
hplieninger 2013

9
Percentiling、彼らは道でのことは矛盾している sがその効果を持っています。一般的なエラーは、健康状態を予測する際のパーセンタイルウェイトまたはBMIです。体重の物理学は、1人の被験者の体重またはBMIを下回っているサンプルの人数ではなく、身体機能に関連するのは個人の物理的寸法であることを示しています。バツバツ
フランクハレル2013

1
業界変数を4などのグループに合理的にクラスター化できる場合は、ダミーコーディング(またはその他の適切なコーディングスキーム)を使用すれば完了です。それが私のやり方です。
hplieninger 2013

3
パーセンタイルが従属変数に線形的に関連している理由は考えられません。1つ考えられる場合は、問題ないかもしれません(そして、質問をあなたの理由で更新してください)
ピーターフロム-モニカーを回復する

1
NAICSコードを会社の支出のプロキシとして使用する場合は、NAICSコードの平均支出を使用して実行できます。パーセンタイルを使用する必要はありません。
Scortchi-モニカの回復

回答:


1

モデルが会社の収益に何らかのコンテストを伴う場合、パーセンタイルを使用できます。対数百分位数はより意味があり、分位数は値が線形にならないため、想像できます。

このストーリーでは、観測会社の下に収益がある会社のln(%)を含めます。物語は、高収益の場合、低収益の企業よりも優れた評判があり、「競争以上のものを持っている」というこの関係は、収益のレベル自体ではなく、関連しています。これは、企業の認知度とブランディングの重要な部分と見ることができました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.