線形回帰を使用して顧客のログ(支出)を予測する問題について考えています。
入力として使用する機能を検討していて、変数のパーセンタイルを入力として使用してもよいかどうか疑問に思っています。
たとえば、会社の収益を入力として使用できます。私が疑問に思っているのは、代わりに会社の収益パーセンタイルを使用できるかどうかです。
別の例は、カテゴリー産業分類子(NAICS)です。NAICSコードごとの中央値支出を見て、各NAICSコードを「NAICSパーセンタイル」に割り当てるとしたら、それは私が使用できる有効な説明変数ですか?
パーセンタイルを使用するときに注意すべき問題があるかどうか疑問に思っていますか?ある意味で、ある種の特徴スケーリングと同等ですか?
2
元のデータがある場合、なぜパーセンタイルを使用するのですか?パーセンタイルは序数のみであり、測定基準ではないため、多分それは良い考えではありません。しかし、バイアス/効率についてはわかりません。
—
hplieninger 2013
Percentiling、彼らは道でのことは矛盾している sがその効果を持っています。一般的なエラーは、健康状態を予測する際のパーセンタイルウェイトまたはBMIです。体重の物理学は、1人の被験者の体重またはBMIを下回っているサンプルの人数ではなく、身体機能に関連するのは個人の物理的寸法であることを示しています。
—
フランクハレル2013
業界変数を4などのグループに合理的にクラスター化できる場合は、ダミーコーディング(またはその他の適切なコーディングスキーム)を使用すれば完了です。それが私のやり方です。
—
hplieninger 2013
パーセンタイルが従属変数に線形的に関連している理由は考えられません。1つ考えられる場合は、問題ないかもしれません(そして、質問をあなたの理由で更新してください)
—
ピーターフロム-モニカーを回復する
NAICSコードを会社の支出のプロキシとして使用する場合は、NAICSコードの平均支出を使用して実行できます。パーセンタイルを使用する必要はありません。
—
Scortchi-モニカの回復