ロジスティック回帰のトレーニングに「部分的なクレジット」(継続的な結果)を与えることは、これまでに良い考えですか。


10

私はロジスティック回帰を訓練して、どのランナーが過酷な耐久レースを終了する可能性が最も高いかを予測しています。

非常に少数のランナーがこのレースを完了しているので、私は深刻なクラスの不均衡と成功の小さなサンプル(多分数十)を持っています。私はほとんどそれを作った何十人ものランナーからいくつかの良い「シグナル」を得ることができるように感じています。(私のトレーニングデータには、完了だけでなく、完了しなかったデータが実際にどれだけ作成したかも含まれています。)したがって、「部分的なクレジット」を含めるのはひどい考えなのかどうか疑問に思っています。部分的なクレジット、ランプ、ロジスティックカーブの2つの関数を考え出しました。これらにはさまざまなパラメーターを指定できます。

ここに画像の説明を入力してください

回帰との唯一の違いは、バイナリの結果ではなく、修正された継続的な結果を予測するためにトレーニングデータを使用することです。テストセット(バイナリレスポンスを使用)での予測を比較すると、かなり結論が出ませんでした-ロジスティックの部分的なクレジットはR-2乗、AUC、P / Rをわずかに改善するように見えましたが、これは、小さなサンプル。

予測が完了に向かって偏っていることに気にしない-私が気にするのは、終了する可能性のある選手を正しくランク付けすること、またはおそらく終了する相対的な可能性を推定することです。

ロジスティック回帰は、予測子とオッズ比の対数の間の線形関係を想定していることを理解しています。明らかに、結果をいじり始めると、この比には実際の解釈がありません。これは理論的な観点からは賢明ではないと私は確信していますが、追加の信号を取得して過剰適合を防ぐのに役立つ可能性があります。(私は成功とほぼ同じ数の予測子を持っているので、完全に完了した関係のチェックとして部分的に完了した関係を使用すると役立つ場合があります)。

このアプローチは責任ある実践で使用されたことがありますか?

いずれにせよ、このタイプの分析により適した他のタイプのモデル(おそらく、時間ではなく距離にわたって適用されるハザード率を明示的にモデル化するもの)がありますか?

回答:


11

これは、Cox比例ハザード分析や、おそらくいくつかのパラメトリック生存モデルのような生存分析の仕事のようです。

この問題について、説明している方法とは逆に考えます。以前の禁煙までの距離に関連する予測変数は何ですか?

終了はイベントです。カバーされる距離は、標準生存分析でのイベント発生までの時間と同等と見なされます。その後、終了した個人の数と同じ数のイベントが発生するため、予測子の数が限られているという問題は減少します。やめたすべての人が情報を提供します。

Coxモデルは、データで機能する場合、すべての予測変数値に基づいて線形予測を提供し、終了までの予測距離の順序で競技者をランク付けします。


これをありがとう。Coxモデルを使用すると、比例ハザードコンストラクトにより、終了までの予測距離が最も長いランナーも終了距離の前に終了する可能性が最も低いと言っているようです。それは正確ですか?また、これをお勧めしているので、部分的な信用のアイデアが根拠のあるものではないと思いましたか?
C8H10N4O2 2016

それは本質的に正しいです。私はサバイバルモデルに終了までの距離を組み込むことは、確立された理論的および実用的な正当化を持つ方法で「部分的な信用」を与える方法として見ています。詳細は確認していませんが、グラフに表されているように、これで目的どおりの結果が得られたと思います。
EdM 2016
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.