コックスモデルとロジスティック回帰


15

次の問題が発生したとします。

今後3か月以内に当店で購入を停止する可能性が最も高いクライアントを予測します。
各クライアントについて、ショップで購入を開始した月がわかります。さらに、月次集計で多くの行動機能があります。「最年長」のクライアントは50か月間購入しています。クライアントが購入を開始してからの時間を()で示しましょう。クライアントの数は非常に多いと想定できます。クライアントが3か月間の購入を停止してから戻ってきた場合、その顧客は新しい顧客として扱われるため、イベント(購入の停止)は1回しか発生しません。Tの[ 0 50 ]tt[0,50]

2つの解決策が思い浮かびます。

ロジスティック回帰 -各クライアントおよび各月(最新の3か月を除く)で、クライアントが購入を停止したかどうかを判断できるため、クライアントと月ごとに1回の観測でローリングサンプルを実行できます。カテゴリ変数として開始してからの月数を使用して、基本ハザード関数に相当するものを取得できます。

拡張Coxモデル -この問題は、拡張Coxモデルを使用してモデル化することもできます。この問題は生存分析により適しているようです。

質問:同様の問題における生存分析の利点は何ですか?生存分析は何らかの理由で発明されたため、何らかの重大な利点がなければなりません。

生存分析に関する私の知識はそれほど深くはなく、Coxモデルの潜在的な利点のほとんどは、ロジスティック回帰を使用しても達成できると思います。

  • 層化コックスモデルの等価物は、と層化変数の相互作用を使用して取得できます。 t
  • 相互作用コックスモデルは、母集団をいくつかの部分母集団に分割し、すべての部分母集団のLRを推定することで取得できます。

私が見る唯一の利点は、Coxモデルがより柔軟であることです。たとえば、クライアントが6か月後に購入を停止する確率を簡単に計算できます。

回答:


10

Coxモデルの問題は、何も予測しないことです。Coxモデルの「切片」(ベースラインハザード関数)は実際には推定されません。ロジスティック回帰を使用して、特定の月に何かを購入するために被験者が来たかどうかなど、何らかのイベントのリスクまたは確率を予測できます。

通常のロジスティック回帰の背後にある仮定の問題は、観測が行われたのが同じ人物であったか、同じ月であったかに関係なく、各人物の月の観測を独立として扱うことです。一部のアイテムは2か月間隔で購入されるため、これは危険な場合があります。そのため、月ごとの連続した観測は負の相関があります。代わりに、顧客は、月の観測で連続した人物をリードする良いか悪いかの経験によって保持または失われる可能性がされている積極的に相関しました。

この予測問題の良い出発点は、以前の情報を使用して来月のビジネスに関する予測を知らせることができる予測アプローチを採用することだと思います。この問題に対する簡単なスタートが遅れ効果、あるいは被写体がに到着したかどうかの指標のために調整され、最後が届いたかどうかの予測因子として、月この月。


2
ここでは、独立の問題を解決するためにマルチレベルのロジスティック回帰を使用できませんでしたか?レベル2はクライアントであり、レベル1は時間をかけて繰り返し測定されます。
Forinstance

1
@AdamO、切片推定し、個人の部分的なハザードの予測と組み合わせて、個々の生存曲線を作成できます。Coxモデルが「何もない」と予測できると思う理由がわかりません。
Cam.Davidson.Pilon

@ Cam.Davidson.Pilonベースラインハザード関数の推定は、Coxモデルの二次的に行わなければならない補助的な手順(ブレスローステップ関数)です。さらに、累積ハザード推定値とモデルパラメーター間の共分散が不明確であるため、不確実性の境界の計算には意​​見の相違があります。想定独立して-methodホールとWellner境界は、私が使用しているものです。δ
AdamO

予測のために、これらはブロッカーではないと感じています。複数の推定値を組み合わせて単一の予測を作成することは珍しいことではなく、(残念ながら私はそれを支持していませんが)予測間隔は一般的には使用されず、とにかく利用できません。
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon生存データからリスク予測を得ることができないとは言わなかった、Coxモデルはリスクを予測しないと言った。coxphリスク推定の呼び出しと取得の間のステップは、急で多くあります。
AdamO

3

レッツクライアントれた時刻からの経過時間であるjは彼が停止するまで購入を開始します。生存分析では、Pr T j > 3 などの確率、つまりクライアントjが少なくとも3か月間購入する確率を計算できます。TjjPr(Tj>3)j3

生存分析では、各クライアントが自分の研究への参加時間を持っているという事実を考慮します。したがって、フォローアップ期間がクライアントによって異なるという事実は問題ではありません。

j


注意:ここでは、いくつかの制約の下で、ロジスティックモデルとCoxモデルの両方がリンクされていることを示す論文があります。


ご回答ありがとうございます。SAが打ち切りを適切に処理する場合、LRソリューションが打ち切りを適切に処理しないことを意味します。それはどのように結果になりますか?私はまだ、SAが一定時間の目標に対して優れていると確信することはできません。この記事を無料で入手できますか?
トメックタルチンスキ

録音すると思います Y=0(イベントなし)打ち切り観測の場合。これは、イベントの確率を過小評価し、バイアスにつながる可能性があります。論文に関しては、メールアドレスを残せば送れます。
ocram

私のメールアドレス:tomek.tarczynski@gmail.comありがとうございました!
トメクタルチンスキ

@TomekTarczynski:受け取った?
ocram

はい、ありがとうございます!明日はもっと注意深く読む時間があるでしょう。私はそれをざっと読みましたが、正しく理解できれば、わずかに異なる問題に対処します。ショップのアナロジーを使用して、LRとCOXを問題と比較します。
トメクタルチンスキ

2

マーケティング資料は、ここまたは類似のパレート/ NBDを示唆しています。基本的に、購入は(購入中は)負の二項分布に従うと仮定します。ただし、顧客が停止する時間をモデル化する必要があります。それは他の部分です。

ピート・フェーダーとブルース・ハーディーは、これに関していくつかの論文を、安倍とともに持っています。

フェーダーとハーディのさまざまな論文を数えただけでも、パレート/ NBDにはより簡単なアプローチがいくつかあります。停止の確率が各時点で一定であると想定される単純なアプローチを使用しないでください。つまり、重い顧客はより早くドロップアウトする可能性が高いことを意味します。フィットするのは簡単なモデルですが、間違っています。

私はしばらくの間、これらのいずれにも適合していません。少し非特異的で申し訳ありません。

この問題を階層型ベイズとして再構築した阿部論文への参照があります。。この分野で再び働いていたら、このアプローチを試してみると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.