顧客離脱のモデリング-機械学習とハザード/生存モデル


9

カスタマーチャーン(またはより一般的なイベントの発生)をモデル化するときに、機械学習モデルまたはハザードモデルのいずれかを選択するのに合理的(理論的、実質的、統計的)ですか?


1
ふたつ-なぜあなたはどちらかと思いますか?
EngrStudent 2015

機械学習と生存分析の例を次に示します。ieeexplore.ieee.org/ xpl / articleDetails.jsp?arnumber = 1603631はさらに多くなるでしょう。IIRCでは、機械学習タイプのアプローチ(L1正則化など)を使用したマイクロアレイデータに基づく生存率分析についていくつかの作業が行われました。
Dikran Marsupial

たとえば、次のようにblog.wikimedia.org/2011/06/28/...
majom

ティブシラニ教授は、「機械学習とハザードモデルは互いに素である」という考えに対する素晴らしい反例です。
Cliff AB、

3
あなたがでた場合は、マシンモデルの学習、私はあなたが持っている場合ことを言うと思いバイナリ予測としてそれを定義平均負荷データと非常に明確な定義チャーンのを/あなたのクエリがバイナリクエリがバイナリであるが移動するための方法です。これは通常は当てはまらないため、危険を予測する必要があります。自己宣伝の場合は申し訳ありませんが、1年前にあったこの質問に答えるためにこの作品を書きました。また、ハザードモデルを機械学習の問題に簡単に設定できるため、前述のように誤った二分法に対応できます。
ragulpr 2017

回答:


10

あなたの質問はさらに明確になると思います。チャーンモデルの最初の違いは、

(1)顧客が特定の将来のポイント内(または次の3か月など)に解約する確率を推定するバイナリ(解約のタイプが複数ある場合はマルチクラス)モデル

(2)各期間の損耗リスクの推定値を作成する生存タイプのモデル(翌年は毎月)

2つのうちどちらが状況に適しているかは、モデルの使用によって異なります。経時的な消耗リスクを本当に理解したい場合、そしておそらく(時変の可能性がある)変数が時間とどのように相互作用するのかを理解したい場合は、生存モデルが適切です。多くの顧客モデルでは、この目的のために離散時間ハザードモデルを使用することを好みます。これは、データベースでは時間が離散的であることが多く、ハザード推定値がイベントの確率であるためです。Cox回帰はもう1つの一般的な選択肢ですが、時間は連続として扱われます(またはタイの調整によって)。ただし、ハザードは技術的には確率ではありません。

ほとんどのチャーンモデルでは、企業はこれらのx%の顧客を最もリスクにさらすことに関心があり、ターゲティングキャンペーンが起動するたびにデータベースにスコアが付けられるため、通常はバイナリ(またはマルチクラス)オプションが必要です。

2番目の選択肢は、モデルの推定方法です。バイナリ(マルチクラス)モデルまたは機械学習アルゴリズム(ランダムフォレストなど)のロジスティック回帰などの従来の統計モデルを使用していますか。どちらを選択するかは、どちらが最も正確なモデルを提供し、どのレベルの解釈可能性が必要かによって決まります。離散時間ハザードモデルの場合、通常、ロジスティック回帰がスプラインで使用され、時間の非線形効果が導入されます。これはニューラルネットワークや他の多くのタイプのMLアルゴリズムでも実行できます。これは、セットアップが「個人の期間」のデータセットを使用した単純な教師あり学習であるためです。さらに、cox回帰は、SAS proc phregやR coxph()などの従来のアルゴリズムに適合させることができます。機械学習アルゴリズムGBMは、選択した損失関数を使用してcox回帰にも適合します。すでに述べたように、


4
(+1)それはあなたが言うより多くのものに依存していると思いますが。3か月以内のチャーンの予測確率は、サバイバルモデルから読み取ることができます。また、3か月後または3か月前のチャーンのバイナリ結果のみに当てはまるモデルからの推定よりも良い推定である場合は、
Scortchi-モニカを回復

1
ランダムフォレスト、ロジスティック回帰、またはC5.0モデルを使用して、3か月以内に解約の確率をどのように予測できますか?これは可能ですか?
Seanosapien 2017年

@Seanosapienでは、チャーンデータセットを使用して、各ユーザーが解約した時期に関する情報を取得できます。各ユーザーに対して、3か月前に解約した場合は1を割り当て、3か月前に解約しなかった場合は0を割り当てます。次に、たとえばバイナリデータにロジスティック回帰モデルを適合させ、適合モデルに基づいて新しいユーザーに確率を割り当てることができます
Kdawg

@Kdawgありがとう。チャーンを念頭に置いてモデル化するデータセットを設計する方法を見つけました。
Seanosapien

-2

まず、機械学習モデルとハザードモデルをどこで区別するかを明確にします。私の理解から、mlの文献では、パラメトリックモデルとノンパラメトリックモデルが(特に)区別されています。

次に、モデルは何のために必要ですか?それは科学研究用ですか、それとも他の何かですか?いずれにしても、データを説明するために適切なモデルを選択することは、まず第一に、モデルが必要なものに依存します。

あなたの質問へ:それはあなたがデータ生成プロセスについてどれだけ知っているかに依存します。

たとえば、有名なコインフリップやサイコロを振る場合、実験の期待される結果を生成するプロセスについて非常に良い考えを持っています。

その場合は、未知のパラメーターの非常に優れた推定が得られるため、パラメトリック(ベイジアンまたは頻出)推定を実際に使用する必要があります。さらに、これらのモデルは非常によく理解されており、多くの利点があります。

データ生成プロセスがわからない場合、または不明な場合は、選択肢があまりないため、データ自体からデータを記述するパラメーターを推定する必要があります。そのようなアプローチを決定した場合、これらのモデルには欠点があることを受け入れる必要があります(特定のモデルなどによって異なります)。

私の理解では、プロセスについての知識が少なければ少ないほど、データ自体から見積もる必要があり、確かに価格が高くなります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.