カスタマーチャーン(またはより一般的なイベントの発生)をモデル化するときに、機械学習モデルまたはハザードモデルのいずれかを選択するのに合理的(理論的、実質的、統計的)ですか?
カスタマーチャーン(またはより一般的なイベントの発生)をモデル化するときに、機械学習モデルまたはハザードモデルのいずれかを選択するのに合理的(理論的、実質的、統計的)ですか?
回答:
あなたの質問はさらに明確になると思います。チャーンモデルの最初の違いは、
(1)顧客が特定の将来のポイント内(または次の3か月など)に解約する確率を推定するバイナリ(解約のタイプが複数ある場合はマルチクラス)モデル
(2)各期間の損耗リスクの推定値を作成する生存タイプのモデル(翌年は毎月)
2つのうちどちらが状況に適しているかは、モデルの使用によって異なります。経時的な消耗リスクを本当に理解したい場合、そしておそらく(時変の可能性がある)変数が時間とどのように相互作用するのかを理解したい場合は、生存モデルが適切です。多くの顧客モデルでは、この目的のために離散時間ハザードモデルを使用することを好みます。これは、データベースでは時間が離散的であることが多く、ハザード推定値がイベントの確率であるためです。Cox回帰はもう1つの一般的な選択肢ですが、時間は連続として扱われます(またはタイの調整によって)。ただし、ハザードは技術的には確率ではありません。
ほとんどのチャーンモデルでは、企業はこれらのx%の顧客を最もリスクにさらすことに関心があり、ターゲティングキャンペーンが起動するたびにデータベースにスコアが付けられるため、通常はバイナリ(またはマルチクラス)オプションが必要です。
2番目の選択肢は、モデルの推定方法です。バイナリ(マルチクラス)モデルまたは機械学習アルゴリズム(ランダムフォレストなど)のロジスティック回帰などの従来の統計モデルを使用していますか。どちらを選択するかは、どちらが最も正確なモデルを提供し、どのレベルの解釈可能性が必要かによって決まります。離散時間ハザードモデルの場合、通常、ロジスティック回帰がスプラインで使用され、時間の非線形効果が導入されます。これはニューラルネットワークや他の多くのタイプのMLアルゴリズムでも実行できます。これは、セットアップが「個人の期間」のデータセットを使用した単純な教師あり学習であるためです。さらに、cox回帰は、SAS proc phregやR coxph()などの従来のアルゴリズムに適合させることができます。機械学習アルゴリズムGBMは、選択した損失関数を使用してcox回帰にも適合します。すでに述べたように、
まず、機械学習モデルとハザードモデルをどこで区別するかを明確にします。私の理解から、mlの文献では、パラメトリックモデルとノンパラメトリックモデルが(特に)区別されています。
次に、モデルは何のために必要ですか?それは科学研究用ですか、それとも他の何かですか?いずれにしても、データを説明するために適切なモデルを選択することは、まず第一に、モデルが必要なものに依存します。
あなたの質問へ:それはあなたがデータ生成プロセスについてどれだけ知っているかに依存します。
たとえば、有名なコインフリップやサイコロを振る場合、実験の期待される結果を生成するプロセスについて非常に良い考えを持っています。
その場合は、未知のパラメーターの非常に優れた推定が得られるため、パラメトリック(ベイジアンまたは頻出)推定を実際に使用する必要があります。さらに、これらのモデルは非常によく理解されており、多くの利点があります。
データ生成プロセスがわからない場合、または不明な場合は、選択肢があまりないため、データ自体からデータを記述するパラメーターを推定する必要があります。そのようなアプローチを決定した場合、これらのモデルには欠点があることを受け入れる必要があります(特定のモデルなどによって異なります)。
私の理解では、プロセスについての知識が少なければ少ないほど、データ自体から見積もる必要があり、確かに価格が高くなります。