予測モデリングの場合、ランダム効果や観測の非独立性(反復測定)などの統計概念に関心を持つ必要がありますか?例えば....
5つのダイレクトメールキャンペーン(1年間で発生)のさまざまな属性と購入フラグ付きのデータがあります。理想的には、これらすべてのデータを組み合わせて使用し、キャンペーンの時点で顧客の属性を考慮した購入モデルを構築します。その理由は、購入のイベントがまれであり、できるだけ多くの情報を使用したいからです。特定の顧客が1〜5個のキャンペーンに参加する可能性があります。つまり、レコード間に独立性がないことを意味します。
以下を使用する場合、これは重要ですか?
1)機械学習アプローチ(例、ツリー、MLP、SVM)
2)統計的アプローチ(ロジスティック回帰)?
**ADD:**
予測モデリングに関する私の考えは、モデルが機能する場合、それを使用することです。そのため、仮定の重要性を本当に考えたことはありません。上記のケースについて考えると、私は不思議に思いました。
などの機械学習アルゴリズムを使用しMLP and SVM
ます。これらは、上記の例のようなバイナリイベントのモデル化に使用されますが、時系列データも明確に相関しています。ただし、多くの場合、尤度であり、エラーがiidであると仮定して導出される損失関数を使用します。たとえば、Rの勾配ブーストされたツリーはgbm
、二項(ページ10)から派生した逸脱損失関数を使用します。