予測モデリング-混合モデリングを気にする必要がありますか?


19

予測モデリングの場合、ランダム効果や観測の非独立性(反復測定)などの統計概念に関心を持つ必要がありますか?例えば....

5つのダイレクトメールキャンペーン(1年間で発生)のさまざまな属性と購入フラグ付きのデータがあります。理想的には、これらすべてのデータを組み合わせて使用​​し、キャンペーンの時点で顧客の属性を考慮した購入モデルを構築します。その理由は、購入のイベントがまれであり、できるだけ多くの情報を使用したいからです。特定の顧客が1〜5個のキャンペーンに参加する可能性があります。つまり、レコード間に独立性がないことを意味します。

以下を使用する場合、これは重要ですか?

1)機械学習アプローチ(例、ツリー、MLP、SVM)

2)統計的アプローチ(ロジスティック回帰)?

**ADD:**

予測モデリングに関する私の考えは、モデルが機能する場合、それを使用することです。そのため、仮定の重要性を本当に考えたことはありません。上記のケースについて考えると、私は不思議に思いました。

などの機械学習アルゴリズムを使用しMLP and SVMます。これらは、上記の例のようなバイナリイベントのモデル化に使用されますが、時系列データも明確に相関しています。ただし、多くの場合、尤度であり、エラーがiidであると仮定して導出される損失関数を使用します。たとえば、Rの勾配ブーストされたツリーはgbm、二項(ページ10)から派生した逸脱損失関数を使用します。


1
レコード間の独立性を前提とする統計的アプローチの場合は重要です。これは、繰り返し測定を行うためです。
ミシェル

4
予測に焦点を当てた機械学習と推論に焦点を当てた統計の主な違いの1つは、まさにあなたが言うこと、B_Minerです。機械学習は、従来の統計が仮定に特別な注意を払う一方で、何が機能するかにより関心があります。どちらの場合も、アプローチの前提条件/特性を認識してから、重要かどうかにかかわらず、情報に基づいた決定を下す必要があります。アプローチの前提条件/特性を理解していない場合、モデルが機能するかどうかについての予測モデリングでだまされている可能性があります。
アンZ.

2
@AnneZ:予測モデリングでトレーニング、テスト、および検証セット(すべてのサンプルが十分な大きさ)の推奨される検証アプローチに従い、動作する何かを見つけた場合、基礎となる前提条件が満たされているかどうかを気にする必要がありますか?私は確かにML​​を無意識に適用することをお勧めしません。ただ疑問に思っていました
...-steffen

2
この文脈では、紙「統計モデリング:二つの文化が」で説明し、面白いかもしれません第三crossvalidatedジャーナルクラブ
ステファン

回答:


14

私はこれを自分自身疑問に思っていました、そして、ここに私の暫定的な結論があります。誰かがこのトピックに関する知識と参考文献でこれを補足/修正できれば幸いです。

統計的有意性をチェックしてロジスティック回帰係数に関する仮説をテストしたい場合、観測値全体の相関をモデル化する必要があります(そうでなければ非独立性を修正します)。クラスター効果。ただし、回帰係数は相関する観測値でも不偏であるため、予測にこのようなモデルを使用しても問題ありません。

予測モデリングでは、ロジスティック回帰または他のアプローチを使用しているかどうかにかかわらず、モデルをトレーニングするときに相関を明示的に考慮する必要はありません。ただし、検証またはサンプル外エラーの計算にホールドアウトセットを使用する場合は、各個人の観測値がトレーニングまたは検証の両方ではなく1つのセットのみに表示されるようにする必要があります。そうしないと、モデルはすでにいくつかの情報を持っている個人について予測することになり、サンプル外分類能力に関する真の読み取りが得られません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.