月次レベルでの行動の予測を提供するいくつかの異なるモデルを評価したいと思います。データはバランスが取れており、 100,000および 12です。結果は特定の月のコンサートに参加しているため、任意の月の約80%の人にとってはゼロですが、ヘビーユーザーの長い右裾があります。私の予測は、結果のカウントの性質を尊重していないようです。フラクショナルコンサートが一般的です。
モデルについては何も知りません。私は1人あたり1か月あたり6つの異なるブラックボックス予測のみを観察します。モデルビルダーが推定のために持っていなかった余分な1年分のデータがあります(コンサートの参加者は同じままですが)。それぞれのパフォーマンスが(正確さと精度の点で)どこにあるかを測定したいと思います。たとえば、あるモデルは、頻繁にコンサートに行く人にはよく予測しますが、カウチポテトには失敗しますか?1月の予測は12月の予測よりも良いですか?あるいは、正確な大きさが信頼できない場合でも、予測により、実績の点で人々を正しくランク付けできることを知っておくとよいでしょう。
私の最初の考えは、予測ダミーと時間ダミーで実際の固定効果回帰を実行し、各モデルのRMSEまたはを確認することでした。しかし、これは、各モデルがどこでうまく機能するか、または差が大きいかどうか(RMSEをブートストラップしない限り)に関する質問には答えません。結果の分布も、このアプローチを心配しています。
私の2番目のアイデアは、結果を0、1、3、3+に分類し、混同行列を計算することでしたが、これを12にしない限り、これは時間次元を無視します。また、かなり粗いです。
concord
TJ SteichenとNJ CoxによるStataコマンドを知っていby()
ます。これにはオプションがありますが、データを年次合計に集約する必要があります。これは、他の有用な統計の中でも、信頼区間を含むLinの相関相関インデックスを計算します。CCCの範囲は-1から1で、完全に1で一致しています。
オプションがあるハレルの(R.ニューソンによって計算さ
れた)もありますが、それによってパネルデータを処理できるかどうかはわかりません。これにより、信頼区間が得られます。ハレルのcは、継続的な結果を得るためのROC曲線(AUC)の下の面積の一般化です。これは、より高い予測を持つ被験者が実際により高い結果を持つように注文できるすべてのペアの割合です。したがって、ランダム予測の場合は、完全に識別できるモデルの場合はです。ハレルの本、p.493を参照してくださいsomersd
cluster
この問題にどのように取り組みますか?MAPEのように予測に共通する統計を計算することをお勧めしますか?
これまでに見つかった便利なもの:
- スライド林のコンコーダンス相関係数の反復測定バージョンに