パネル/縦断データの予測評価指標


11

月次レベルでの行動の予測を提供するいくつかの異なるモデルを評価したいと思います。データはバランスが取れており、 100,000および 12です。結果は特定の月のコンサートに参加しているため、任意の月の約80%の人にとってはゼロですが、ヘビーユーザーの長い右裾があります。私の予測は、結果のカウントの性質を尊重していないようです。フラクショナルコンサートが一般的です。n=T=

モデルについては何も知りません。私は1人あたり1か月あたり6つの異なるブラックボックス予測のみを観察します。モデルビルダーが推定のために持っていなかった余分な1年分のデータがあります(コンサートの参加者は同じままですが)。それぞれのパフォーマンスが(正確さと精度の点で)どこにあるかを測定したいと思います。たとえば、あるモデルは、頻繁にコンサートに行く人にはよく予測しますが、カウチポテトには失敗しますか?1月の予測は12月の予測よりも良いですか?あるいは、正確な大きさが信頼できない場合でも、予測により、実績の点で人々を正しくランク付けできることを知っておくとよいでしょう。y^1,...,y^6

私の最初の考えは、予測ダミーと時間ダミーで実際の固定効果回帰を実行し、各モデルのRMSEまたはを確認することでした。しかし、これは、各モデルがどこでうまく機能するか、または差が大きいかどうか(RMSEをブートストラップしない限り)に関する質問には答えません。結果の分布も、このアプローチを心配しています。R2

私の2番目のアイデアは、結果を0、1、3、3+に分類し、混同行列を計算することでしたが、これを12にしない限り、これは時間次元を無視します。また、かなり粗いです。

concordTJ SteichenとNJ CoxによるStataコマンドを知っていby()ます。これにはオプションがありますが、データを年次合計に集約する必要があります。これは、他の有用な統計の中でも、信頼区間を含むLinの相関相関インデックスを計算します。CCCの範囲は-1から1で、完全に1で一致しています。

オプションがあるハレルの(R.ニューソンによって計算さ れた)もありますが、それによってパネルデータを処理できるかどうかはわかりません。これにより、信頼区間が得られます。ハレルのcは、継続的な結果を得るためのROC曲線(AUC)の下の面積の一般化です。これは、より高い予測を持つ被験者が実際により高い結果を持つように注文できるすべてのペアの割合です。したがって、ランダム予測の場合は、完全に識別できるモデルの場合はです。ハレルの本、p.493を参照してくださいcsomersdclusterc=0.5c=1

この問題にどのように取り組みますか?MAPEのように予測に共通する統計を計算することをお勧めしますか?


これまでに見つかった便利なもの:

  • スライド林のコンコーダンス相関係数の反復測定バージョンに

動作についてもっと知る必要があります、それは序数/バイナリ/連続値ですか?この実験は長期的なものであるため、個人の結果を予測または予測することに関心がありますか?混合効果モデルは、予測ではなく推論に使用されます。を予測するには、変量効果の推定値が必要なので、これらは機能しません。
AdamO 2013

実際の動作は、カウントまたは継続的です。予測はすべて継続的です。個人レベルの月次予測がどれほど良いかを知りたい。
Dimitriy V.Masterov 2013

以前のデータを観察した人や初期評価時に人の「個人レベルの月次予測」?IEはまたはを取得していますかまたはまたは...縦方向からの予測は手の波状の問題ではないため、明確にしてくださいYi=12^=f(Xi=12,11,,1,Yi=11,10,,1Yi=I^=f(Xi=I,I1,,1,Yi=I1,I2,,1Yi^=f(Xi)
AdamO

これは推定に使用された人々のサンプルですが、予測は推定ウィンドウの翌年のものです。最初の月の予測は、個人の遅れて観察された行動と観察された共変量の関数です:最初の月はかなり近いと思います。2か月目以降は、先月の予測とその月の観測共変量の関数です:。私はこの予測が実際のものからますます逸脱することを期待しています。とを比較したい。iY^i,1=f(Yi,t1,Xi,t).Y^i,2=f(Y^i,1,Xi,2)Yi,tY^i,t
Dimitriy V.Masterov 2013年

推定は、予測モデルの「トレーニング」の一部である可能性のあるパラメーター推定を意味しますが、サンプルが予測モデルのトレーニングに使用されていると言っていると思います。ここで述べているのは、条件付きセミマルコフプロセスであり、予測に独自のアプリケーションがあります。
AdamO 2013年

回答:


1

セミマルコフ予測の予測能力を評価するために、サンプルサイズやその他の利用可能な情報に応じて利用可能な方法がいくつかあります。

予測/予測モデルを評価するために、相互検証(具体的には、1回限りまたは繰り返しの分割サンプル相互検証)のオプションがあり、モデルは「トレーニング」サンプルで推定され、モデルの不確実性は「検証」で評価されます。サンプル。結果の分布に応じて、適格なモデルのパネルからモデルを選択できるいくつかのメジャーを使用できます。モデル選択のための一般的なノンパラメトリック測定の場合、人々はAICとBIC、特に後者を本当に気に入っています。

CCCとc統計は、テストやアッセイなどからのバイナリの断面予測を評価するために使用されるため、BMIやIQなどを予測する場合は除外する必要があります。これらは、(Hosmer Lemeshowテストのような)キャリブレーションと呼ばれるもの、いわゆるリスク層別化能力を測定します。少なくとも私が知る限りでは、そこには継続的な結果への直感的なつながりはありません。

一方、RMSEは継続的な予測を評価するために使用されます(RMSEがかなり古くて非推奨のモデル評価ツールであるブライアースコアと呼ばれるリスク予測の場合を保存してください)。これは優れたツールであり、私たちが毎日遭遇する予測モデル(気象予報、エネルギー定格、車両のMPGなど)の80%以上を調整するためにおそらく使用されます。

分割されたサンプルの検証または予測モデルを評価するためのリサンプリングにおける注意点は、サンプルが過去の結果を予測したままになっている場合にのみ、将来の結果に関心がある可能性があることです。これを行わないでください!これはモデルのアプリケーションを反映しておらず、選択を大幅に否定する可能性があります。利用可能なすべての情報をロールフォワードし、利用可能なすべてのケースで将来の観察されない結果を予測します。

適用される線形モデルの本のほとんどは、予測、RMSE、モデルのトレーニングと検証のニュアンスをカバーしています。Kutner、Nachtsheim、Neter、Liの良いスタートは、Diggleの「時系列分析」、Diggle Heagerty Zeger Liの「縦断的データ分析」、そして場合によってはHarrellの「回帰モデリング戦略」を検討することです。


CCCとHarrellのcは、継続的な結果で使用できます。また、CCCは、対策を繰り返し実施しています。質問に追加した参照/リンクを参照してください。
Dimitriy V.Masterov 2013年

関係ありません。あなたは分類していません。
AdamO 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.