1
ポアソンモデルの相互検証のエラーメトリック
カウントを予測しようとしているモデルを相互検証しています。これがバイナリ分類の問題である場合は、フォールドアウトAUCを計算し、これが回帰問題である場合は、フォールドアウトRMSEまたはMAEを計算します。 ポアソンモデルの場合、サンプル外予測の「精度」を評価するためにどのエラーメトリックを使用できますか?AUCのポアソン拡張で、予測が実際の値をどの程度適切に並べるかを調べますか? カウントのための多くのKaggleコンテスト(たとえば、yelpレビューで得られる有用な投票数、または患者が病院で過ごす日数)は、二乗平均平方根誤差、またはRMLSEを使用しているようです。 /編集:私がやっていることの1つは、予測値の10分の1を計算してから、十分な数でビニングされた実際のカウントを調べることです。十分位数1が低く、十分位数10が高く、その間の十分位数が厳密に増加している場合、モデルを「良い」と呼んでいますが、このプロセスを定量化するのに苦労しており、より良い方法があると確信していますアプローチ。 /編集2:予測値と実際の値を取得し、「エラー」または「精度」メトリックを返す数式を探しています。私の計画は、交差検証中にフォールド外データでこの関数を計算し、それを使用してさまざまなモデル(ポアソン回帰、ランダムフォレスト、GBMなど)を比較することです。 たとえば、そのような関数の1つですRMSE = sqrt(mean((predicted-actual)^2))。別のそのような関数はAUCです。どちらの関数もポアソンデータには適切でないようです。