k-fold CVによるオリジナル(?)モデルの選択


9

k分割CVを使用して回帰モデルから選択する場合、通常、モデルごとにCVエラーを標準エラーSEと一緒に計算し、CVエラーが最も低いモデルの1 SE内で最も単純なモデルを選択します(1標準エラールール。たとえば、こちらを参照してください)。ただし、最近、この方法で変動性を過大評価していること、および2つのモデルAとBの間で選択する特定のケースでは、実際には別の方法で進める必要があると言われました。

  • 長さ各フォールドについて、2つのモデル予測間の点ごとの差を計算します。、フォールドの平均二乗差KNK
    MSDK=i=1NK(y^Aiy^Bi)2NK
  • 通常どおり、フォールド全体の平均を使用し、このCV差エラーを(その標準エラーと共に)汎化エラーの推定値として使用します。MSDK

質問:

  1. これはあなたにとって意味がありますか?CVエラーを汎化エラーの推定値として使用することには、理論的な理由があることはわかっています(これらの理由はわかりませんが、存在することはわかっています!)。この「差」CVエラーの使用の背後に理論的な理由があるかどうかはわかりません。
  2. これを3つ以上のモデルの比較に一般化できるかどうかはわかりません。モデルのすべてのペアの違いを計算するのは危険に思われます(複数の比較?):3つ以上のモデルがある場合はどうしますか?

編集:私の数式は完全に間違っています、正しいメトリックがここに記載されており、はるかに複雑です。まあ、盲目的に式を適用する前にここで私が尋ねたのは嬉しいです!@Bayが彼の明快な答えで理解を助けてくれたことに感謝します。説明されている正しい測定は非常に実験的なものなので、信頼できる主力のCVエラーに固執します。

回答:


2

ホールドアウトセットも絵に来ていないので、汎化誤差の奇数尺度です。これにより、モデルの予測が相互にどのように相関しているかがわかりますが、実際にテストデータポイントをどの程度正確に予測するかについては何もありません。MSDK

たとえば、馬鹿げた予測子のペアを考え出すことができます。

y^A(x,θ)=1+x,1θ

y^B(x,θ):=1+x,1θ2

この場合、交差検証を調整すると、が低下する、をできるだけ大きく設定するように指示されますが、これらのモデルが優れた予測子になるとはません。θMSDK

リンクを確認しましたが、メジャーが表示されませんでした。Andrew Gelmanは尊敬される統計学者なので、彼が上記のようなものを支持しているのではないかと疑っています。これは、一般化誤差の推定値として明らかに失敗します。彼の論文とリンクは、Leave One Out(LOO)相互検証について説明しています。これには、ベンチマークとしてテストデータポイント(つまり、トレーニングから差し引かれたもの)との比較が必要です。純粋に「内向き」あなたに期待されるテスト・エラー(2つのモデルが同様のエラーを持っていることが、おそらく除く外...)については何も教えてくれません、そのメトリック探しています。MSDKMSDK


OPコメントへの応答

あなたのコメントで提示された式は少しコンテキストを必要とします:

  1. その中で、精度のベイズの尺度であるelpdある予想ログ点別予測密度 -かなり一口が、基本的に、それはいくつかの従来の予測の下で、各データポイントで評価事後予測密度の対数の期待値の和であります相互検証を使用して推定される密度。
  2. 上記の測定値(elpd)は、1つを除外する交差検証を使用して計算され、予測密度は省略されたポイントで取得されます。
  3. 彼らの式(19)がしていることは、2つのモデル間の予測精度(elpdを使用して測定)の差の標準誤差を計算することです。elpdの差は漸近的に正常であるため、標準誤差には推論平均があり(基になる差がゼロかどうかのテストに使用できます)、またはモデルAの予測誤差はモデルBよりも小さいという考え方です。

したがって、このメジャーには多くの可動部分があります。事後パラメーター密度からポイントを取得するには、MCMCサンプリングアルゴリズムを実行する必要があります。次に、それを統合して予測密度を取得する必要があります。次に、これらのそれぞれの期待値を(多くのドローで)取る必要があります。これはかなりのプロセスですが、最終的には有用な標準エラーが発生するはずです。

注:式(19)の下の3番目の完全な段落で、著者は、このアプローチがモデルの比較に適しているかどうかを判断するにはさらに調査が必要であることを述べています...したがって、まだ十分にテストされていません(非常に実験的)。したがって、フォローアップ調査により(elpdに関して)より適切なモデルが確実に識別されることが確認されるまで、基本的にこの方法の有用性を信頼しています。


私はあなたの要点を理解します。明らかに、私(および私にこの論文を指摘した私の同僚)はそのことを理解していませんでした。Gelmanが「[モデルAとB]の差の標準誤差」と呼んでいる言葉は何?リンクされた論文の18ページ、パー。5.2。この項の計算方法を示す簡単な例を提供できれば非常に役立ちます。ここで私が理解していないことはたくさんあります。se(elpd^LOOAelpd^LOOB)
DeltaIV、2015年

@DeltaIV OK ...参照セクションをチェックして、その式を展開してみます。

1
@DeltaIVわかりました。レビューを変更しました。投稿を拡大しました。これは、2つの予測モデルを比較するための非常に実験的な(検証されていない)メソッドのようです。あなた自身のモンテカルロ研究でその性能を検証できない限り、私はそれを注意深く使用します(つまり、正しい答えを知っているときに、より予測的なモデルを選ぶことができますか?)。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.