交差検定(CV)に基づく予測間隔


19

教科書やyoutubeの講義では、ブースティングなどの反復モデルについて多くのことを学びましたが、予測間隔の導出については何も見ませんでした。

クロス検証は次の目的で使用されます。

  • モデルの選択:さまざまなモデルを試して、最適なモデルを選択します。ブーストの場合、CVを使用してチューニングパラメーターを選択します。
  • モデル評価:選択したモデルのパフォーマンスを推定します

モデル評価にはいくつかのパラメーターが重要です。そのうちの1つは予想される予測エラーです。クロス検証は、本「統計的学習の要素」で詳しく説明されているように、予測誤差の適切な推定値を提供します。

しかし、予測間隔を構築するために予想される予測誤差をどのように使用するのでしょうか?

たとえば、家の価格を予測する場合、200.000€の家に比べて500.000€の家の予測間隔は長くなります。相互検証を使用してこれらの予測間隔を推定するにはどうすればよいですか?


これは良い方向への一歩です:blog.datadive.net/prediction-intervals-for-random-forests
Kasper

あなたが探しているのは共形予測だと思います。ShaferおよびVovk jmlr.csail.mit.edu/papers/volume9/shafer08a/shafer08a.pdfの論文を参照してください。
アレクセイ・ザイツェフ

200kの家に比べて500kの家の予測間隔が「高い」と考える理由を説明してください。それはサンプル数の関数ですか?サンプルは全体の分布からiidで抽出されると仮定できますか?
justanotherbrain

回答:


3

この質問をもう一度読んだ後、私はあなたに次の限界を与えることができます:

サンプルがiidで描画され、分布が固定され、損失がで制限され、少なくとも、 1 - δ E [ EH ] EH + B B1δ

E[E(h)]E^(h)+Blog1δ2m

ここで、はサンプルサイズであり、は信頼度です。境界は、McDiarmidの不平等によって自明に保持されます。1 - δm1δ

E [ EH ] EH mは標本サイズ、は一般化誤差、は仮説の検定誤差です。E[E(h)]E^(h)

クロス検証エラーやテストエラーのみを報告しないでください。これらは単なる推定値であるため、一般的には意味がありません。


記録のための古い投稿:

あなたの質問を完全に理解したかどうかはわかりませんが、それを突き刺します。

まず、モデル選択の予測間隔をどのように定義するかわかりません。理解できるように、予測間隔はいくつかの分布を仮定しているためです。代わりに、濃度の不等式を導き出すことができます。これは、確率の分散によって本質的に確率変数を制限します。濃度不等式は、ブースティングの高度な理論を含む機械学習を通して使用されます。この場合、一般化エラー(一般にエラー、見たことのないポイント)を経験的エラー(テストセットのエラー)に加えて、複雑性の用語と分散に関連する用語で制限します。

ここで、非常に一般的な相互検証に関する誤解を払拭する必要があります。相互検証では、固定サンプルサイズのモデルの予想される誤差の偏りのない推定のみが提供されます。この証明は、Leave One Outプロトコルでのみ機能します。これは、分散に関する情報を提供しないため、実際にはかなり弱いです。一方、相互検証では、構造的リスク最小化ソリューションに近いモデルが返されます。これは理論的には最適なソリューションです。証明は、付録にあります:http : //www.cns.nyu.edu/~rabadi/resources/scat-150519.pdf

それでは、一般化限界をどのように導出するのでしょうか?(一般化境界は基本的に、特定のモデルの一般化誤差に関する予測区間であることを忘れないでください)。さて、これらの境界はアルゴリズム固有です。残念ながら、機械学習(ブースティングを含む)で一般的に使用されるすべてのアルゴリズムの範囲を定める教科書は1つしかありません。この本は、Mohri、Rostamizadeh、およびTalwalkarによるFoundations of Machine Learning(2012)です。資料をカバーする講義スライドについては、MohriのWebページで見つけることができます:http : //www.cs.nyu.edu/~mohri/ml14/

統計学習の要素は重要でやや役立つ本ですが、あまり厳密ではなく、アルゴリズムに関する多くの非常に重要な技術的詳細を省略し、あらゆる種類の一般化境界を完全に省略します。機械学習の基礎は、機械学習のための最も包括的な本です(この分野の最高の一部によって書かれたように見えるのは理にかなっています)。ただし、教科書は高度であるため、技術的な詳細に注意してください。

ブースティングの一般化は、(証明付きで)ここにあります:http : //www.cs.nyu.edu/~mohri/mls/lecture_6.pdf

これらがあなたの質問に答えるのに十分なポインタであることを願っています。予備的な議論は言うまでもなく、必要な詳細をすべて調べるのに約50ページかかるため、完全な回答をするのをためらいます。

がんばろう!


したがって、よく理解していれば、これは、(すべての仮定に基づいて)分布全体にわたって、任意の変位値の一般化誤差の上限を与えます。ただし、「クロスバリデーションエラーもテストエラーも報告しないでください」という文は理解できません。これらの2つの測定値は役に立たないということですか、それとも予測区間を見つけようとしても役に立たないということですか?
LouisBBBB

@LouisBBBB CVエラーとテストエラーは、サンプル平均を報告するようなものです。実験を実行するたびに異なる結果が得られるため、通常、なんらかの信頼区間なしでサンプル平均を報告するのは悪い習慣です。私は無意味だと言ったが、多分「役に立たない」方が良いだろう...点の推定(つまり定義)には何らかの意味があると主張する人もいるかもしれない。しかし、ポイントの推定値は、一般に、「有用な方法」でエラーの分布を特徴づけないという意味で「役に立たない」。意思決定のコンテキストで「有用」。
justanotherbrain

私はあなたの言うことを理解していると思います。したがって、平均ではなくエラーの分布を分析することをお勧めします。そして、質問に戻ると、Kas​​perは「1ポイントあたり」の予測間隔の推定値を求めていました。あなたの答えは、予測間隔の長さのグローバルな上限(または近い値)でしたか?ローカルの上限を取得する方法を知っていますか?
LouisBBBB

ああ-明確にしてくれてありがとう。私は@Kasperの質問を誤解し、多くのフォローアップの質問があると思います。これを指摘してくれてありがとう、掘ります。
justanotherbrain
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.