キャレットの再サンプリング方法

20

caretR のライブラリを使用して、さまざまなモデリング手順をテストしています。

trainControlオブジェクトは、1つの再サンプリング方法を指定することを可能にします。方法は、に記載されている文書のセクション2.3を含む：boot、boot632、cv、LOOCV、LGOCV、repeatedcvおよびoob。これらのいくつかは推測が容易ですが、これらの方法のすべてが明確に定義されているわけではありません。

これらのリサンプリング方法に対応する手順は何ですか？

r resampling caret

— ラム・アルワリア
ソース

ドキュメントのリンクが壊れています。代わりにこれを使用してください。

— ビカ16

20

わかりました、ここに私の試みがあります：

boot-ブートストラップ
boot632-0.632 ブートストラップ
cv-交差検定、おそらくこれはK分割交差検定を指します。
LOOCV-leave-one-out cross validation、別名ジャックナイフ。
LGOCV-Leave-group-outクロス検証、階層データのLOOCVのバリアント。
repeatcv-おそらく繰り返されるランダムなサブサンプリング検証です。つまり、データのトレーニングとテストの分割はランダムに行われます。
oob- Breimanによって提案された out-of-bag推定を指します。これはさらに、ブートストラップの集約に関連しています。（リンク内のファイルはpsファイルではなく、ps.Zファイルです。名前を変更してから、開いてみてください。）

— mpiktas
ソース

1

LGOCVは、トレーニングセットと検証セットの間でランダムに分割され、n回繰り返されると思います。そのため、データを列車とホールドアウトに分割する通常のケース（列車でモデルを構築し、ホールドアウトで検証する）の代わりに、このプロセスが何度も繰り返されます。

— B_Miner

3

また、繰り返されるCVはk倍のクロス検証であり、複数回実行されると考えています。

— B_Miner

これはどこにも文書化されていないとは信じがたい。

— アンドリュー

4

repeatedcvマックス・クーン氏のプレゼンテーションによると、確かに10倍の相互検証を繰り返しています。デフォルトのリサンプリングスキームはブートストラップです。

リサンプリング方法について確認できる優れたファイルは、Rとキャレットパッケージを使用した予測モデリング（pdf）です。マックスはこれを「useR！2013」で発表しました。

— tigergopro
ソース