これはおそらくばかげた質問かもしれませんが、キャレットを使用してモデルを生成し、LOOCV
または(さらにLGOCV
言えば)何かを使用する場合、これが本質的にクロス検証ステップである場合、データをトレーニングセットとテストセットに分割する利点は何ですか?とにかく?
私はいくつかの関連する質問を読みました、そして彼らはいくつかの交差検定方法(例えば、キャレットサイトでここで説明されているもの)が特徴選択の目的のためであると提案しました。しかし、私の場合、randomForest
(method = "rf"
)とkernlab
(method = svmRadial
)を使用しています。これらは、予測子をパージしようとするグループにリストされていません。
したがって、私の質問は、のようなものを使用する場合cross_val <- trainControl(method = "LGOCV", p = 0.8)
、私のデータの80%でトレーニングし、残りの20%で結果のモデルをテストし、それを何度も繰り返して、モデルは機能していますか?
もしそうなら、私のデータをトレーニング/テストセットに分割する必要がありますか?
PS私は、経験的に生成されたDOEプロトタイプでモデルを実行しているときに一部質問します(入力を微調整し、テストメソッドを使用してプロトタイプに関するさまざまな属性を測定するハードグッズを考えてください)。
そのため、モデル化する予測子レベルが重複している膨大なデータセットはありません。この場合、データ生成には費用がかかるため、関心のある各DOEポイントで1つの試行を実行することがよくあります。したがって、できる限り正確なモデルに使用できるデータを使用したいのですが、何かを明確に見逃していないこと、および分割しないことで質の悪いモデルを作成していないことをここで確認したいと思います。
編集: @topepoの質問に答えて、私は式の化学入力の調整に基づいて、化合物の物理的に測定された属性をモデリングしています。実際のアプリケーションについては説明できませんが、インテリアラテックスペイントの配合に基づいた例を作成します。私は、4〜5種類の化学物質をブレンドし、固形分(%)で遊んで、ポリマー溶液を加熱して重合度を調整する時間を計画した実験を行っています。
次に、レオロジー、分子量、塗料コーティングの硬度、耐水性などを測定します。
いくつかの変数のまともな複製がありますが、すべてのDOEレベルがまったく同じであるという意味で、真の複製はほとんどありません。合計データセットは〜80の観測値であり、おそらく4〜5は正確な繰り返しです。私たちは15の異なるテストを実施しましたが、おそらく5〜6回のテストがすべての観察で行われています。一部の応答は、データの25-50%に存在します。
ここから、7つの予測子が出力プロパティに与える影響をモデル化し、目的のプロパティを与える可能性が最も高い新しい設計空間をターゲットとするように最適化します。
(ここに私の質問があります。トレーニング済みのモデルができたら、「リバース」を実行し、必要な応答を入力して、可能な入力レベルでの最適な推測を得て、次に試すことをお勧めします)。
data_set1
、LGOCV
交差検証によって実行されるステップは何と見なすのですか?私のリーディングから、1)caret
チューニングパラメータを反復しdata_set1
、次に2)それらのパラメータを固定して保持し、3)各p = 0.8
サンプルの#1からのパラメータを使用して「サブモデル」を作成data_set1
し、残りの0.2の予測をテストして精度を測定します。 。それは合理的な要約ですか?