一般的に、大きなデータセットがある場合は、(1)トレーニング、(2)検証、(3)テストに分割できます。検証を使用して相互検証(SVMのCなど)で最適なハイパーパラメーターを特定し、トレーニングセットで最適なハイパーパラメーターを使用してモデルをトレーニングし、トレーニングされたモデルをテストに適用してパフォーマンスを取得します。
データセットが小さい場合、トレーニングとテストセットを作成できません(サンプルが不十分)。したがって、モデルのパフォーマンスを評価するために、交差検証(k-fold、leave-one-outなど)を行います。
ネストされた交差検証(繰り返しまたは層別)が小さなデータセットの設定で使用されていることを確認しました。つまり、パラメーター選択を最適化しながら一般化モデルのパフォーマンスを生成します。私の質問は、ネストされた交差検証で最高のハイパーパラメーターを取得するにはどうすればよいですか(繰り返される/繰り返されない)? 可能であれば、scikit-learnでこれを行うことに興味があります。私はそれを行う方法について少し混乱しています。
私はいくつかのリソースを読みましたが、この質問に対する明確な答えはありませんでした。