AとBの2つの方法しかない場合、任意のトレーニング/テストパーティションについて、モデルAの(適切なパフォーマンスメトリックに基づく)エラーがモデルBのエラーよりも低い確率を計算します。この確率が0.5より大きい場合、モデルAを選択し、それ以外の場合はモデルBを選択しました(Mann-Whitney U検定を参照してください)。しかし、パフォーマンス統計の分布が非常に大きくない場合を除いて、平均が低いモデルを選択することになると強く思います。 -対称。
一方、グリッド検索の場合、実際にはさまざまな方法を比較するのではなく、同じモデルの(ハイパー)パラメーターを調整して、データの有限サンプルに適合させる(この場合は、クロスを介して間接的に) -検証)。私は、この種の調整が過度に適合しがちである可能性があることを発見しました。私の論文を参照してください
Gavin C. Cawley、Nicola LC Talbot、「モデル選択における過剰適合と、パフォーマンス評価におけるその後の選択バイアスについて」、Journal of Machine Learning Research、11(Jul):2079-2107、2010。(www)
モデル選択基準の過剰適合を回避するために、カーネルマシン(SVMなど)には比較的粗いグリッドを使用するのがおそらく最善であることを示す論文をレビューしています。別のアプローチ(私は調査していないため、注意が必要です!)は、グリッド検索で見つかった最良のモデルよりも統計的に劣らない最も高いエラーのモデルを選択することです(ただし、かなり悲観的なアプローチかもしれませんが)小さなデータセットの場合)。
ただし、実際の解決策は、おそらくグリッド検索を使用してパラメーターを最適化することではなく、ベイジアンアプローチで、またはアンサンブルメソッドとしてパラメーター値を平均化することです。最適化しないと、過剰適合が難しくなります。