各サロゲートモデルのグリッド検索を行った後、いくつかのことを確認できます。
- 最適化されたパラメーターのバリエーション(ここではおよびC)。
最適なパラメーターは安定していますか?そうでない場合、問題が発生している可能性が非常に高くなります。γC
- 報告された内側と外側のクロス検証のパフォーマンスを比較します。
内部(つまり調整)のクロス検証が外部(最終モデルの検証)よりもはるかに良く見える場合、問題も発生しています:過剰適合です。調整されたパラメーターがまったく最適ではないという大きなリスクがあります。ただし、外側のクロス検証が適切に行われた場合(すべてのテストセットがそれぞれのサロゲートモデルから完全に独立している場合)、少なくともモデルのパフォーマンスの公平な(!)推定があります。しかし、それが最適であると確信することはできません。
- 最適な発音はどれくらいですか?最適ではないパラメーターのパフォーマンスは急速に低下しますか?最適なパフォーマンスはどの程度ですか?
モデルの選択による過剰適合について言うことはたくさんあります。ただし、分散と楽観的バイアスの両方が実際に害を及ぼす可能性があることに留意してください
- 分散とは、真に最適なハイパーパラメーターから誤って遠く離れてしまう可能性があることを意味します。
- しかし、バイアスも傷つける可能性があります:過剰適合している場合、多くのモデルが内部相互検証に完璧に見える状況に陥ることがあります(しかし、実際にはそうではありません)。その場合、モデル間の違いが認識されないため、チューニングが失敗する可能性があります。
- バイアスがハイパーパラメータに依存している場合、大きな問題に直面しています。
例に興味があり、ドイツ語を読むことができれば、私のDiplom論文をオンラインに掲載できます。
私の経験では、ハイパーパラメーターの調整は過剰適合のための非常に効果的なアイデアです...
ここで、過剰適合に気付いた場合、主に2つのオプションがあります。
- 最適化に過剰適合の問題があったが、適切な外部検証を行った結果、...(外部相互検証の結果)であることを報告します。
- モデルの複雑さを制限します。これを行う1つの方法は、ハイパーパラメーターを修正することです。
ハイパーパラメーターを各トレーニングセットにチューニングする代わりに、(ハイパー)パラメーターを事前に指定する(つまり、事前に修正する)こともできます。私は通常、あなたが持っているよりもさらに少ないケースを持っているので、私のモデルに対して可能な限りそれを行います。以下を参照してください。
ただし、この修正は実際にかつ正直に事前に行う必要があります。たとえば、同僚に類似のデータセットで最適化されたパラメーターを求めた(独立した実験)か、パラメーターのグリッド検索を含む事前実験を行います。その後、その最初の実験を使用して、実際の実験とデータ分析のためのいくつかの実験パラメーターとモデルパラメーターを修正します。詳細については、以下を参照してください。
もちろん、自動的に最適化されたモデル(二重またはネストされた検証)で適切なテストを行うことは可能ですが、サンプルサイズによってデータを2回分割できない場合があります。
そのような状況では、ある種の自動的に最適化されたモデルの楽観的な推定値を報告するよりも、モデリングパラメーターの選択方法に関する専門的な経験を使用して構築されたモデルの正直な推定値を報告する方がはるかに優れています。
状況に関する別の観点は、トレードオフする必要があるということです
- パラメーターの最適化のためにさらに別のケースを用意することによるパフォーマンスの低下(トレーニングサンプルサイズが小さい=>モデルが悪いが、「最適な」パラメーター)
- 専門家による最適ではないパラメーター修正によるパフォーマンスの低下(ただし、より大きなトレーニングデータ)。
同様の質問に関する同様の考え:https : //stats.stackexchange.com/a/27761/4598
パラメーターの修正とDikran Marsupialのコメントについて
Dikran Marsupialが彼の論文で使用しているように、私はハイパーパラメーターという用語を使用しています(彼の答えのリンク)
分光データを使用しています。これは一種の測定であり、データの分析とモデリングには多くの場合、かなりの前処理が含まれます。これはハイパーパラメーターとみなすことができます(たとえば、ベースラインに使用する多項式の順序は?どの測定チャネルを含める必要がありますか?)。svmパラメーターに近い他の決定事項があります。たとえば、「実際の」モデルがトレーニングされる前にPCAが次元削減のために行われる場合、使用する主成分の数はどれくらいですか。また、時にはSVM分類も使用するため、SVMパラメーターを決定する必要があります。
現在、ハイパーパラメータを修正する最善の方法は、アプリケーションに起因する理由がある場合です。例えば、私は通常、物理的/化学的/生物学的理由(つまり、標本に関する知識とそれに続く分光学的挙動)によって、どの種類のベースラインを使用するかを決定します。しかし、私はSVMパラメータに役立つこのような議論を認識していません...
上で述べた事前実験の場合は次のようになります。
- 一連の細胞のデータを取得します(異なる細胞株を区別したい)。
スペクトルが分析され、反復二重交差検証SVMが実行されます(計算サーバーで1〜2泊しました)。
- γC
- また、特定のオーバーフィッティングを観察します。外側のクロス検証は、チューニングの結果ほど良くありません。それは予想通りです。
- それでも、ハイパーパラメーターのチューニング範囲ではパフォーマンスに違いがあり、チューニンググリッドでのパフォーマンスはかなり滑らかに見えます。良い。
私の結論は、最終的なハイパーパラメーターが最適であることを確信することはできませんが、外側のクロス検証により、サロゲートモデルのパフォーマンスの適切な推定が得られます。
実験パートでは、実験のセットアップのいくつかの変更を決定しました(データのS / Nに影響を与えないものの、機器の自動化の一歩先を行くもの)
実験設定を改善し、新しいスペクトルを取得します。細胞がそうであるように、それらは新たに成長する必要があります。すなわち、新しいデータセットは独立したカルチャーバッチです。
今、私は決定に直面しています:内側の交差検証を「スキップ」し、古いデータで決定したハイパーパラメーターをそのまま使用する必要がありますか?
- 上記のように、これらの事前定義されたハイパーパラメーターが最適ではないというリスクを冒しています。
- しかし、内部(調整)の相互検証を行うことで、真に最適なハイパーパラメーターを確実に取得することもできません。
- ただし、古いデータのチューニングは安定していました。
- 最適化を行うことで、より少ないサンプルでトレーニングします:とにかくToo Few Samples(TM)があるので、2回目の相互検証のためにもっと多くのサンプルを確保すると、より悪いモデルを取得することを期待する必要があります。
そのため、その場合、固定パラメーターを使用することにしました(同様のデータの経験から、将来、大きなデータでこれらの決定を再確認するなど、「宿題」を行う必要があることを知っています)。
重要なことは、外側のものではなく、内側(クロス検証のチューニング)をスキップすることです。固定ハイパーパラメーターを使用すると、準最適なモデルのパフォーマンスの公平な推定値が得られます。確かに、この推定値は大きな変動の影響を受けますが、この変動は基本的に内部調整を行っても行わなくても同じです。
外側のクロス検証をスキップすると、調整されたモデルの楽観的に偏った推定値が得られます。これは、アプリケーションとデータによっては(非常に楽観的すぎる場合)価値がなく、楽観的な偏りは明らかに受け入れられない可能性があります。