汎化パフォーマンスの分布の比較


10

分類問題には2つの学習方法Bがあり、交差検証やブートストラップを繰り返して、それらの一般化パフォーマンスを推定するとします。このプロセスから、これらの繰り返しにわたる各メソッドのスコアP AおよびP Bの分布を取得します(たとえば、各モデルのROC AUC値の分布)。AB PAPB

これらの分布を見ると、それはその可能性が が、そのσ Aσ B(すなわちの予想汎化性能をAがより高いBが、この見積りの詳細不確実性があること)。μAμBσAσBAB

これは回帰のバイアス分散ジレンマと呼ばれていると思います。

P AP Bを比較し、最終的にどのモデルを使用するかについて情報に基づいた決定を行うには、どのような数学的な方法を使用できますか?PAPB

注:簡単にするために、ここでは2つの方法Bを参照していますが、約1000の学習方法のスコアの分布を比較するために使用できる方法(たとえばグリッド検索から)に興味があり、最終的に使用するモデルに関する最終決定。AB


ここでは、バイアス分散のトレードオフという用語は当てはまらないと思います。平均二乗誤差をバイアスと分散に分解しておらず、推定量の分散ではなく、スコアの分散について話しているからです。
Lucas

ABE(PA)E(PB)ABPAPB

2
@ user815423426比較はあなたが持っている損失関数に依存すると思います。ディーボルドとマリアーノ(2002)はあなたの質問を研究する素晴らしい論文を書いています。彼らは、「一般化」性能を比較するいくつかの統計的検定を提案しました。コメントにリンクを設定する方法がわかりません。論文は、Diebold、Francis X.、およびRobert S. Marianoです。「予測精度の比較。」Journal of Business&Economic Statistics 20.1(2002):134-144。
2013

回答:


2

AとBの2つの方法しかない場合、任意のトレーニング/テストパーティションについて、モデルAの(適切なパフォーマンスメトリックに基づく)エラーがモデルBのエラーよりも低い確率を計算します。この確率が0.5より大きい場合、モデルAを選択し、それ以外の場合はモデルBを選択しました(Mann-Whitney U検定を参照してください)。しかし、パフォーマンス統計の分布が非常に大きくない場合を除いて、平均が低いモデルを選択することになると強く思います。 -対称。

一方、グリッド検索の場合、実際にはさまざまな方法を比較するのではなく、同じモデルの(ハイパー)パラメーターを調整して、データの有限サンプルに適合させる(この場合は、クロスを介して間接的に) -検証)。私は、この種の調整が過度に適合しがちである可能性があることを発見しました。私の論文を参照してください

Gavin C. Cawley、Nicola LC Talbot、「モデル選択における過剰適合と、パフォーマンス評価におけるその後の選択バイアスについて」、Journal of Machine Learning Research、11(Jul):2079-2107、2010。(www

モデル選択基準の過剰適合を回避するために、カーネルマシン(SVMなど)には比較的粗いグリッドを使用するのがおそらく最善であることを示す論文をレビューしています。別のアプローチ(私は調査していないため、注意が必要です!)は、グリッド検索で見つかった最良のモデルよりも統計的に劣らない最も高いエラーのモデルを選択することです(ただし、かなり悲観的なアプローチかもしれませんが)小さなデータセットの場合)。

ただし、実際の解決策は、おそらくグリッド検索を使用してパラメーターを最適化することではなく、ベイジアンアプローチで、またはアンサンブルメソッドとしてパラメーター値を平均化することです。最適化しないと、過剰適合が難しくなります。


ディクランに感謝します。あなたが言うとき"average over the parameter values"、私は、(例えば、分類器出力の平均としてアンサンブル出力を構築する)アンサンブルメソッドを介してこれを行う方法を理解すると思うが、差別的モデルで作業するとき、私はベイジアンアプローチでこれを行う方法がわかりません。私は完全なベイズアプローチの理論を理解しています(つまり、点推定を避け、パラメーターを取り除いて最終的な事後を構築します)。ただし、パラメーターの事前分布が均一であると仮定すると、これは平均アンサンブルの構築と同等ではありません。 ?
Amelio Vazquez-Reina

1
ベイジアンアプローチでは、モデルは限界尤度(ベイジアンエビデンス)とハイパーパラメーター上に配置された事前確率によって重み付けされるため、モデルに特定の方法で重み付けするアンサンブルの平均化の特別なケースになります。
Dikran Marsupial 2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.