推定された分類精度に基づいて、ある分類子が別の分類子よりもベースセットで統計的に優れているかどうかをテストします。各分類子について、トレーニングとテストのサンプルを基本セットからランダムに選択し、モデルをトレーニングして、モデルをテストします。これを各分類子に対して10回行います。したがって、各分類器について10個の推定分類精度測定値があります。ベースデータセットで、がよりも優れた分類器であるかどうかを統計的にテストするにはどうすればよいですか。どのt検定を使用するのが適切ですか?
推定された分類精度に基づいて、ある分類子が別の分類子よりもベースセットで統計的に優れているかどうかをテストします。各分類子について、トレーニングとテストのサンプルを基本セットからランダムに選択し、モデルをトレーニングして、モデルをテストします。これを各分類子に対して10回行います。したがって、各分類器について10個の推定分類精度測定値があります。ベースデータセットで、がよりも優れた分類器であるかどうかを統計的にテストするにはどうすればよいですか。どのt検定を使用するのが適切ですか?
回答:
いくつかのt検定アプローチのレビューと批評は、校正されたテストに基づく2つの学習アルゴリズムの選択、教師付き分類学習アルゴリズムを比較するための近似統計的テスト、および分類子の比較:回避すべき落とし穴と推奨されるアプローチ
私は手にフリースの本を持っていないので、これはすべてIIRCです。
現在のコメントで@JohnMoellerの質問に答える:元の質問は、私見では答えられません。
したがって、30個のサンプルがあり、各サンプルでc1とc2をテストし、各サンプルでそれぞれの精度を記録するとします。
これを行うと、分類器1が正しい/間違っていることに対して分類器1が正しい/間違っていることを示す2 x 2分割表になります。これがMcNemarのテストの出発点です。したがって、これは「独立した」比率(同じ有限サンプルからランダムに描画した場合に完全に独立していない)を比較するよりも強力なペア比較用です。
マクネマーの「小さな活字」は今は調べられませんが、30個のサンプルはそれほど多くありません。そのため、McNemarから二項確率を計算するFisherの正確なテスト(または他の何か)に切り替える必要さえあります。
比率の平均:
同じ分類子を10のテストケースで10xテストするか、100のケースすべてで1回テストするかは問題ではありません(2 x 2のテーブルはすべてのテストケースをカウントします)。
元の質問の各分類子の精度の10の推定値がランダムホールドアウト、10倍交差検証、または10倍のブートストラップ外から取得された場合、通常、各分類子に対して計算された10個の代理モデルは同等であると仮定されます(=同じ精度を持っている)、テスト結果をプールすることができます*。10倍交差検定では、テストサンプルのサイズがテストサンプルの総数と等しいと仮定します。他の方法については確信が持てません。同じケースを複数回テストしても構いません。データ/問題/アプリケーションによっては、これは新しいケースをテストするほど多くの情報になりません。