私は小さなアンバランスデータセット(70ポジティブ、30ネガティブ)を使用しており、BAC(バランス精度)とAUC(曲線の下の面積)を使用してSVMパラメーターのモデル選択をいじっています。libSVMのCパラメーターにさまざまなクラスの重みを使用して、ここでのアドバイス(不均衡データに対する決定木のトレーニング)に従って不均衡データを相殺しました。
k分割交差検証エラーは、パフォーマンス測定のタイプに非常に敏感であるようです。トレーニングと検証のセットがランダムに選択されるため、それ自体にもエラーがあります。たとえば、ランダムシードを変えてBACを2回繰り返すと、異なるエラーが発生し、その後、最適パラメーターの値も異なります。繰り返しBACスコアを平均化する場合、1000回の平均では、10000回の平均とは異なる最適パラメーター値が得られます。さらに、フォールドの数を変更すると、さまざまな最適パラメーター値が得られます。
相互検証の精度指標は、楽観的になりすぎる場合があります。通常、2倍の相互検証を超えると、100%の精度が得られます。また、サンプルサイズが小さいため、エラー率は離散化されます。多くの場合、モデルを選択すると、すべてまたはほとんどのパラメーター値で同じエラー率が得られます。
レポートを作成するとき、分類が「良い」または「許容できる」ことをどのように知ることができますか?現場では、一般的に受け入れられている適合度やp値のしきい値のようなものはないようです。データに繰り返し追加しているので、いつ停止するかを知りたいのですが、モデルが大幅に改善しない場合の良いNは何ですか。
上記の問題を考えると、AUCはパフォーマンスの指標としては不十分であると説明されていますが(たとえば、ここ、またはここを参照)、精度を簡単に比較することはできないようです。
これらの3つの問題のいずれかに取り組む方法に関するアドバイスはありますか?