特定のデータセットで分類器のパフォーマンスを評価し、他の分類器と比較するための最も適切なサンプリング方法は何ですか?クロスバリデーションは標準的なプラクティスのようですが、.632ブートストラップなどの方法の方が良い選択だと読みました。
フォローアップとして:パフォーマンスメトリックの選択は回答に影響しますか(精度ではなくAUCを使用する場合)?
私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。
特定のデータセットで分類器のパフォーマンスを評価し、他の分類器と比較するための最も適切なサンプリング方法は何ですか?クロスバリデーションは標準的なプラクティスのようですが、.632ブートストラップなどの方法の方が良い選択だと読みました。
フォローアップとして:パフォーマンスメトリックの選択は回答に影響しますか(精度ではなくAUCを使用する場合)?
私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。
回答:
クロス検証とブートストラップ外メソッドが適用される通常の方法の重要な違いの1つは、ほとんどの人がクロス検証を1 回だけ適用することです(つまり、各ケースを1回だけテストします)。繰り返し/反復の。その状況では、相互検証はモデルの不安定性のために、より大きな分散の影響を受けます。ただし、これは、たとえば反復/反復倍交差検証を使用することで回避できます。それが行われた場合、少なくとも私が取り組んできた分光データセットについては、両方のリサンプリングスキームの合計誤差は実際には同じであるようです。
モデルの不安定性タイプの分散を削減する可能性はなく、大きな悲観的なバイアスを示す分類子と問題があるため、Leave-one-outクロス検証は推奨されません。
.632ブートストラップは、混入するリサンプリングエラーが楽観的に偏りすぎない限り、妥当な仕事をします。(たとえば、私が扱うデータ、多くの変量を持つ非常に幅の広い行列の場合、モデルが深刻な過剰適合を起こしやすいため、うまく機能しません)。これはまた、さまざまな複雑さのモデルを比較するために.632ブートストラップを使用することを避けることを意味します。.632+ブートストラップでは経験がありません:オーバーフィッティングが発生し、適切に検出された場合、それは元のブートストラップ外の推定値と等しくなるので、データに対して単純なoobまたは反復/反復クロス検証を使用します。
文献:
DoughertyとBraga-Netoには、トピックに関する多くの出版物があります。
Beleites、C。et al。:スパースデータセットを使用した分類誤差の推定における分散の削減Chemom Intell Lab Syst、2005、79、91-100。
回だけ相互検証を行うか、反復/反復を比較し、out-of-bootstrapおよび.632と比較します。多重共線性を持つ特に幅の広いデータのブートストラップも同様です。
Kim、J.-H .:分類エラー率の推定:反復交差検証、反復ホールドアウトおよびブートストラップ、計算統計とデータ分析、2009、53、3735-374
また、反復/反復倍交差検証およびブートストラップ外でも同様のパフォーマンスが得られます(クロス検証を1回だけ実行するのとは対照的です)。
accuray(@FrankHarrellは、適切なスコアリングルールではないため、これは悪い選択であると通知します)は、分類器がたとえば60だけを予測した場合でも、各ケースを完全に正しいか、完全に正しくないものとしてカウントするため、高分散になります問題のクラスに属するテストケースの事後確率(%)。適切なスコアリングルールは、たとえば、Brierのスコアです。これは、回帰の平均二乗誤差と密接に関連しています。
平均二乗誤差の類推は、精度、感度、特異性、予測値などの比率で利用できます。Beleites、C. et al。:部分クラスメンバシップを使用したソフト分類モデルの検証:星細胞腫組織のグレーディングに適用される感度とCo.の拡張コンセプト、Chemom Intell Lab Syst、2013、122、12-22; DOI:10.1016 / j.chemolab.2012.12.003(プレプリントへのリンクも記載されている要約ページ)
私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。
ペアテストを使用してそれを評価します。割合を比較するには、マクネマーの検定をご覧ください。
これに対する答えは、メトリックの選択によって影響を受けます。回帰タイプのエラー測定には、しきい値を使用して意思決定をカットする「強化」ステップがないため、多くの場合、分類対応よりも分散が少なくなります。基本的にプロポーションである精度などのメトリックは、ある分類器が別の分類器より優れていることを確認するために膨大な数のテストケースを必要とします。
Fleiss:「比率と比率の統計的方法」では、比率の不対比較の例(および表)を示しています。「巨大なサンプルサイズ」で私が意味することの印象を与えるために、この他の質問に対する私の答えの画像を見てください。McNemarのようなペアテストではテストケースの必要性は低くなりますが、IIRCでは、未ペアテストに必要なサンプルサイズの半分(?)が最適なケースのままです。
分類器のパフォーマンス(強化)を特徴付けるには、通常、ROC(感度と特異性)などの少なくとも2つの値の作業曲線が必要です。
私のアプリケーションには通常、感度が特異性よりも重要である、またはこれらの測定値の特定の境界を満たす必要があるなどの制限があるため、私はめったに全体的な精度またはAUCを使用しません。「単一数」の合計特性を求める場合は、見ているモデルの動作点が実際に適切な範囲内にあることを確認してください。
参照ラベルに従っていくつかのクラスのパフォーマンスを要約する精度およびその他のパフォーマンス測定値については、アプリケーションで発生するクラスの相対的な頻度を考慮するようにしてください。これは、必ずしも同じではありませんトレーニングまたはテストデータ。
プロボスト、F。ら :1998年の機械学習に関する第15回国際会議の議事録における帰納アルゴリズムを比較するための精度推定に対する事例
編集:複数の分類子の比較
私はしばらくこの問題について考えていましたが、まだ解決策に到達していませんでした(また、解決策を持っている人に会いませんでした)。
ここに私がこれまでに得たものがあります:
問題は、大規模な多重比較の状況に非常に迅速に遭遇することです。
ただし、手元にあるアプリケーションの場合、複数の比較を行っても事態が悪化することはありません。単一の比較でさえ十分なテストケースがないためです...
モデルハイパーパラメーターの調整は、一般的なモデル比較問題の特殊なバージョンであり、最初は簡単に取り組むことができると思います。ただし、モデルの品質は、モデルの種類を選択するよりも、モデルを作成する人の専門知識に大きく依存するという噂があります。
とりあえず、私は「最適化はすべての悪の根源」であると
判断し、代わりに非常に異なるアプローチを取ります。手元の問題に関する専門知識によって可能な限り判断します。これにより、実際にかなり物事を絞り込むことができるため、モデルの比較を頻繁に避けることができます。モデルを比較しなければならないときは、パフォーマンスの推定の不確実性を人々に思い出させ、特に複数のモデルの比較は未だに未解決の問題であることを人々に思い起こさせるように非常にオープンで明確にしようとします。
テストのすべては、すべてのモデルがまったく同じテストケースでテストされるため、ケースを一方で「簡単な」ケースと「難しい」ケースに分割して、すべてのモデルが正しい(または間違っている)予測。モデルを区別するのに役立ちません。一方、一部のモデルでは正しく予測されるが、他のモデルでは予測されない「興味深い」ケースがあります。優越性を判断するには、これらの「興味深い」ケースのみを考慮する必要があり、「簡単」なケースも「難しい」ケースもそれを助けません。(これが、マクネマーのテストの背後にある考え方を理解する方法です)。
モデル間の大規模な多重比較について、1つの問題は、非常に幸運でない限り、比較するモデルが多いほど、より少ないケースをさらなる考慮事項から除外できることです:すべてのモデルが本当に等しい場合でも全体的なパフォーマンス、ケースが最終的になる可能性はますます少なくなります
ブートストラップ(.632、.632 +)を変更する必要があるのは、元の研究が不連続で不適切なスコアリングルールを使用したためです(割合は正しく分類されています)。他の精度スコアの場合、通常の楽観的なブートストラップはうまく機能する傾向があります。詳細については、http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_Tを参照してください
不適切なスコアリングルールは、機能の選択とその重みを誤解させます。言い換えれば、うまくいかない可能性のあるものはすべてうまくいかないでしょう。
から 「アプライド・予測モデリング。、クン。ジョンソン。p.78
「他の方法よりも均一に優れたリサンプリング方法はありません。いくつかの要因を考慮して選択する必要があります。サンプルサイズが小さい場合、いくつかの理由で10倍交差検証を繰り返すことをお勧めします。サンプルサイズ、計算コストは大きくありません。パフォーマンスの最良の指標を取得するのではなく、モデル間で選択することが目標である場合、ブートストラッププロシージャは分散が非常に小さいため、強力なケースを作成できます。サンプルサイズが大きい場合、リサンプリング方法の違いはそれほど顕著ではなくなり、パフォーマンスの計算効率が向上します。」p。78
さらに、2つの同様の結果を選択した場合、一般的には、より解釈可能なモデルが優先されます。例として(同じテキストから)、10倍のCVを使用して、SVM分類器は75%の精度推定値を持ち、リサンプリング結果は66〜82%でした。74.9%の精度で同じリサンプリング範囲のロジスティック回帰分類器で同じパラメーターが使用されました。結果を解釈するのが簡単であるため、より単純なロジスティック回帰モデルが好まれます。