階層化された相互検証の理解


55

成層交差検定交差検定の違いは何ですか?

ウィキペディアによると:

層状K倍クロスバリデーション、折り目は、平均応答値は、全ての折り目にほぼ等しくなるように選択されます。二分法の分類の場合、これは、各フォールドが2種類のクラスラベルのほぼ同じ割合を含むことを意味します。

しかし、私はまだ混乱しています。

  1. 何をしないmean response value、この文脈で意味ですか?
  2. なぜ#1が重要なのですか?
  3. 実際にどのように#1を達成しますか?

回答:


43

Encyclopedia of Database Systemsのクロスバリデーションの記事には次のように書かれています。

階層化とは、各フォールドが全体を適切に代表するようにデータを再配置するプロセスです。たとえば、各クラスがデータの50%を構成するバイナリ分類問題では、すべてのフォールドで各クラスが約半分のインスタンスを含むようにデータを配置するのが最善です。

成層化の重要性について、Kohavi(精度推定とモデル選択のための交差検証とブートストラップの研究)は次のように結論付けています。

通常、層別化は、通常の相互検証と比較して、バイアスと分散の両方の点で優れたスキームです。


5
なぜ通常の履歴書よりも優れているのか、直感的に説明できますか?
MohamedEzz

おそらく、目標とする階層化の程度が異なり、ひだのランダム性がさまざまな程度に干渉するという段落を含めることができます。時々、必要なのは、各フォールドに各クラスの少なくとも1つのレコードがあることを確認することだけです。次に、折り畳みをランダムに生成し、その条件が満たされているかどうかを確認し、まれな場合にのみ、折り畳みをシャッフルします。
デビッドエルンスト

37

階層化は、各折り畳みがデータのすべての階層を代表するようにすることを目的としています。一般に、これは分類のために監視された方法で行われ、各クラスが(おおよそ)トレーニングフォールドを形成するために補完的な方法で組み合わされる)各テストフォールドで(ほぼ)等しく表現されることを目的としています。

この背後にある直感は、ほとんどの分類アルゴリズムのバイアスに関連しています。それらは各インスタンスを均等に重み付けする傾向があります。つまり、過剰に表現されたクラスの重みが大きくなりすぎます(Fメジャーの最適化、精度、またはエラーの補完形式)。階層化は、各クラスを均等に重み付けするアルゴリズム(たとえば、Kappa、Informedness、ROC AUCの最適化)またはコストマトリックス(たとえば、各クラスに適切に重み付けされた値、および/または各方法のコスト誤分類)。たとえば、DMW Powers(2014)、F-measureが測定しないもの:機能、欠陥、誤り、修正を参照してください。http://arxiv.org/pdf/1503.06410

偏りのない、またはバランスの取れたアルゴリズムでも重要な特定の問題の1つは、フォールドでまったく表されていないクラスを学習またはテストできない傾向があることです。さらに、クラスの1つだけが折り畳みで表されているため、一般化を実行できません。評価した。ただし、この考慮事項も普遍的ではなく、たとえば、個々のクラスの正常な状態を判断しようとする1クラスの学習にはあまり適用されません。特定の分類子を生成しない統計を決定することです。

一方、テストデータのラベルはトレーニングに影響を与えないはずですが、層別化ではトレーニングインスタンスの選択に使用されるため、教師付き階層化は評価の技術的純度を低下させます。真のクラスではなく、データの属性のみを参照して同様のデータを拡散することに基づいて、教師なし階層化も可能です。たとえば、http: //citeseerx.ist.psu.edu/viewdoc/summary?doi = 10.1.1.469.8855 NA Diamantidis、D。Karlis、EA Giakoumakis(1997)、精度推定のための相互検証の教師なし階層化を参照してください 。

階層化は分類ではなく回帰にも適用できます。この場合、教師なし階層化のように、同一性ではなく類似性が使用されますが、教師ありバージョンでは既知の真の関数値が使用されます。

さらに複雑なのは、まれなクラスとマルチラベル分類です。ここでは、複数の(独立した)次元で分類が行われます。ここで、すべての次元にわたる真のラベルのタプルは、相互検証のためにクラスとして扱うことができます。ただし、必ずしもすべての組み合わせが発生するわけではなく、一部の組み合わせはまれです。まれなクラスとまれな組み合わせは、少なくとも1回発生し、K回(K-CVで)未満のクラス/組み合わせをすべてのテストフォールドで表すことができないという問題です。そのような場合、代わりに、階層化ブーストラッピングの形式を検討することができます(テストフォールドの置換なしで最初に選択された各クラスの1つのインスタンスを使用して、テストで選択が繰り返され、36.8%が予期されないフルサイズのトレーニングフォールドを生成するための置換を使用したサンプリング) 。

マルチラベル層別化のもう1つのアプローチは、組み合わせの代表的な選択を保証することなく、各クラスディメンションを個別に層化またはブートストラップすることです。LラベルとNインスタンス、およびラベルlのクラスkのKklインスタンスを使用すると、対応するラベル付きインスタンスのセットDklからほぼN / LKklインスタンスをランダムに選択できます(置換なし)。これは最適なバランスを保証するのではなく、ヒューリスティックにバランスを求めます。これは、選択の余地がない限り(一部の組み合わせが発生しないか、まれであるため)、クォータ以上のラベルの選択を禁止することで改善できます。問題は、データが少なすぎるか、ディメンションが独立していないことを意味する傾向があります。


5

平均応答値はすべてのフォールドでほぼ等しいです。これは、すべてのフォールドでの各クラスの割合がほぼ等しいという別の方法です。

たとえば、80個のクラス0レコードと20個のクラス1レコードを持つデータセットがあります。(80 * 0 + 20 * 1)/ 100 = 0.2の平均応答値を得ることができ、0.2をすべてのフォールドの平均応答値にしたいです。これは、指定されたデータセットがカウントではなく不均衡であるかどうかを測定するEDAの迅速な方法です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.