相互検証における平均(スコア)対スコア(連結)


15

TLDR:

私のデータセットは非常に小さい(120)サンプルです。10倍のクロス検証を行っている間に、次のことを行う必要があります。

  1. 各テストフォールドから出力を収集し、それらをベクトルに連結して、予測のこの完全なベクトル(120サンプル)でエラーを計算しますか?

  2. それとも私がすべきである代わりに、私が手出力に誤差を計算各倍に(倍あたり12個のサンプルで)、その後、10倍の誤差推定値の平均として私の最終誤差推定値を得ますか?

これらの手法の違いを主張する科学論文はありますか?


背景:マルチラベル分類におけるマクロ/マイクロスコアとの潜在的な関係:

この質問は、マルチラベル分類タスク(たとえば5ラベルなど)でよく使用されるミクロ平均とマクロ平均の違いに関連していると思います。

マルチラベル設定では、120サンプルの5つの分類子予測すべてについて、真陽性、偽陽性、真陰性、偽陰性の集約された分割表を作成することにより、マイクロ平均スコアが計算されます。次に、この分割表を使用して、マイクロ精度、マイクロリコール、およびマイクロfメジャーを計算します。したがって、120個のサンプルと5つの分類子がある場合、600の予測(120個のサンプル* 5つのラベル)でミクロ測定が計算されます。

マクロバリアントを使用する場合、各ラベルでメジャー(精度、リコールなど)を個別に計算し、最後にこれらのメジャーを平均します。

違いの背後にある考え方マイクロマクロの推定値は、バイナリ分類問題におけるK倍の設定で何ができるかに拡張することができます。10倍の場合、10個の値を平均するか(マクロ測定)、10個の実験を連結してマイクロ測定を計算できます。

背景-展開例:

次の例は質問を示しています。12個のテストサンプルがあり、10個のフォールドがあるとします。

  • フォールド1TP = 4、FP = 0、TN = 8 精度 = 1.0
  • 折り2TP = 4、FP = 0、TN = 8 精度 = 1.0
  • 3つ折りTP = 4、FP = 0、TN = 8 精度 = 1.0
  • フォールド4TP = 0、FP = 12、 精度 = 0
  • フォールド5 .. フォールド10:すべて同じTP = 0、FP = 12、Precision = 0

ここで、次の表記を使用しました。

TP =真陽性の数、 FP =#偽陽性、 TN =真の陰性の数

結果は次のとおりです。

  • 10倍の平均精度= 3/10 = 0.3
  • 10倍の予測の連結の精度= TP / TP + FP = 12/12 + 84 = 0.125

値0.3と0.125は非常に異なることに注意してください


CVは、実際には将来のパフォーマンスを予測するための優れた尺度ではありません。分散が小さすぎます。モデルの検証には、ブートストラップを使用することをお勧めします。
user765195

2
@ user765195:引用を使って主張をバックアップできますか?
ザック

私は検索しましたが、集約されたCVメソッドに関する文献は見つかりませんでした。分散が少ないため、メジャーを計算するより適切な方法のようです。
user13420

1
@Zach、ハレルの本にいくつかの議論があります:tinyurl.com/92fsmuv(93ページの最後の段落と94ページの最初の段落を見てください。)より明示的な他の参照を思い出そうと思います。
user765195

1
知る限りでは、ブートストラップ外と反復倍交差検証を決定することはそれほど明確ではありません。それは、あなたが持っているデータのタイプとあなたがやりたい解釈に依存するかもしれません。k
cbeleitesはモニカをサポートしています

回答:


3

記載されている違いは私見偽です。

あなたは本当にポジティブ例分布(すなわち参照方法は、それが正の場合であると言います)は非常に(例のように)折り目の上に等しくない場合にのみ、それを観察します、関連するテストケースの数(パフォーマンス指標の分母私たちが話しているのは、ここでは本当に正の値)が折り畳み平均を平均するときに考慮されないことです。

最初の3倍の平均を4で重み付けすると412=13


編集:元の質問も検証の反復/繰り返しについて尋ねました:

k

  • いくつかのトレーニングサンプルを交換することでトレーニングデータが混乱した場合、予測はどの程度変化しますか?
  • つまり、同じテストサンプルに対して、異なる「代理」モデルの予測はどの程度異なりますか。

あなたは科学論文を求めていました:

分散の過小評価 最終的に、ブートストラップまたは相互検証の反復回数に関係なく、データセットのサンプルサイズは有限(n = 120)になります。

  • リサンプリング(クロス検証とブートストラップ外)の検証結果に(少なくとも)2つの分散の原因があります。

    • (テスト)サンプルの有限数による分散
    • 代理モデルの予測の不安定性による分散
  • モデルが安定している場合、

    • k
    • ただし、テストサンプルの数が限られているため、パフォーマンスの見積もりは依然として変動します。
    • データ構造が「単純」な場合(つまり、統計的に独立したケースごとに1つの測定ベクトル)、テスト結果はベルヌーイプロセス(コイン投げ)の結果であると仮定し、有限テストセット分散を計算できます。
  • nk


また、4つの分類子を使用してマルチラベル分類を行っています。そこで、4つのタスク全体のマイクロおよびマクロFメジャーを調べたいと思います。この場合、「組み合わせた」相互検証が必要になると思いますか?また、ブートストラップ外が上記の「結合された」CVメソッドと同じかどうかもわかりません。でいくつかの議論もあったstats.stackexchange.com/questions/4868/...
user13420

@ user13420:また、CVの組み合わせの意味がわかりません...ここで、ブートストラップ外および相互検証の意味を書き留めた回答があります:stats.stackexchange.com/a/26548/4598
cbeleitesサポートモニカ

@ user13420:分野によって用語は大きく異なります。マイクロおよびマクロFメジャーとは何かという情報で回答を更新できますか?ただし、相互検証は非常に一般的な手法です。これは、モデルのテスト結果を計算するためのスキームです。各ケースの参照値と各ケースの予測値を入力として必要とするパフォーマンス測定値を計算できます。
cbeleitesは、モニカをサポートします

CVを組み合わせることにより、各ホールドアウトの予測を収集し、10のホールドアウトすべての後にメジャーを計算することになります。Iは、分類タスクのための精度、再現率を測定した場合(通常のCVの場合である)、10の値および平均値は対照的にので、それは単一精度、再現率を有するであろう
user13420

2
cbeleitesに感謝します。元の質問の文言が少しわかりにくいので、これらの説明を追加しました。私の編集がより良いものになったことを願っています-ジレンマをより良く強調しようとしました-それ以外の場合はお知らせください。とは言っても、違いが偽であると言ったとき、@ user13420はアプローチ1または2に従うと、OPの下部に2つの実質的に異なる結果が得られることに注意したいと思います。私は自分でこのジレンマに直面していることに気づきました。私は信じている第二のアプローチは、より一般的しかしであるが、それであなたのテイクを取得するために素晴らしいことです。
ジョシュ

1

あなたはスコア(連結)を行う必要があります。平均(スコア)が最良の方法であるということは、この分野でよくある誤解です。あなたの場合のように、特にまれなクラスで、それはあなたの見積もりにより多くのバイアスを導入することができます。これを裏付ける論文は次のとおりです。

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

論文では、「平均(スコア)」の代わりに「Favg」を使用し、「スコア(連結)」の代わりに「Ftp、fp」を使用しています

おもちゃの例:

10倍のクロス検証と、10回出現するクラスがあり、たまたま各フォールドに1回出現するように割り当てられていることを想像してください。また、クラスは常に正しく予測されますが、データには単一の誤検出があります。偽陽性を含むテストフォールドの精度は50%ですが、他のすべてのフォールドの精度は100%です。したがって、avg(scores)= 95%。一方、スコア(連結)は10/11、約91%です。

真の母集団がデータによって十分に表され、10個の相互検証分類器が最終分類器を十分に表すと仮定すると、現実世界の精度は91%になり、95%のavg(scores)推定はかなり偏ります。

実際には、これらの仮定をしたくないでしょう。代わりに、データをランダムに並べ替え、スコア(連結)を複数回再計算し、ブートストラップすることにより、分布統計を使用して信頼性を推定できます。


これは素晴らしい論文です!元の質問の言語での結果(論文では使用されていません)は、Fスコアを計算するときに「マイクロ平均化」アプローチを使用することだと思います。具体的には、すべてのフォールドのTP、TN、FP、FNを合計して1つの混同マトリックスを取得し、Fスコア(またはその他の必要なメトリック)を計算します。
トラベリング
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.