相互検証フォールドとは何ですか、またはこのフレーズは意味がありませんか?


9

k分割交差検証の概念は理解していますが、「フォールド」の意味がわかりません。ウィキペディアのリンク先ページからの引用:

次に、交差検証プロセスがk回繰り返されます(フォールド)。

これは非常にあいまいなようです。「折り畳み」はプロセスの各繰り返しを指しますか?それとも、ペアのトレーニングとテストのデータセットを参照するのは名詞ですか?


2
私はクロスバリデーションが何であるかさえ知らないことを告白しますが、これは単に "の通常の英語の意味ではありませんk-fold」は「」を意味しますk「手持ち核兵器の合法化以来、暴力犯罪は4倍に増加している」のように
David Richerby

それは非常に良い点です。それでも、回答でわかるように、フォールドを使用してデータを参照できます。
Alex

ええ、それはキャッチーな非ネイティブスピーカーによる誤解のようにひどく聞こえますが。
David Richerby 2016

回答:


10

言葉遣いは間違いなくそこにあります。

交差検証はデータセットを Kほぼ等しい「サブデータセット」。これらの「サブデータセット」のそれぞれを「フォールド」と呼びます。Kフォールド相互検証には、モデルの再適合が必要です K毎回、毎回データから正確に1つのフォールドを省略しているため、「フォールド」という用語は、各繰り返しを参照するために使用することできます。

折り返しと繰り返しの間には1対1の対応があるため、通常、この緩い用語には問題はありません。これは通常、どのような使用法が意図されているかから明らかであり、他の場合には違いはありません。


そのため、この解釈により、各独立テストセットは「フォールド」になります。したがって、トレーニングデータは「フォールドにないデータ」と呼ばれます。これについてのリファレンスはありますか?
Alex

1
そして、はい、「フォールドオブフォールド」は有効な用語です
シャドウトーカー

2
kモデルは、サロゲートモデルと呼ばれることもあります。たとえば、Braga-Neto UM、Dougherty ERなどを参照します。小標本マイクロアレイの分類に対して交差検証は有効ですか?バイオインフォマティクス。2004 2月12日; 20(3):374-80。dx.doi.org/10.1093/bioinformatics/btg419。「フォールド」は、相互検証の「実行」(反復/反復)と区別して使用されることが多い(実行は、k「手順」の意味で
折りたたむ

2
+1が「折りたたまれていないデータ」というフレーズは、@ Alexが非常に不自然で非常に不明瞭に聞こえます。使用しないでください。
amoeba 2016

1
私はデータセットの各チャンクを意味するために、「フォールド」を怠惰に使用することがよくあります。「フォールド5は残りのデータと比較して不均衡です」のように
shadowtalker

3

「フォールド」とは、サンプルのパーティション(単語の集合論的意味)を指します。S、トレーニングセットに、 Tj、検証セット、 Vj。これの意味は:

  1. TjVj=
  2. TjVj=S

1jk)。

「クラシック」では k-fold cross-validation(CV)追加の条件が検証セットに配置されます。

  1. ViVj=j)。

最後に、 k クラシックで k-fold CVは、train-validateプロシージャが実行される回数と、検証およびトレーニングセットのサイズの両方を制御します。 |Vj|1k|S|したがって、 |Tj|k1k|S|


0

OPはこの用語が扱いにくく混乱していることに同意します。私の見解は次のとおりです。十分な教育を受けたネイティブの英語話者は、「2倍」や「3倍」などの用語に慣れています。ただし、これらの単語には名詞「fold」が含まれているとは見なされません。「fold」は、ここでは接尾辞の詳細です。「double」または「triple」などのカラフルなバリエーションを作るために数字と組み合わされた面白い特別な構造です。「fold to」または「fold to」という動詞とはまったく関係ありません。折り紙をしているときに、折り畳まれた紙を指すときに現れる可能性のある名詞「fold」。

「フォールド」という単語は、kフォールド相互検証の文脈で「パーティション」を意味する名詞として使用され始めたのではないかと思います。 「データのk 'folds'を作る」ことを意味しました。誰かがこの結論に達することは非常に理解できます。ただし、「k-fold」は「kを 'fold'する」ことを意味するのではなく、「クロス検証をk回行う」ことを意味します。データのkパーティションも作成する必要があることの詳細が暗示されています。

個人的に私はこの奇妙な方法で「フォールド」を使うことはありません。問題のデータセグメントを「パーティション」と呼んでいますが、それははるかに明確です。

また、この使用法がコミュニティ全体に広がったからといって、IMOを妥当な英語の使用法にすることはできません。私は、混乱を招く新しい専門用語を発明して使用するよりも、率直で明確なコミュニケーションを好みます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.