k分割交差検証の概念は理解していますが、「フォールド」の意味がわかりません。ウィキペディアのリンク先ページからの引用:
次に、交差検証プロセスがk回繰り返されます(フォールド)。
これは非常にあいまいなようです。「折り畳み」はプロセスの各繰り返しを指しますか?それとも、ペアのトレーニングとテストのデータセットを参照するのは名詞ですか?
k分割交差検証の概念は理解していますが、「フォールド」の意味がわかりません。ウィキペディアのリンク先ページからの引用:
次に、交差検証プロセスがk回繰り返されます(フォールド)。
これは非常にあいまいなようです。「折り畳み」はプロセスの各繰り返しを指しますか?それとも、ペアのトレーニングとテストのデータセットを参照するのは名詞ですか?
回答:
言葉遣いは間違いなくそこにあります。
交差検証はデータセットを ほぼ等しい「サブデータセット」。これらの「サブデータセット」のそれぞれを「フォールド」と呼びます。フォールド相互検証には、モデルの再適合が必要です 毎回、毎回データから正確に1つのフォールドを省略しているため、「フォールド」という用語は、各繰り返しを参照するために使用することもできます。
折り返しと繰り返しの間には1対1の対応があるため、通常、この緩い用語には問題はありません。これは通常、どのような使用法が意図されているかから明らかであり、他の場合には違いはありません。
OPはこの用語が扱いにくく混乱していることに同意します。私の見解は次のとおりです。十分な教育を受けたネイティブの英語話者は、「2倍」や「3倍」などの用語に慣れています。ただし、これらの単語には名詞「fold」が含まれているとは見なされません。「fold」は、ここでは接尾辞の詳細です。「double」または「triple」などのカラフルなバリエーションを作るために数字と組み合わされた面白い特別な構造です。「fold to」または「fold to」という動詞とはまったく関係ありません。折り紙をしているときに、折り畳まれた紙を指すときに現れる可能性のある名詞「fold」。
「フォールド」という単語は、kフォールド相互検証の文脈で「パーティション」を意味する名詞として使用され始めたのではないかと思います。 「データのk 'folds'を作る」ことを意味しました。誰かがこの結論に達することは非常に理解できます。ただし、「k-fold」は「kを 'fold'する」ことを意味するのではなく、「クロス検証をk回行う」ことを意味します。データのkパーティションも作成する必要があることの詳細が暗示されています。
個人的に私はこの奇妙な方法で「フォールド」を使うことはありません。問題のデータセグメントを「パーティション」と呼んでいますが、それははるかに明確です。
また、この使用法がコミュニティ全体に広がったからといって、IMOを妥当な英語の使用法にすることはできません。私は、混乱を招く新しい専門用語を発明して使用するよりも、率直で明確なコミュニケーションを好みます。