k分割交差検証では、すべての


13

kフォールドのクロス検証を実行するとき、1つのフォールド以外のすべてのフォールドをポイントして予測を行い、このプロセスを回繰り返すことで精度メトリックを取得することを理解しています。その後、すべてのインスタンスで精度メトリックスを実行できます(精度、再現率、%正しく分類)。これは、毎回計算して結果を平均した場合と同じである必要があります(間違っている場合は修正してください)。k

必要な最終結果は最終モデルです。

予測セットを作成するために取得したモデルを平均して、上記の方法で取得した精度メトリックを持つモデルになりますか?k

回答:


15

倍交差検証の目的は、モデルを作成することではありません。モデルを比較することです。k

交差検証実験の結果は、サポートベクターマシンがデータでNaive Bayesよりも優れていること、またはこの特定のデータセットに対して分類器のハイパーパラメーターをcに設定する必要があることを示しています。この知識を武器に、利用可能なすべてのデータを使用して「生産」分類器をトレーニングし、問題に適用します。

多くの場合、複数のモデルを平均化する方法についても明確ではありません。たとえば、3つの決定木または最近傍分類子の平均はどのくらいですか?

クロス検証の結果は推定値であり、保証ではないことに注意してください。これらの推定値は、生産分類器が同様の品質(および量)のデータでトレーニングされている場合により有効です。これらの推定値を使用して推論を実行する方法を開発するためのかなりの量の作業がありました。つまり、統計的に健全な方法で言えば、これらのデータではメソッドAはメソッドBより一般的に優れています。


2
k-fold cross validation推定を推論に使用するための良いリファレンスは何ですか?あなたが良いシェアを持っているなら、私はそれを読みたいです。
触手ノルム

1
適切な開始場所はiro.umontreal.ca/~lisa/bib/pub_subject/finance/pointeurs/…かもしれませんが、さまざまなアプローチがあります。
マットクラウス

1
もう1つ明確にする必要があります。すべてのデータを使用して「生産」分類子をトレーニングすると、停止するタイミングをどのように理解するか
アントン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.