VCディメンションが重要なのはなぜですか？

11

ウィキペディアは言う：

VCディメンションは、アルゴリズムが粉砕できる最大のポイントセットのカーディナリティです。

たとえば、線形分類子のカーディナリティはn + 1です。私の質問は、なぜ私たちは気にするのですか？線形分類を行うほとんどのデータセットは非常に大きくなる傾向があり、多くのポイントが含まれています。

classification algorithms vc-dimension

— 学部生
ソース

4

VCディメンションとは

@CPerkinsで言及されているように、VCディメンションはモデルの複雑さの尺度です。また、ウィキペディアのように、データポイントを粉砕する機能に関しても定義できます。

基本的な問題

目に見えないデータを適切に一般化するモデル（たとえば、何らかの分類子）が必要です。
サンプルデータは特定の量に制限されています。

$\mathcal{S_1}$ $\mathcal{S_k}$ $h$

画像は、VCディメンションが高いほど経験的リスクが低くなること（モデルがサンプルデータで発生するエラー）を許容することを示していますが、信頼区間も高くなっています。この間隔は、モデルの一般化能力の信頼性と見なすことができます。

低VC寸法（高バイアス）

複雑さの低いモデルを使用する場合、データセットに関するある種の仮定（バイアス）を導入します。たとえば、線形分類子を使用する場合、データは線形モデルで記述できると想定します。これが当てはまらない場合、与えられた問題は、たとえば問題が非線形の性質であるため、線形モデルでは解決できません。データの構造を学習できない、パフォーマンスの悪いモデルになってしまいます。したがって、強いバイアスを導入しないようにする必要があります。

高いVCディメンション（より大きな信頼区間）

X軸の反対側には、一般的な基本構造、つまりモデルのオーバーフィットを学習するのではなく、データを記憶するほどの大きな能力を持つ、より複雑なモデルが表示されます。この問題を認識した後は、複雑なモデルを避ける必要があるようです。

バイアスを導入しない、つまりVCディメンションを低くする必要があるが、VCディメンションを高くしないようにする必要があるため、これは物議を醸すように思えるかもしれません。この問題は統計学習理論に深く根ざしており、バイアス分散トレードオフとして知られています。この状況で私たちがすべきことは、必要に応じてできるだけ単純化することです。そのため、同じ経験的エラーに終わる2つのモデルを比較するときは、それほど複雑ではないモデルを使用する必要があります。

VCディメンションのアイデアの背後にあることをもっとお見せできればと思います。

— 港区
ソース

1

$N$

$VC$

$N$ $N$ $log_2(N)$ 情報のビット-ソートされた配列のバイナリ検索問題と同様。

$N$ $x$ $N$ $D=\{(x_1,y_1), (x_2, y_2), ..., (x_l, y_l)\}$ $x_i$ $x_i$ $N$ $x_i$ $\epsilon$ $\epsilon$ $1-\delta$ $(\epsilon, \delta)$ $\frac{log_2N/\delta}{\epsilon}$

$N$ $\epsilon$ $1-\delta$ $\frac{log_2N/\delta}{\epsilon^2}$

$log_2N$

$\epsilon$ $1-\delta$ $\epsilon$

^{___________________両方の線（関数）が同じ成功でポイントを分類します___________________}

$VC$ $log_2N$ $VC$ $\frac{VC -log(\delta)}{\epsilon}$ $\frac{VC - log(\delta)}{\epsilon^2}$

$VC$ $\epsilon$ $1-\delta$

— ヴラド
ソース

0

VCディメンションは、モデルの複雑さの尺度です。たとえば、VCディメンションがDvcの場合、モデルの複雑さを考えると、経験則として、n = 10xDvcデータポイントが必要です。

これを使用して、テストエラーの上限を作成することもできます。

— CPerkins
ソース