トレーニングセットはどれくらい必要ですか?


24

最小しきい値一般化精度を得るために分類器(この場合はLDA)をトレーニングするために必要なトレーニングサンプル数を決定するために使用される一般的な方法はありますか?

ブレインとコンピューターのインターフェイスで通常必要なキャリブレーション時間を最小限にしたいので、私は尋ねています。


2
user2030669、以下の@cbeleitesの回答は素晴らしいですが、大まかな目安として:特徴として少なくとも6倍のケース(サンプル)の数が必要です。
BGreene

2
...各クラスで。5pおよび3p /クラスの推奨事項も確認しました。
cbeleitesは

回答:


31

探している検索用語は「学習曲線」です。これは、トレーニングサンプルサイズの関数として(平均)モデルのパフォーマンスを提供します。

学習曲線は多くのことに依存します。例えば

  • 分類方法
  • 分類器の複雑さ
  • クラスがどの程度適切に分離されているか。

(2クラスのLDAの場合、理論上のパワー計算を導き出すことができるかもしれませんが、決定的な事実は、データが実際に「等しいCOV多変量正規」の仮定を満たしているかどうかです。既存のデータの仮定とリサンプリング)。

有限サンプルサイズ(通常)でトレーニングされた分類器のパフォーマンスには2つの側面があります。n

  • バイアス、つまり、平均してトレーニングサンプルでトレーニングされた分類器は、トレーニングケースでトレーニングされた分類器よりも悪い(これは通常、学習曲線を意味します)nn=
  • 分散:与えられたケースのトレーニングセットは、まったく異なるモデルパフォーマンスにつながる可能性があります。 わずかな場合でも、あなたは幸運で良い結果を得るかもしれません。または、運が悪くて、本当に悪い分類子を取得します。 通常、この分散は、トレーニングサンプルサイズ増加とともに減少します。n

    n

考慮する必要があるもう1つの側面は、通常、適切な分類器をトレーニングするだけでは十分ではないことですが、分類器が優れている(または十分である)ことを証明する必要もあります。そのため、所定の精度で検証に必要なサンプルサイズも計画する必要があります。これらの結果を非常に多くのテストケース(例:生産者または消費者の精度/精度/感度/正の予測値)の成功率の一部として与える必要があり、基礎となる分類タスクがかなり簡単な場合、良いモデル。

経験則として、トレーニングでは、サンプルサイズは通常、モデルの複雑さ(ケースの数:変量の数)に関連して説明されますが、テストサンプルサイズの絶対境界は、パフォーマンス測定の必要な精度のために指定できます。

ここに論文があり、これらのことをより詳細に説明し、学習曲線を構成する方法についても議論します
。分類モデル用。アナルチムアクタ、2013、760、25-33。
DOI:10.1016 / j.aca.2012.11.007
はarXivの原稿を受け入れました:1211.1323

これは、簡単な分類問題を示す「ティーザー」です(実際には、分類問題にはこのような簡単な区別が1つありますが、他のクラスははるかに区別が困難です)。 ティーザーサンプルサイズ計画用紙

テストサンプルサイズがボトルネックであり、トレーニングサンプルサイズが大きくなるとより複雑なモデルを構築できるため、より大きなトレーニングサンプルサイズに外挿して、さらに多くのトレーニングケースが必要かどうかを判断しようとしませんでした。私が持っているデータセットの種類については、これに繰り返しアプローチし、多数の新しいケースを測定し、どれだけ改善されたかを示し、さらに多くのケースを測定します。

これはあなたによって異なる場合がありますが、この論文には、必要なサンプル数を推定するために、より大きなサンプルサイズへの外挿を使用した論文への参考文献が含まれています。


LDAに正規化スキームを使用すると、より小さなトレーニングセットで作業できますか?
Lunat1c

1
@ user2036690、より簡潔なモデル(機能が少ない)で必要なトレーニングサンプルは少なくなります。重要度の低い機能の影響を軽減するだけであれば、正則化スキームは必要なサンプル数に影響を与えません。何らかの種類の機能の合理化により、より小さなトレーニングセットが可能になる場合があります
-BGreene

1
ただし、データ駆動型の機能選択には、各モデルの比較が実際に統計的テストであるため、膨大な量のサンプルが必要です。ただし、専門知識による機能の選択はすぐに役立ちます。@BGreene:正則化がサンプルサイズ要件の削減に役立たない理由を拡張できますか(たとえば、条件の悪い共分散行列のリッジを考慮する)。私見それは驚異を行うことはできませんが、それは助けることができます。
cbeleitesは

さて、壮大な議論に入ることなく、リッジやその他のペナルティ回帰ではなく、フリードマンの正則化定式化に言及していました。ただし、いずれの方法でも、Lassoのように係数がゼロに減少することはないので、次元は影響を受けません。その結果、上記で説明したような不適切な行列を避けるために必要なサンプルサイズに影響しません。これがとりとめのないように見えることをお
びします

@BGreene:とりとめのない、私は尋ねました。興味深い質問は、データ駆動型の方法で係数をゼロに設定することにより、全体のdf /複雑さをどれだけ減らすかです。とにかく、私たちは別の話に
移行してい

4

サンプルサイズのトレーニングについて質問することは、モデルの検証のためにデータを保留することを意味します。これは、膨大なサンプルサイズを必要とする不安定なプロセスです。多くの場合、ブートストラップによる強力な内部検証が推奨されます。そのパスを選択した場合、1つのサンプルサイズのみを計算する必要があります。@cbeleitesが非常にうまく述べているように、これは多くの場合「候補変数ごとのイベント」評価ですが、調べる対象がない場合でも、バイナリ結果の確率を正確に予測するには最低96の観測が必要です[これは達成することですY = 1である実際の限界確率を推定する際の0.15の誤差の0.95信頼マージン。

正確性評価のための適切なスコアリングルール(例:ブリアスコアおよび対数尤度/偏差)を考慮することが重要です。また、メンバーシップ確率を推定するのではなく、観測値を本当に分類したいことを確認してください。後者はグレーゾーンを許可するため、ほとんど常により便利です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.