特徴の数と観測の数の発見的方法があるかどうか疑問に思っています。明らかに、特徴の数が観測の数に等しい場合、モデルはオーバーフィットします。スパースメソッド(LASSO、エラスティックネット)を使用することで、いくつかの機能を削除してモデルを削減できます。
私の質問は(理論的に):メトリックを使用してモデル選択を評価する前に、最適な特徴数を観測数に関連付ける経験的観測はありますか?
たとえば、各クラスに20個のインスタンスがあるバイナリ分類問題の場合、使用する機能の数に上限はありますか?
特徴の数と観測の数の発見的方法があるかどうか疑問に思っています。明らかに、特徴の数が観測の数に等しい場合、モデルはオーバーフィットします。スパースメソッド(LASSO、エラスティックネット)を使用することで、いくつかの機能を削除してモデルを削減できます。
私の質問は(理論的に):メトリックを使用してモデル選択を評価する前に、最適な特徴数を観測数に関連付ける経験的観測はありますか?
たとえば、各クラスに20個のインスタンスがあるバイナリ分類問題の場合、使用する機能の数に上限はありますか?
回答:
複数の論文がそれを意見している
まれな場合にのみ、特徴の数とサンプルサイズの関数としてエラーの既知の分布があります。
特定のインスタンスおよび機能のエラーサーフェスは、機能間の相関(または欠如)の関数です。
このペーパーは次を提案します:
別の(経験的)アプローチは、同じデータセットからさまざまなサンプルサイズの学習曲線を作成し、それを使用してさまざまなサンプルサイズで分類器のパフォーマンスを予測することです。ここに論文へのリンクがあります。
私自身の経験から:あるケースでは、多くのクラス、深刻なデータの不均衡問題を伴う非常に小さい(300画像)実際のデータベースを使用し、SIFT、HOG、シェイプコンテキスト、SSIM、GMの9つの機能を使用することになりましたおよび4つのDNNベースの機能。別のケースでは、非常に大規模なデータベース(> 1 Mの画像)で作業し、HOG機能のみを使用することになりました。インスタンスの数と高精度を実現するために必要な機能の数との間に直接的な関係はないと思います。ただし、クラスの数、クラス間の類似性、および同じクラス内のバリエーション(これら3つのパラメーター)は、機能の数に影響を与える可能性があります。多くのクラスとクラス間の大きな類似性および同じクラス内の大きなバリエーションを備えたより大きなデータベースを使用する場合、高い精度を達成するにはより多くの機能が必要です。覚えておいてください:
それは...に依存しますが、もちろんその答えはどこにも行きません。
彼はモデルの複雑さの経験則です: データから学ぶ-VCの次元
「非常に大まかに」各モデルパラメーターに10個のデータポイントが必要です。また、モデルパラメーターの数は、機能の数と同様にすることができます。
パーティーに少し遅れましたが、ここにいくつかの経験則があります。
各クラスに20個のインスタンスを持つバイナリ分類問題、使用する機能の数に上限はありますか?
以下のためのトレーニング線形分類器の、3 -クラスや機能ごとに独立した5例が推奨されています。この制限により、信頼性の高い安定したモデルが得られ、良好なモデルが保証されるわけではありません(これは不可能です。良好な汎化パフォーマンスを達成できないモデルでは情報のないデータが存在する可能性があります)
ただし、シナリオと同じくらい小さいサンプルサイズの場合、トレーニングではなく検証(検証)がボトルネックであり、検証はモデルの複雑さに関連するケースではなく、テストケースの絶対数に依存します:経験則として、≈100テストが必要です10%ポイント幅以下の信頼区間で割合を推定するための分母のケース。
残念ながら、これはまた、基本的にアプリケーションの経験的学習曲線を取得できないことを意味します。十分に正確に測定することはできず、実際には、モデルを制限することで小さなサンプルサイズに反応するため、それを外挿することは非常に困難です複雑さ-そして、サンプルサイズを増やしてこれを緩和します。
詳細については、論文を参照してください:Beleites、C。およびNeugebauer、U。およびBocklitz、T。およびKrafft、C。およびPopp、J .:分類モデルのサンプルサイズ計画。アナルチムアクタ、2013、760、25-33。
DOI:10.1016 / j.aca.2012.11.007
はarXivの原稿を受け入れました:1211.1323
これらの推奨事項(医療アプリケーション用の分光データ)に近いものはありませんでした。私がやることは、モデリングと検証プロセスの一環として、モデルの安定性を非常に厳密に測定することです。