機能の数とインスタンスの数に関する「経験則」はありますか?(小さなデータセット)


16

特徴の数と観測の数の発見的方法があるかどうか疑問に思っています。明らかに、特徴の数が観測の数に等しい場合、モデルはオーバーフィットします。スパースメソッド(LASSO、エラスティックネット)を使用することで、いくつかの機能を削除してモデルを削減できます。

私の質問は(理論的に):メトリックを使用してモデル選択を評価するに、最適な特徴数を観測数に関連付ける経験的観測はありますか?

たとえば、各クラスに20個のインスタンスがあるバイナリ分類問題の場合、使用する機能の数に上限はありますか?

回答:


13

複数の論文がそれを意見している

まれな場合にのみ、特徴の数とサンプルサイズの関数としてエラーの既知の分布があります。

特定のインスタンスおよび機能のエラーサーフェスは、機能間の相関(または欠如)の関数です。

このペーパーは次を提案します:

  • 非相関フィーチャの場合、最適なフィーチャサイズは(はサンプルサイズ)N1N
  • 特徴相関が増加すると、最適な特徴サイズは高度に相関した特徴の比例します。N

別の(経験的)アプローチは、同じデータセットからさまざまなサンプルサイズの学習曲線を作成し、それを使用してさまざまなサンプルサイズで分類器のパフォーマンスを予測することです。ここに論文へリンクがあります


2
Hua論文の重要な仮定が欠落しているため、この答えはやや誤解を招くことがあります。リンクされた論文で考慮することはすべて有益であり、実際に期待することはできません。IMHOこれは、IMHOの最も一般的なタイプの無相関の「機能」は、情報価値のない測定チャネルであるため、明確に述べる必要があります。
cbeleitesは

に関して。学習曲線:OPは2 x 20のケースでは使用できないでしょう。これは、ごく少数のケースでは有用な精度で測定できないためです。Huaはこれについて簡単に言及していますが、この難しさについては、以下の回答でリンクした論文で詳しく説明しました。
cbeleitesは

8

私自身の経験から:あるケースでは、多くのクラス、深刻なデータの不均衡問題を伴う非常に小さい(300画像)実際のデータベースを使用し、SIFT、HOG、シェイプコンテキスト、SSIM、GMの9つの機能を使用することになりましたおよび4つのDNNベースの機能。別のケースでは、非常に大規模なデータベース(> 1 Mの画像)で作業し、HOG機能のみを使用することになりました。インスタンスの数と高精度を実現するために必要な機能の数との間に直接的な関係はないと思います。ただし、クラスの数、クラス間の類似性、および同じクラス内のバリエーション(これら3つのパラメーター)は、機能の数に影響を与える可能性があります。多くのクラスとクラス間の大きな類似性および同じクラス内の大きなバリエーションを備えたより大きなデータベースを使用する場合、高い精度を達成するにはより多くの機能が必要です。覚えておいてください:


@Bashar Haddad:(コンピュータービジョンとMLの両方に慣れていないので)間違っている場合は修正してください。HOG機能は実際には高次元のベクトルではありません(私の場合、1764次元のHOG機能を取得していました)。それでは、9つのフィーチャを言い、そのうちの1つがHOGである場合、実際にはHOGだけで高次元のフィーチャスペースを取得していませんか?
数学

1
文献では、特徴という言葉を使用して、特徴の種類またはディメンションインデックスを示しています。したがって、6つのフィーチャを使用していると言うと、これは6つのフィーチャタイプを使用していることを意味し、それぞれが(1 x D)ベクトルです。Hogフィーチャタイプについて説明している場合、各ディメンションをフィーチャにすることができます。
バシャールハダッド

2

それは...に依存しますが、もちろんその答えはどこにも行きません。

彼はモデルの複雑さの経験則です: データから学ぶ-VCの次元

「非常に大まかに」各モデルパラメーターに10個のデータポイントが必要です。また、モデルパラメーターの数は、機能の数と同様にすることができます。


2

パーティーに少し遅れましたが、ここにいくつかの経験則があります。

各クラスに20個のインスタンスを持つバイナリ分類問題、使用する機能の数に上限はありますか?

  • 以下のためのトレーニング線形分類器の、3 -クラスや機能ごとに独立した5例が推奨されています。この制限により、信頼性の高い安定したモデルが得られ、良好なモデルが保証されるわけではありません(これは不可能です。良好な汎化パフォーマンスを達成できないモデルでは情報のないデータが存在する可能性があります)

  • ただし、シナリオと同じくらい小さいサンプルサイズの場合、トレーニングではなく検証(検証)がボトルネックであり、検証はモデルの複雑さに関連するケースではなく、テストケースの絶対数に依存します:経験則として、≈100テストが必要です10%ポイント幅以下の信頼区間で割合を推定するための分母のケース。

    残念ながら、これはまた、基本的にアプリケーションの経験的学習曲線を取得できないことを意味します。十分に正確に測定することはできず、実際には、モデルを制限することで小さなサンプルサイズに反応するため、それを外挿することは非常に困難です複雑さ-そして、サンプルサイズを増やしてこれを緩和します。

    詳細については、論文を参照してください:Beleites、C。およびNeugebauer、U。およびBocklitz、T。およびKrafft、C。およびPopp、J .:分類モデルのサンプルサイズ計画。アナルチムアクタ、2013、760、25-33。
    DOI:10.1016 / j.aca.2012.11.007

    はarXivの原稿を受け入れました:1211.1323

  • これらの推奨事項(医療アプリケーション用の分光データ)に近いものはありませんでした。私がやることは、モデリングと検証プロセスの一環として、モデルの安定性を非常に厳密に測定することです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.