特徴の数と観測値の数

26

「堅牢な」分類器をトレーニングするために必要な特徴の数と観測の数の関係についての論文/本/アイデアはありますか？

たとえば、トレーニングセットとして2つのクラスから1000個の特徴と10個の観測値があり、テストセットとして10個の他の観測値があるとします。分類子Xをトレーニングすると、テストセットで90％の感度と90％の特異性が得られます。この精度に満足しているとしましょう。これに基づいて、それは優れた分類器であると言えます。一方、10ポイントのみを使用して1000変数の関数を近似しました。

machine-learning

— レオ
ソース

20

ここでヒットしたのは、次元の呪いまたはp >> n問題です（pは予測子で、nは観測値です）。この問題を解決するために長年にわたって開発された多くの技術がありました。AICまたはBICを使用して、より多くの予測変数でモデルにペナルティを科すことができます。クロスバリデーションを使用して、変数のランダムなセットを選択し、それらの重要度を評価できます。正則化にはridge-regression、lasso、またはelastic netを使用できます。または、サポートベクターマシンや、多数の予測子をうまく処理するランダムフォレストなどの手法を選択できます。

正直なところ、解決策は解決しようとしている問題の特定の性質に依存します。

— ザック
ソース

9

$\vec{+1}$ $\vec{-1}$ $0.000001*\vec{I}$ $\vec{I}$ 、有用な分類子を提供するトレーニングデータはありません。一日の終わりに、特定の数の機能に必要なサンプルの量は、データの分散方法に依存します。一般に、機能が多いほど、データの分布を適切に説明するためにより多くのデータが必要になります。（不運な場合、機能の数の指数関数-Zachが言及した次元の呪いを参照してください）。

正則化を使用する場合、原則として、（上限の）汎化エラーは機能の数に依存しません（サポートベクターマシンに関するVapnikの研究を参照）。ただし、正規化パラメーターに適切な値を見つけるという問題が残ります（相互検証が便利です）。

— ディクラン・マースピアル
ソース

9

おそらく、ルンゲのパラドックスのような問題に対して脆弱であるため、後処理でいくつかの節約を調整する必要がある古典的なモデリングからの印象を超えているでしょう。
ただし、機械学習の場合、モデルの最適化の目的としてロバスト性を含めるという考え方は、ドメイン全体の中核にすぎません（多くの場合、見えないデータの精度として表されます）。したがって、モデルが適切に機能することがわかっている限り（たとえば、CVから）、わざわざ面倒なことはおそらくありません。

$p\gg n$

1

私の長年にわたる絶対に最も価値のある本の1つは、ティンズリーとブラウンのハンドブックです。本には、さまざまな寄稿者によってこのトピックが議論されている多くの場所があります。

— rolando2
ソース