線形判別学習者におけるクラス分離可能性の良い尺度の例は、フィッシャーの線形判別比です。機能セットがターゲット変数間の適切なクラス分離を提供するかどうかを判断するために他に役立つメトリックはありますか?特に、ターゲットクラスの分離を最大化するための適切な多変量入力属性を見つけることに関心があり、優れた分離可能性を提供するかどうかをすばやく判断するための非線形/ノンパラメトリック測定値があると便利です。
線形判別学習者におけるクラス分離可能性の良い尺度の例は、フィッシャーの線形判別比です。機能セットがターゲット変数間の適切なクラス分離を提供するかどうかを判断するために他に役立つメトリックはありますか?特に、ターゲットクラスの分離を最大化するための適切な多変量入力属性を見つけることに関心があり、優れた分離可能性を提供するかどうかをすばやく判断するための非線形/ノンパラメトリック測定値があると便利です。
回答:
ランダムフォレストからの変数重要度測定(VIM)は、探しているものかもしれません。Boulesteix et al。による論文「ランダムフォレスト方法論の概要」と「計算生物学とバイオインフォマティクスに重点を置いた実践的ガイダンス」に、これらの2つに関する概要が示されています。
Gini VIMのアイデアは、ランダムフォレストが特定の属性を分割基準として使用した頻度の統計を取得することです。ここでは、有益な機能がより頻繁に選択されます。
置換VIMは、 RF-分類器の誤り推定値はとの間で比較されるという考えに基づいています
結果の誤差推定差は、重要な機能にとっては大きくなります。
私が覚えている限り、VIMは機能間の依存関係を発見するためにも使用できます。
最適な機能セットを見つけることは、かなり計算コストがかかります。利用可能なソリューションの主なカテゴリは、2つのセットにグループ化できます。特定の分類子(ラッパー)にバインドするか、いくつかの基準(フィルターメソッド)に基づく機能の単純なランキングのいずれかです。
要件(クイック/ノンパラメトリック/ノンリニア)に基づいて、おそらくFilterメソッドの候補が必要です。文献に記載されている例はかなり多くあります。たとえば、情報ゲイン-クラスに関する情報ゲインを測定することにより、属性の価値を評価します。または、属性とクラス間の相関に基づいて属性の価値を評価する相関。
ラッパーメソッドは分類子にバインドされており、目的の分類子に対してより優れた機能セットになる可能性があります。それらの性質(各反復での完全なトレーニング/テスト)により、クイックまたはノンパラメトリックと見なすことはできませんが、機能の非線形関係(3番目の要件)を処理できます。例としては、SVMに基づく再帰的な特徴の除去があります。したがって、クラス間のマージンを最大化することを目的とし、特徴の非線形の関係を処理できます(非線形カーネルを使用)。