2
クラスタリング問題の機能選択
教師なしアルゴリズム(クラスタリング)を使用して、異なるデータセットをグループ化しようとしています。問題は、私が多くの機能(〜500)と少量のケース(200-300)を持っていることです。 これまでは、データを常にトレーニングセットとしてラベル付けしていた分類問題のみを使用していました。そこで、機能の事前選択にいくつかの基準(つまり、random.forest.importanceまたはinformation.gain)を使用し、次に、さまざまな学習者に順次転送選択を使用して、関連する機能を見つけました。 これで、教師なし学習の場合、事前選択の基準がなく、順次フォワード選択を使用できないことがわかります(少なくともmlrパッケージでは使用できません)。 クラスタリングアルゴリズムに適用する少数の機能を見つける前に主成分分析を実行できるかどうか疑問に思っていました。それとも他のアイデアはありますか? ありがとう 編集: さて、オンラインで調査した後、質問を少し更新できます。まず、次の2つの理由により、アルゴリズムをクラスタリングする前にPCAの使用を妨げる記事をいくつか読んだことがあります。 PCはすべての機能の機能であるため、結果を初期データセットに関連付けることが難しく、解釈が難しくなります。 さらに、実際には機能のごく一部しかクラスタリングに役立たないという問題がある場合、これらの機能がサンプル間の最大の分散(PCが行うこと)も説明しているとは言えません。 PCAは発表されていません... これで、クラスタリングのために順次フォワード選択を行うという最初のアイデアに戻りました。 どのパフォーマンス指標をお勧めしますか?(ダンインデックスについて考えました)どのクラスタリングアルゴリズムが多かれ少なかれ同じサイズのクラスターをもたらすでしょうか?(階層的クラスタリングでは、通常、1つの異常値を持つ1つのクラスターと残りすべての異常値を持つ別のクラスターを取得します->したがって、異常値から何らかの形で保護するものが必要になります) 皆さんが私を助けてくれることを願っています...