教師なし学習の問題における次元削減について、私はいくつかの考えを共有します。回答において、あなたの関心は、解釈が意図的に重視されない自動化されたターンキー、ブラックボックス、および「ロータッチ」の機械学習アプローチとは対照的に、クラスターの解釈に対する「ハイタッチ」の人間の関与にあると想定しました。後者の場合、なぜあなたは質問をするのですか?また、戦略的B2Cマーケティング、B2Bテクノロジーアリーナ、教育方針(学生と学校のクラスタリング)など、さまざまなビジネス環境でクラスターソリューションを実行した経験が豊富であることにも注意してください。
まず、「異なるデータセットのグループ化」に関するコメントについて質問があります。それが何を意味するのか、それがどのようにアプローチに影響を与えるのかわからなかったので、詳しく説明してほしいと思っていました。
PCAに基づくソリューションは「解釈が難しい」という上記1の仮定に異議を申し立てます。多くのクラスタリングアルゴリズムが機能の冗長性の影響を受けやすい限り、クラスタリングの予備ステップとしてPCAを実行する理由は、主に結果として得られるソリューションの衛生状態に関係しています。PCAは、この冗長性を扱いやすい少数のコンポーネントに集約することで、機能の選択に関して指摘する課題と困難を最小限に抑えます。PCAからのコンポーネント出力が個々の機能の細分性と特異性をぼかすことは事実ですが、これはあなただけが依存している場合の問題です結果の分析におけるこれらのコンポーネントについて。つまり、クラスターの解釈にコンポーネントのみを使用することに縛られることはありません。それだけでなく、因子の次元が「意味するもの」を気にする必要もありません。これらは、実用的な解決策を促進するための中間的かつ(最終的に)使い捨ての手段にすぎません。しかし、チームが「意味のある」因子ソリューションを慎重に構築することができる、する、する、するので、私は多くの実務家とは異なります。私にとって、これはクライアントの時間とお金の非効率的な無駄です。
この時点で、対応すべき技術的な考慮事項が大量にあります。1つは、PCAアルゴリズムがスケール不変でない場合(たとえば、OLSとMLの場合)、結果として得られるPCAソリューションは歪曲し、高分散機能により多くロードされます。これらの場合、この差異を平坦化するために、何らかの方法でフィーチャを前処理または変換する必要があります。ここには、平均の標準化、範囲またはIQR標準化、イプシブスケーリングなど、非常に多くの可能性があります。その変革を活用して、最高の最も解釈可能なソリューションを提供します。
クラスターソリューションが生成されたら、コンポーネントを無視し、ソリューションで直接使用されていない追加の説明情報とともに元の機能を折り返すことで、解釈は(私の経験では)最も動機付けられます。この時点で、いくつかのヒューリスティックが定性的洞察への最良のガイドです。これは、各特徴(シートの行)の平均または中央値、各クラスター(列)、およびサンプル全体の総平均を表す追加の列に基づいてクラスターをプロファイルするスプレッドシートを生成するのと同じくらい簡単です。 。次に、各特徴のクラスター平均に総平均に対してインデックスを付ける(そして100を掛ける)ことにより、およそ「100」が「通常の」IQまたは平均動作である限り、IQスコアのようなヒューリスティックが作成されます。120以上のインデックスは、クラスターの動作について機能が「真」である可能性が高いことを示唆しており、80以下のインデックスは、クラスターの「真ではない」機能を示しています。120以上および80以下のこれらのインデックスは、ソリューションを駆動する上での特定の機能の重要性に関するプロキシt検定のようなものです。もちろん、重要性のあるグループテスト間で実行することができ、サンプルサイズによっては、これらの迅速で汚い経験則に基づいて変化する答えが得られます。
OK ...それでも、PCAをクラスタリングアルゴリズムへの直接入力として使用することにまだ反対していると仮定すると、機能の削減されたセットを選択する方法に関して問題が残ります。PCAは従属変数なしで回帰を実行するようなものなので、PCAはここでも役立ちます。各コンポーネントの上位ローディング機能は、クラスターアルゴリズムへの入力になります。
多数の特徴とデータの比較的小さいサンプルサイズについては、多くの「完全な情報」の多変量解析における一般的な経験則は、特徴ごとに最低でも約10の観測です。この課題を回避するために活用できるいくつかの特殊な方法があります。たとえば、部分最小二乗法(PLS)は、ハーマンウォルドが1990年の著書Theoretical Empiricismでこの正確な問題に直面するケモメトリックスなどの分野で使用するために最初に開発しました。それは本質的に因子分析ですが、次元を生成するために大きなnを必要とする点でそれほど厳密ではありません。その他のソリューションには、大量の情報で使用されるランダムなフォレストのような「分割統治」機械学習アプローチが含まれます。これらのメソッドはこのPDFでレビューされていますhttp://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
しかし、因子分析とは何も関係なく、監視付きの「順次」選択プロセスを実行する準備ができていないと判断したとします。私の見解では、最も重要な問題は、事後的なパフォーマンスメトリック(ダンインデックス)を見つけることよりも、このアプローチを可能にするための適切なプロキシ(従属変数)を特定することです。この決定は完全にあなたの判断とデータに対するSMEステータスの関数です。「ベストプラクティス」はありません。これに対する答えはそれほど簡単ではなく、データの記述方法を考えると、小さな挑戦ではありません。
その決定が行われると、文字通り何百もの変数選択ソリューションから選択できます。変数選択は、すべての統計学者とその兄弟が論文を発表したトピック領域です。あなたの好みのアプローチは「シーケンシャルフォワードセレクション」が良いようです。
アルゴリズムの一部としてクラスターソリューションに組み込まれる教師あり学習モデルが存在することは注目に値します。この例には、潜在クラスモデルとして知られている大きくて柔軟性の高いアプローチが含まれます。LCモデルの本質は、それらが2つのステージであることです。ステージ1では、DVが定義され、回帰モデルが構築されます。2番目の段階では、モデルからの残差出力の不均一性(単一の潜在ベクトル)が潜在「クラス」に分割されます。このCVディスカッションにはLCモデリングの概要があります... 潜在クラスの多項式ロジットモデルの疑い
お役に立てれば。