潜在クラス分析とクラスター分析-推論の違い?


30

潜在クラス分析(LCA)とクラスター分析から作成できる推論の違いは何ですか?クラスター分析はクラスター化アルゴリズムからの相関属性の経験的記述であるのに対し、LCAはクラスを生じさせる潜在的な潜在変数を想定しているのは正しいですか?社会科学では、LCAが人気を得ており、クラスター分析では得られない正式なカイ2乗有意性検定があるため、方法論的に優れていると考えられます。

「LCAはこれに適していますが(クラスター分析ではありません)、クラスター分析はこれに適しています(ただし、潜在クラス分析ではありません)」の形式で例を提供できれば素晴らしいと思います。

ありがとう!ブライアン


1
inferencesこの文脈であなたは何を呼びますか、なぜ推論の違いだけがあなたの興味を引くのですか?
ttnphns 14年

1
@ttnphns推論とは、結果の実質的な解釈を意味します。「推論の違いのみ」に興味があるという質問の後半についてはわかりません。それぞれのアルゴリズムの実行や基礎となる数学には興味がありません。結果がどのように解釈されるかに興味があります。
ブライアンP 14年

回答:


27

潜在クラス分析は、実際には有限混合モデルです(こちらを参照)。FMMと他のクラスタリングアルゴリズムの主な違いは、FMMがデータの分布を記述する確率モデルを使用してクラスターを導出する「モデルベースのクラスタリング」アプローチを提供することです。したがって、任意の選択された距離尺度でクラスターを見つける代わりに、データの分布を記述するモデルを使用し、このモデルに基づいて、特定のケースが特定の潜在クラスのメンバーである確率を評価します。したがって、それはトップダウンアプローチ(データの分布の記述から開始)であると言えますが、他のクラスタリングアルゴリズムはむしろボトムアップアプローチです(ケース間の類似性が見つかります)。

データモデルの選択に統計モデルを使用し、適合度を評価できるため、クラスタリングとは異なります。また、データの構造の基礎となるプロセスまたは「潜在構造」があると仮定した場合、FMMはデータの背後にある潜在構造をモデル化できるため、適切な選択のようです(むしろ類似性を探すだけです)。

その他の違いは、FMMはクラスタリングよりも柔軟性が高いことです。クラスタリングアルゴリズムは単にクラスタリングを実行しますが、FMMおよびLCAベースのモデルは

  • 確認的なグループ間分析を行うことができます。
  • アイテム応答理論(およびその他の)モデルをLCAと組み合わせ、
  • 個人の潜在クラスメンバーシップを予測する共変量を含めます。
  • および/またはクラスター内回帰モデルでさえ 潜在クラス回帰の
  • データの構造などの経時変化をモデル化できます。

その他の例を参照してください:

Hagenaars JA&McCutcheon、AL(2009)。潜在クラス分析の適用。ケンブリッジ大学出版局。

RのflexmixおよびpoLCAパッケージのドキュメント。次のペーパーが含まれます。

リンザー、DA、およびルイス、JB(2011)。poLCA:多変数の潜在クラス分析のためのRパッケージ。Journal of Statistical Software、42(10)、1-29。

ライシュ、F。(2004)。Flexmix:R. Journal of Statistical Softwareの有限混合モデルと潜在ガラス回帰の一般的なフレームワーク、11(8)、1-18。

Grün、B.&&Leisch、F.(2008)。FlexMixバージョン2:付随する変数と可変および定数パラメーターを持つ有限混合。Journal of Statistical Software、28(4)、1-35。


3

潜在クラスモデル(または潜在プロファイル、またはより一般的には有限混合モデル)は、クラスタリング(または教師なし分類)の確率モデルと考えることができます。目標は一般に同じです-より大きな母集団内で同種のグループを識別すること。潜在クラスモデルとクラスタリングのアルゴリズムアプローチの主な違いは、前者が明らかに、クラスタリングの性質についてのより理論的な推測に役立つことだと思います。潜在クラスモデルは確率的であるため、尤度統計を介してモデルの適合性を評価するための追加の代替手段を提供し、分類の不確実性をより適切にキャプチャ/保持します。

このスレッドにはいくつかの便利な情報があります。また、chlの関連記事にもこの回答があります。

また、PCA対因子分析に関するこの質問と(概念レベルで)類似点があり、これも同様です。


2

違いは、潜在クラス分析では隠されたデータ(通常はフィーチャの関連パターン)を使用して、クラスのフィーチャの確率を決定することです。次に、最尤法を使用して推論を行い、機能に基づいてアイテムをクラスに分類できます。

クラスター分析は、特徴をプロットし、最近傍、密度、階層などのアルゴリズムを使用して、アイテムが属するクラスを判別します。

基本的に、LCA推論は「確率を使用して最も類似したパターン」と見なされ、クラスター分析は「距離を使用して最も近いもの」と見なされます。


クラスター分析に関する声明で「もの」が何を指しているのかを明確にできますか?距離の測定に基づいて最も近い「機能」ですか?
ブライアンP 14年

それはオブジェクト、オブジェクト、または機能パラメータで入力したデータです。
ccsv 14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.