カテゴリデータでは、変数が関連していないクラスターが存在する可能性がありますか?


19

クラスター分析を説明しようとするとき、プロセスが変数が相関しているかどうかに関連していると誤解するのは一般的です。混乱を乗り越える方法の1つは、次のようなプロットです。

ここに画像の説明を入力してください

これにより、クラスターがあるかどうかの問題と、変数が関連しているかどうかの問題の違いが明確に表示されます。ただし、これは連続データの区別のみを示しています。カテゴリデータを持つアナログを考えるのに問題があります。

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

2つの明確なクラスターがあることがわかります。プロパティAとBの両方を持つ人と、持たない人です。ただし、変数を見ると(たとえば、カイ2乗検定で)、それらは明らかに関連しています:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

上記の連続データのカテゴリデータに類似したカテゴリデータの例を作成する方法について、私は途方に暮れています。同様に関連する変数なしで、純粋にカテゴリカルなデータにクラスターを持つことさえ可能ですか?変数に3つ以上のレベルがある場合、または変数の数が多い場合はどうなりますか?観測値のクラスタリングが変数間の関係を必然的に伴う場合、またはその逆の場合、カテゴリデータのみがある場合(つまり、変数を分析するだけでよい場合)、クラスタリングは実際に行う価値がないことを意味しますか?


更新:クラスター分析にあまり精通していない人でもすぐに直観的な簡単な例を作成できるという考えに集中したかったので、元の質問から多くを省きました。ただし、多くのクラスタリングは距離やアルゴリズムなどの選択に依存することを認識しています。さらに指定すると役立つ場合があります。

ピアソンの相関は、実際には連続データにのみ適していることを認識しています。カテゴリデータの場合、カテゴリ変数の独立性を評価する方法として、カイ2乗検定(2方向分割表の場合)または対数線形モデル(多元分割表の場合)を考えることができます。

アルゴリズムの場合、k-medoids / PAMの使用を想像できます。これは、連続的な状況とカテゴリデータの両方に適用できます。(継続的な例の背後にある意図の一部は、合理的なクラスタリングアルゴリズムがそれらのクラスターを検出できるはずであり、そうでない場合は、より極端な例を構築できることです。)

距離の概念について。連続した例ではユークリッドを想定しました。これは、単純な視聴者にとって最も基本的なものだからです。カテゴリデータに類似する距離(最も直観的な直感的な距離)は、単純なマッチングになると思います。しかし、それが解決策や単なる興味深い議論につながる場合は、他の距離の議論を受け入れます。


2
カテゴリデータにクラスターのようなものがあるのではないかと思います。クラスター間の分散がクラスター内の分散よりも大きいというわけではなく、クラスター間の密度の違いについて話すこともできます。したがって、clostestの一致が頻繁なアイテムセットである場合、クラスターを形成するには変数を関連付ける必要があります。
アノニムース

@ Anony-Mousse、それは面白いです。それを答えに発展させてみませんか?ところで、私は実際に存在するクラスターをイメージできます(たとえば、さまざまなレベルの名義変数の確率が異なる潜在的な連続変数)。
グング-モニカの復職

カテゴリ分布を、正規化された周波数を成分とするベクトルに変換できます。その後、ユークリッドメトリックを適用できます。ただし、これは唯一のオプションではありません:math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdfおよびen.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns、あなたは[data-association]タグを追加したようです。私はそれが何を示すことになっているかわからないし、それは抜粋/使用ガイダンスがありません。このタグは本当に必要ですか?削除の良い候補のようです。CVで本当に必要であり、それが何であるかを知っている場合、少なくとも抜粋を追加してもらえますか?
gung-モニカの復職

@gung、私も、このタグが何を指しているのかよくわかりません。質問の「属性間の関連付け/相関」トピックのために追加しました。Qからタグを完全に削除することも、完全に削除することもできます。一方、相関/関連フィールド全体をカバーするタグについて再考する時が来たと思います。たとえば、ピアソン相関についてのみ「相関」を保持する必要がありますか?新しいタグ「変数アソシエーション」(「データアソシエーション」の代わりに)を作成する必要がありますか?
ttnphns

回答:


11

質問の右上の図のように、相関関係のないスケール変数を持つ明確なクラスターの場合を考えてみましょう。そして、そのデータを分類します。

ここに画像の説明を入力してください

変数XとYの両方のスケール範囲を3つのビンに細分し、今度はカテゴリーラベルとして扱います。さらに、質問は暗黙的かつ主に定性的データに関するものであるため、序数ではなく名目上宣言します。スポットのサイズは、周波数クロステーブルセルの周波数です。同じセル内のすべてのケースは同一と見なされます。

直感的かつ最も一般的に、「クラスター」は、データ「空間」内の疎な領域で区切られたデータポイントの塊として定義されます。最初はスケールデータを使用していましたが、分類されたデータのクロス集計では同じ印象を保ちます。XとYはカテゴリに分類されますが、それらはまだ無相関に見えます。カイ2乗の関連付けは非常にゼロに近いです。そして、クラスターがあります。

しかし、表の順序が任意である名目上のカテゴリを扱っていることを思い出してください。観測されたカイ二乗値に影響を与えることなく、行全体や列全体を好きなように並べ替えることができます。並べ替えを行います...

ここに画像の説明を入力してください

...そのクラスターに会うために、ちょうど消えました。4つのセル、a1、a3、c1、およびc3は、単一のクラスターに統合できます。そのため、カテゴリデータにはクラスターがまったくありません

セルa1とc3(または同様にa3とc1)のケースは完全に異なり、同じ属性を共有していません。データにクラスター(a1とc3がクラスターを形成する)を誘発するには、データセットからこれらのケースをドロップすることにより、かなり複雑に交絡セルa3とc1を空にする必要があります。

ここに画像の説明を入力してください

現在、クラスターは存在します。しかし同時に、無相関性を失いました。表に現れる対角線の構造は、カイスタリー統計がゼロから大きく外れたことを示しています。

残念。無相関性と多かれ少なかれ明確なクラスターを同時に保存しようとしましょう。たとえば、セルa3だけを十分に空にして、a1 + c1をクラスターc3に対抗するクラスターと見なすことができます。

ここに画像の説明を入力してください

その操作は、カイ二乗をゼロから遠ざけませんでした...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

...しかし、クラスターの状況は混乱しています。クラスターa1 + c1には、部分的に同一のケースと、部分的に異なるケースが含まれています。クラスターが比較的低均質であること自体は、データセット内の明確なクラスター構造を妨げるものではありません。ただし、カテゴリデータに関する問題は、クラスターa1 + c1がクラスターc1 + c3(その対称アナログ)より優れているということです。これは、クラスターソリューションが不安定であることを意味します。これは、データセット内のケースの順序に依存します。不安定なソリューションは、たとえ比較的「明確にクラスター化」されていても、信頼性のない悪いソリューションです。

問題を克服し、解決策を明確かつ安定させる唯一の方法は、データをセルb3(またはb2)に移動して、セルc1からセルc3を切り離すことです。

ここに画像の説明を入力してください

したがって、a1 + c1対b3の明確なクラスターがあります。ただし、ここでも斜めのパターンが表示されます-そして、テーブル境界のカイ二乗はゼロより上にあります。

結論。2つのカイ二乗非関連名義変数とデータケースの良好なクラスターを同時に持つことは不可能です。明確で安定したクラスターは、変数の関連付けを誘発することを意味します。

また、関連付けが存在する場合(つまり、斜めのパターンが存在するか、並べ替えによって達成できる場合)、クラスターが存在する必要があることも明らかです。これは、カテゴリデータ(「すべてまたは無」)の性質上、ハーフトーンと境界線条件が許可されていないためです。したがって、OPの質問の左下のような画像は、カテゴリ名義データでは表示されません。

2 変量カイ二乗に関係のない(2つだけではなく)名義変数を取得するにつれて、クラスターを持つ可能性に近づいてくると思います。しかし、多変量カイ2乗はゼロであり、クラスターとの互換性はまだないはずです。それはまだ示されていなければなりません(私ではなく、今回もそうではありません)。


最後に、@ Bey(別名user75138)の回答に関するコメントで、私は部分的にサポートしました。「変数の関連は事例クラスターから独立しているのか?」という質問をする前に、まず距離メトリックと関連尺度を決定しなければならないということで、私は同意しました。これは、普遍的な関連性尺度も、クラスターの普遍的な統計定義も存在しないためです。さらに付け加えますが、彼はクラスタリング手法も決定しなければなりません。クラスタリングのさまざまな方法は、「クラスター」とは何かを定義します。そのため、ステートメント全体が真実かもしれません。

とはいえ、このようなディクトゥムの弱点は、広すぎるということです。名目データについて、距離メトリック/関連性測定/クラスター法の選択がクラスター化と無相関性を調和させる余地を開くかどうか、どこで具体的に示すかを試みる必要があります。特に、ノミナルデータの場合、「両方のケースにこの属性がない」ことは、類似性の根拠になることはないため、バイナリデータの多くの近接係数のすべてがノミナルデータで意味を持つわけではないことに注意してください。


更新し、シミュレーションの結果を報告します。

繰り返しますが、2または3変数の名義データがランダムに生成され、変数のカテゴリの数は3から5に変化し、合計サンプルサイズは300から600に変化しました。生成されたデータセット(Cramer's Vはほとんど超えません)。また、3変数データの3方向カイ2乗相関(主効果多項モデル)、ピアソンおよび対数尤度は低く、有意ではありませんでした。.1

生成された各データセットのケースをクラスター化するために、クラスター分析の2つの方法-階層的クラスター化(完全な方法、ダイス類似度測定)、および2 ステップクラスター化(対数尤度距離に基づく)が使用されました。次に、各分析からのクラスターソリューションの範囲(ソリューション内のクラスターの数によって変化する)が、いくつかの内部クラスタリング基準(シルエット統計、ポイントバイシリアル、AICおよびBIC)によってチェックされ、比較的「良い」ソリューションが検索されました。明確なクラスターの存在を示します。次に、データセット内のケースの順序を並べ替え、そのクラスタリングを再実行することで、いいね!のソリューションの安定性をテストしました。r

調査結果は通常、回答内で上記に表示された推論をサポートしています。非常に明確なクラスターはありませんでした(カイ2乗相関が強い場合に発生する可能性があるなど)。そして、さまざまなクラスタリング基準の結果は、しばしば互いに矛盾していました(クラスターが本当に明確な場合、それは期待されそうにありません)。

階層的クラスタリングは、クラスタリング基準プロットで観察されるように、ある程度優れたkクラスターソリューションを提供する場合があります。ただし、安定性をテストしても、安定性を示すことはできません。たとえば、この3変数4x4x3データ

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

完全なリンケージ階層的方法、Dice類似性によりクラスター化された場合、かなり合理的に-9つのクラスターに分割されるようです-この場合、3つの内部有効性審査員の間で一致します:

ここに画像の説明を入力してください

しかし、元の解の混同行列の置換された(ケースの並べ替えられた)解に対する非完全なスパース性からわかるように、解は安定していません。

ここに画像の説明を入力してください

ソリューションが安定していた場合(データが連続している可能性が高いため)、9クラスタソリューションを十分に説得力のあるものとして選択していました。

対数尤度距離に基づくクラスタリング(サイコロの類似性とは対照的に)は、安定した「悪くない」(内部的には非常に有効な)ソリューションを提供します。しかし、それは、少なくともSPSSのTwoStepクラスターと同様に、距離が多いために人口の多いクラスターを奨励および育成し、人口の少ないクラスターを無視するためです。内部が非常に低頻度のクラスターは、内部が密集している必要はありません(これは、ビッグデータ用に特別に設計されたクラスターが少ないため、TwoStepクラスター分析の「ポリシー」と思われるため、小さなクラスターは外れ値のように見えます) 。たとえば、これらの2変数データ

ここに画像の説明を入力してください

TwoStepによって、示されているように安定して5つのクラスターに結合され、5つのクラスターのソリューションは、いくつかのクラスタリング基準で判断されるように、まったく悪くありません。4つのクラスタは内部で非常に密集しているため(実際、すべてのケースが同一)、ケースをほとんど含まない5番目のクラスタが1つだけ極端にエントロピー化されます。したがって、実際には5クラスタではなく12クラスタソリューションが明らかですが、12は頻度テーブル内のセルの総数であり、「クラスタソリューション」としては取るに足らないものです。


+1、これは私が疑ったことです。ペアワイズ関連付けられていない多変量対関連付けられていないが、興味深い点です。この問題をより広範に考えると、これは純粋に名目上のデータをクラスター化しようとする意味がまったくないことを意味していますか?つまり、連続データがない場合、常に変数を分析するだけですか?
GUNG -復活モニカ

1
@gung、変数間の相関関係は、コインの場合の極性(「ダイアゴルネス」)の反対側であるという格言を知っていますか?これは、連続データの場合も同様です。しかし、連続の場合、偏光はクラスターを意味しない場合があります。カテゴリーについては、それが暗示するように見えます。離散的な性質のため。そのため、カテゴリ変数が相関する場合、検索するクラスターがあります。ただし、クラスターをより良い方法で取得するには、クラスタリングを行う必要があります。それはあなたの素晴らしい質問に対する私の暫定的な意見です。
ttnphns

私はそれをよく知らない。たぶん私はそれについて後で尋ねます。これは今のところ噛むのに良い情報だと思う。
GUNG -復活モニカ

3

ご存知のとおり、相関は2つの変数間の線形関係の尺度であり、ポイントが互いにどれだけ近いかではありません。これにより、上位4つの図について説明します。

もちろん、個別の実数値データに対しても同様のグラフを作成できます。

などのより抽象的な分布の問題は、で値をとる変数とは異なり、カテゴリ確率変数の画像がメートル空間。私たちは、これを自動的に取得するときにはなく、私たちが持っていたときに、いくつかの任意のセットに値をとります。R X R XX{A,B,C,D}RXRX

幾何学的な意味でクラスタリングについて実際に話をする前に、カテゴリ空間のメトリックを定義する必要があります。


@gungとBeyの両方が許可すれば、私はこの答えをサポートし、直観的に再定式化するでしょう。クラスター化されたデータは、「クラスター内の距離は小さいがクラスター間の距離は長い」と定義されます。彼の写真では、OPは暗黙的にユークリッド距離を選択して、クラスター化のこの考えを示しました。彼はまた、ピアソン相関またはそれに類似したものの概念を選択しました-変数間の関連のアイデアを説明するために。これらは、多くの選択肢の中から2つの特定/任意の選択肢です。
ttnphns

1
(続き)「ケースクラスター化」という概念と「変数関連」という概念が直交しないような距離測度や関連測度を選択できると想像するかもしれません。そして今、カテゴリーデータ用。2つの概念が独立しているのか、関連しているのかを確認して示す前に、カテゴリデータポイントの特定の距離測定とカテゴリ変数の特定の関連測定を選択する必要があります。から選択する多くの選択肢があります!そして答えは異なります。
ttnphns

@ttnphns(+1)距離と関連性のメトリックという2つの主要な選択肢をどのように組み立てたかが好きです。私の説明についてはわかりませんが、直感的ではありませんでした...距離の概念がなければクラスターを定義することはできません。

@ttnphns、ベイ次第だと思う。アイデアの一部を自分の答えに変えてみませんか?「ケースのクラスター化」と「変数の関連付け」は、いくつかの選択肢を与えられた連続データに対して非直交になるという考えに興味があります。Bey&ttnphns、距離と関連付けの測定に関する質問にいくつかの説明を追加しましたが、必要に応じて別の方向に進んでください。さらに必要な場合は教えてください。私の好みは、回答者が別の方向に進むための柔軟性を与えるために、質問が可能な限り「ゆるい」ままであることです。
グング-モニカの復職

1
@Bey、もちろん、カテゴリデータには他にも多くの可能な距離と関連性の測定があるので、それを機能させる難解なものを自由に提案してください。
GUNG -復活モニカ

2

ハミング距離を検討してください-長さが等しい2つのストリング間のハミング距離は、対応するシンボルが異なる位置の数です。この定義から、ハミング距離に基づいたクラスターを持ち、変数間の相関関係がないデータを生成できることは明らかです。

Mathematicaを使用した例を次に示します。

いくつかのカテゴリデータ(4文字の均一なランダムサンプリングの3シンボル長シーケンス)を作成します。

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

変数間の関係にモザイクプロットを使用します(異なる列の値のペアの条件付き確率):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

ここに画像の説明を入力してください

相関関係がないことがわかります。

クラスターを見つける:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

すべての文字を整数で置き換えると、このプロットから、ハミング距離でクラスターがどのように形成されるかがわかります。

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

ここに画像の説明を入力してください

さらなるクラスタリング

ハミング距離が1である単語を接続してグラフを作成します。

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

ここに画像の説明を入力してください

コミュニティクラスターを見つけましょう。

CommunityGraphPlot[nngr]

ここに画像の説明を入力してください

グラフクラスタを、FindClusters(3を強制的に見つけた)で見つかったグラフクラスタと比較します。「bac」は非常に中心的であり、「aad」は3Dプロットのクラスター1に対応する緑のクラスターに属することがわかります。

グラフデータ

エッジリストはnngr次のとおりです。

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

サイトへようこそ!ほんの一言:コードはどの言語ですか?(さらに注釈は付けられていません)。どのように定義しますrelationship between the variables (correlation)か?
ttnphns

これは面白い。残念ながら、私はMathematicaを知らないので(&編集距離にあまり詳しくありません)、それを理解するためにこれをいじる必要があります。まだチャンスはありませんが、すぐにしようと思っています。
グン-モニカの復職

@gung Rでそれを行うことを考えていましたが、重要な部分は3Dプロットであり、クラスター形成の洞察を得るために直角に回転させることだと思いました。ところで、いい質問です!
アントンアントノフ

ここに「クラスター」があります。しかし、それらは意味がありますか?他のクラスターよりも優れていますか?プロットから、クラスター1はかなりランダムだと思います。では、なぜそれがクラスターなのでしょうか?
アノニムース

1
ランダムな均一(!)で生成されたデータには、明らかにクラスターが含まれていてはなりません。「コミュニティ」プロットは、距離を保持しないため誤解を招きます。1距離のグラフは、これらの問題を強調しています。また、別の例も示しますcda。申し訳ありませんが、私はこれらの「クラスター」を「購入」していません。データは均一であり、クラスターがないことが想定されてます。
アノニムース

2

ペアワイズ多変量関連についての@ttnphnsの論点はよく理解されています。それに関連するのは、多変量フレームワークに飛び込む前に単純なメトリックとの関連付けを実証することの重要性についての古い見方です。言い換えると、関連の単純なペアワイズ測定が関係を示さない場合、多変量関係がいずれかを示す可能性はますます低くなります。「不可能」という言葉を使用したがらないため、「ありそうもない」と言います。さらに、順序データ、Somer's D、Kendall's Tauの単調なスピアマン相関であるかどうかに関係なく、採用されたメトリックについてはわかりません。、ポリコリック相関、ReshefのMIC、Szelkeyの距離相関など。この説明では、メトリックの選択は重要ではありません。

カテゴリ情報で潜在構造を見つけるために行われた最初の作業は、50年代初期とコロンビア社会学者のポール・レイザースフェルドにまでさかのぼります。本質的に、彼は広範な変数のモデルを発明しました。最初に、潜在的な有権者の選挙傾向に関するUのC政治経済学者であるジェームズコールマンの60年代の仕事に続いて、社会学者でもある故クリフォードクロッグの貢献が続きました。

80年代には、Statistical InnovationsのLatent Goldなどのツールの開発により、潜在クラスモデルが純粋なカテゴリ情報から有限混合モデルに拡張されました。さらに、マーケティング科学者のビル・ディロンは、潜在的な判別有限混合モデルに適合するためのガウスプログラムを開発しました。カテゴリ情報と連続情報の混合をフィッティングするためのこのアプローチに関する文献は、実際には非常に広範です。最も広く適用されている分野以外では、たとえば、これらのモデルが消費者のセグメンテーションとクラスタリングに使用されるマーケティングサイエンス以外ではあまり知られていません。

ただし、潜在的なクラスタリングと分割表分析へのこれらの有限混合モデルアプローチは、今日の大量のデータの世界では古くから考えられています。膨大な分割表の集合間の関連性を見つける最新技術は、David Dunsonや他のDukeのBayesiansによって開発されたようなテンソルモデルの展開から得られる分解です。以下は、彼らの論文の1つからの要約とリンクです。

分割表分析は日常的に対数線形モデルに依存しており、潜在的な構造分析が一般的な代替手段となります。潜在構造モデルは、多変量カテゴリデータの確率質量関数の低ランクテンソル因数分解につながりますが、対数線形モデルはスパース性による次元削減を実現します。これらの2つのパラダイムにおける次元削減の概念間の関係についてはほとんど知られていない。対数線形モデルのサポートを、関連する確率テンソルの非負のランクに関連付けるいくつかの結果を導き出します。これらの発見に動機付けられて、既存のPARAFAC分解とTucker分解を橋渡しする、新しい崩壊したTuckerクラスのテンソル分解を提案します。

https://arxiv.org/pdf/1404.0396.pdf


これは興味深い情報です。私はそれがどのように質問に関係するのか明確ではありません。
GUNG -復活モニカ

gungカテゴリカルデータのクラスタが「存在する」かどうかについての幅広い議論と基本的な質問を考えると、私の貢献の関連性に関する明確性の欠如は不可解です。私の見解では、提供された情報は、以前は無視されていた方法論と知識発見の領域を明らかにしています。ペアワイズから多変量関連への飛躍が、より単純なレベルで関連がない場合は非常にありそうもないことについて、OPsの質問に明示的に対処した私の最初の観察結果も指摘できますか。
マイクハンター

私は攻撃を意味しませんでした、@ DJohnson。私は、カテゴリデータをクラスタリングするための潜在モデル(つまり、潜在クラス分析)を備えた(ある程度)よく知られています。上記のコメントでそれをほのめかしました。私は、歴史、研究者、ソフトウェアにあまり馴染みがありませんでした。それは興味深い。変数が関連性を示さない名義データに検出可能なクラスターが存在するかどうかの質問にどのように答えるかはわかりません。それがあなたが得ているものである場合、例が役立ちます。提供できますか?
GUNG -復活モニカ

@gungもちろんそうではありません。
マイクハンター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.