回答:
各ユーザーが少なくとも1つの薬物を使用した場合、一緒に使用できる薬物の組み合わせは1024しかありません(薬物が10しかなかった場合)。0/1変数を文字列に変換して連結し、文字列に対して頻度分析を実行して、最も頻繁に現れる組み合わせを確認できます。おもちゃの例として、あなたの研究にはA、B、Cの3つの薬物しかなかったとしましょう。参加者が薬物AとCを使用した場合、変数alldrugs
は101とコード化できます。薬物Bのみを使用する参加者は010とコード化します。ほとんどのソフトウェアはこれを数秒で処理できるはずです。
潜在クラスモデリングは、薬物と薬物使用者の根本的な「隠された」パーティションまたはグループを見つけるための1つの監視された学習アプローチです。LCは非常に柔軟な方法であり、2つの広いアプローチがあります。単一の被験者の反復測定に基づく複製と、カテゴリ変数のセットのクロス分類に基づく複製です。データは2番目のタイプに適合します。
LCの柔軟性は、スケーリングが異なる(カテゴリまたは連続など)変数の「混合物」を吸収する機能の関数です。このアプローチは、データ内の非表示のパーティション、セグメント、またはクラスターを検出するため、次元削減手法と見なすこともできます。
すべてのLCモデルには2つのステージがあります。ステージ1では、従属変数またはターゲット変数が識別され、回帰モデルが構築されます。ステージ2では、ステージ1モデルの残差(単一の「潜在的な」ベクトル)が分析され、そのベクトルの変動性(または不均一性)(「潜在クラス」)をキャプチャするパーティションが作成されます。
フリーウェアは、おそらくあなたのためにかなりうまくいくだろうダウンロードのためにそこにあります。これらの1つは、ここで利用可能なpolCAと呼ばれるRモジュールです。
http://www.jstatsoft.org/article/view/v042i10
あなたが商用製品に費やすの約$ 1,000がある場合は、潜在金に使わたwww.statisticalinnovations.comから入手可能である潜在ゴールド年間は、私はその分析力とソリューションの範囲について、その製品の大ファンです。たとえば、polCAはカテゴリ情報を備えたLCモデルにのみ役立ちますが、LGは全面的に機能します。さらに、開発者は常に新しいモジュールを追加しています。最新の追加により、隠れたマルコフ連鎖を使用してLCモデルが構築されます。ただし、LGは「エンドツーエンド」のデータプラットフォームではないこと、つまり、大量のデータ操作やデータの持ち上げには適していないことを覚えておいてください。
それ以外の場合、R、SPSS、SAS、Pythonなどの統計ソフトウェアで広くサポートされているカテゴリ情報を分析するための他の多くのアプローチがあります。これらには、分割表分析、対数線形モデル、有限混合モデル、ベイズテンソル回帰、等々。この領域の文献は広範で、1975年にビショップら、離散多変量解析で始まり、80年代以降に行われた彼の研究に基づくレオグッドマンのRCモデル、アグレスティのカテゴリカルデータ分析、スティーブンフィエンバーグによる書籍、およびトーマスウィッケンスを含みます。 ' 1989年に発行された優れた本「社会科学のための多元分割表分析」。ベイズテンソル回帰 は、デュークのDavid Dunsonによる論文のタイトルであり、大規模な多元分割表をモデリングするための非常に最近の手法であるという点で、「最先端」の一種です。
直感的に何が頭に浮かびますか?組み合わせを数えたいのですが、可能なすべての組み合わせを見つけて単純に数えませんか?頻繁なアイテムセットマイニングを検討することをお勧めします。
以下は同じもののいくつかの実装です: