回答:
あなたの説明に基づいて、多項ロジスティック回帰が適切であると思われます。結果が7レベルの因子(7つの購入オプションの1つ)であるとすると、多項ロジスティック回帰モデルを使用してメンバーシップをすばやく予測できます(R ?multinom
のnnet
パッケージを参照)。結果を7レベルの因子に組み合わせることができない場合は、多項ロジスティック回帰を近似する前にアイテムをグループ化するクラスター分析が必要になります。
?poLCA
このモデルの近似の詳細については、Rを参照してください。
?nnet
R)をお勧めします。
それぞれのクラスがアイテムのグループであるランダムなフォレストを構築することができます(つまり、「2%のミルクが入った、栽培されたイチゴのグリーンアップル」)。次に、買い物客の特性または予測因子が何であるかに基づいて、アイテムのグループごとに購入の予測確率を提供できます。これを行うには、RのrandomForestパッケージ(https://cran.r-project.org/web/packages/randomForest/index.html)を使用します。
1つのオプションは、製品購入のすべての組み合わせの頻度を取得することです。最も一般的な組み合わせをいくつか選択します。次に、回帰モデルを作成して、各個人の選択した組み合わせを予測します。たとえば、バイナリロジスティック回帰を使用すると、a)白ワイン、ブリー、イチゴ、ブドウとの比較、b)赤ワイン、チェダー、ゴーダの購入を予測できます。このような組み合わせが2つ以上ある場合、または「上記のいずれでもない」というカテゴリを含める場合は、多項ロジスティック回帰がおそらく最適な方法です。
共通のコンボのみを含めると、それぞれの実行可能な数が増えますが、少なくともこの手順では他のコンボを除外することに注意してください。少なくとも数人がそれぞれ選択した数十のコンボを作成する7つのアイテムを想像できます。これは、サンプルサイズに対してカテゴリが多すぎる可能性があります。さらに、コンボが数人で選択された場合、モデルで使用できる情報はほとんどありません。
別のオプションは、クラスター分析を使用して、一緒に購入される傾向があるいくつかのアイテムのセットに到達することです。7つのアイテムを使用すると、クラスターが4つ未満になり、タスクが簡単になる可能性があります。クラスター分析を試みて結果が機能しないとわかった場合、それらを使用する必要がある理由はありません。上記の頻度ベースのアプローチに戻ってください。この場合、私があなたを正しく読んだ場合、あなたは最も説明的で興味深いカテゴリーの配列を探しています、そしてそれを確立する際に、自由度や複数の比較、または適用されるかもしれないそのような懸念について心配する必要はありません推論テストを実行する際に複数の方法を試していた場合。
次のような状況を分析するとします。
Yi = f(X)、ここでf()は非線形リンク、Xは共変量のベクトル、Yiはi番目の従属変数であり、本質的に序数です(カテゴリカルの場合、Yiは2を超えることができません)カテゴリー)、そしてあなたのモデルでi = 1、2、... 5と言い、各Yiは相関しています...もしそうなら、確かに多変量プロビットを採用できます。R、Mplus、SASはMVPを推定できます
対照的に、Y = f(X)であり、Y(Yは1つしかないことに注意)はカテゴリ型であり、たとえば、N個のカテゴリがあるため、N個のカテゴリに対して行われる選択は排他的で完全です。Multinomial Logitモデルを適合させる必要があります。多項式プロビットと呼ばれるものもあり、多項式ロジットに似ています。
お役に立てれば。ありがとうSanjoy