多変量機械学習を行う方法は?(複数の従属変数の予測)


9

私は誰かが購入するアイテムのグループを予測しようとしています...つまり、複数の同一直線上の従属変数があります。

7つほどの独立したモデルを構築して、7つのアイテムのそれぞれを購入する確率を予測して結果を組み合わせるのではなく、7つの関連する従属変数間の関係を説明する1つのモデルを作成するためにどのような方法を検討すればよいですか(彼らが購入できるもの)。

私はプログラミング言語としてRを使用しているので、R固有のアドバイスがあれば感謝します。

回答:


7

あなたの説明に基づいて、多項ロジスティック回帰が適切であると思われます。結果が7レベルの因子(7つの購入オプションの1つ)であるとすると、多項ロジスティック回帰モデルを使用してメンバーシップをすばやく予測できます(R ?multinomnnetパッケージを参照)。結果を7レベルの因子に組み合わせることができない場合は、多項ロジスティック回帰を近似する前にアイテムをグループ化するクラスター分析が必要になります。


多項式回帰ではありません。私には7つの異なる製品があり、各製品には最大4つの要素があります。...イチゴとイチゴの種類、そして牛乳と異なる種類の牛乳、そしてリンゴと異なる種類のリンゴがあり、正しい予測をする必要がありますショッピングカート... 2%の牛乳などを加えた、栽培されたイチゴと青リンゴ
blast00 2014

1
私はあなたの解決策を持っています!多項潜在クラス分析をお勧めします。結果は、1つ以上の潜在クラスにグループ化されると想定される一連の要因です。これらのクラスのメンバーシップは、多項ロジスティック回帰に基づいて予測されます。?poLCAこのモデルの近似の詳細については、Rを参照してください。
statsRus 2014

私はこれを読んでいます-statsRusに感謝します。しかし、他の方法があるはずです。
blast00 2014

具体的には、確率分布を適合させる必要がないため、機械学習法/ブラックボックスモデルで問題ありません
blast00

多くの統計モデルは、実際には教師なし機械学習モデルであることを覚えておいてください。多くの入力と結果(およびブラックボックス品質)を備えた教師あり機械学習の場合、ニューラルネットワーク(?nnetR)をお勧めします。
statsRus 2014

5

それぞれのクラスがアイテムのグループであるランダムなフォレストを構築することができます(つまり、「2%のミルクが入った、栽培されたイチゴのグリーンアップル」)。次に、買い物客の特性または予測因子が何であるかに基づいて、アイテムのグループごとに購入の予測確率を提供できます。これを行うには、RのrandomForestパッケージ(https://cran.r-project.org/web/packages/randomForest/index.html)を使用します。


3

1つのオプションは、製品購入のすべての組み合わせの頻度を取得することです。最も一般的な組み合わせをいくつか選択します。次に、回帰モデルを作成して、各個人の選択した組み合わせを予測します。たとえば、バイナリロジスティック回帰を使用すると、a)白ワイン、ブリー、イチゴ、ブドウとの比較、b)赤ワイン、チェダー、ゴーダの購入を予測できます。このような組み合わせが2つ以上ある場合、または「上記のいずれでもない」というカテゴリを含める場合は、多項ロジスティック回帰がおそらく最適な方法です。

共通のコンボのみを含めると、それぞれの実行可能な数が増えますが、少なくともこの手順では他のコンボを除外することに注意してください。少なくとも数人がそれぞれ選択した数十のコンボを作成する7つのアイテムを想像できます。これは、サンプルサイズに対してカテゴリが多すぎる可能性があります。さらに、コンボが数人で選択された場合、モデルで使用できる情報はほとんどありません。

別のオプションは、クラスター分析を使用して、一緒に購入される傾向があるいくつかのアイテムのセットに到達することです。7つのアイテムを使用すると、クラスターが4つ未満になり、タスクが簡単になる可能性があります。クラスター分析を試みて結果が機能しないとわかった場合、それらを使用する必要がある理由はありません。上記の頻度ベースのアプローチに戻ってください。この場合、私があなたを正しく読んだ場合、あなたは最も説明的で興味深いカテゴリーの配列を探しています、そしてそれを確立する際に、自由度や複数の比較、または適用されるかもしれないそのような懸念について心配する必要はありません推論テストを実行する際に複数の方法を試していた場合。


この提案をありがとう。ただし、多変量の機械学習手法が必要です。Simliarあなたは「簡単に」回帰モデルにおける2つの従属変数があるかもしれない...とあなただけのLM(Y + Z〜...)を行う方法に..私は思う...
blast00

0

次のような状況を分析するとします。

Yi = f(X)、ここでf()は非線形リンク、Xは共変量のベクトル、Yiはi番目の従属変数であり、本質的に序数です(カテゴリカルの場合、Yiは2を超えることができません)カテゴリー)、そしてあなたのモデルでi = 1、2、... 5と言い、各Yiは相関しています...もしそうなら、確かに多変量プロビットを採用できます。R、Mplus、SASはMVPを推定できます

対照的に、Y = f(X)であり、Y(Yは1つしかないことに注意)はカテゴリ型であり、たとえば、N個のカテゴリがあるため、N個のカテゴリに対して行われる選択は排他的で完全です。Multinomial Logitモデルを適合させる必要があります。多項式プロビットと呼ばれるものもあり、多項式ロジットに似ています。

お役に立てれば。ありがとうSanjoy

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.