イベント間の相関を見つけるためにどのアルゴリズムを使用できますか?


12

私は機械学習が初めてなので、いくつかの文献を見つけようとしていますが、Googleに何を求めるべきかさえわかりません。私のデータは次の形式です。

User A performs Action P
User B performs Action Q
User C performs Action R
...
User C performs Action X
User A performs Action Y
User B performs Action Z
...

各アクションに特定の特性(日付、時刻、クライアントなど)がある場合。約300人のユーザーがおり、約20,000のアクションがあります。

質問

ユーザーアクション間に因果関係/相関関係があるかどうかを確認したいと思います。たとえば、「ユーザーEがアクションTを実行するたびに、2日後にユーザーGがアクションVを実行します」。しかし、その間に、他の多くのユーザーが他の多くのアクションを実行している可能性があり、相関関係が見つからない可能性があります。一部のユーザーは相関しているが、他のユーザーは完全に独立している可能性もあります。これは、機械学習で見つけられるものですか?私に役立つ特定のアルゴリズムまたはアルゴリズムのセットはありますか?

アソシエーション分析とAprioriアルゴリズムについて読んでいましたが、既知の十分に区切られたデータセットを入力として必要とするように思えるので、これで必要なものが得られるとは思いません。行動。何を見るべきかについてのどんな提案でも大歓迎です!


1
G=VEPjj

回答:


1

アルゴリズムを使用して頻繁なアイテムセットと関連付けルールを見つける前に、データの準備を行う必要があると思います。

この記事のトランザクションテーブルを参照してください:マーケットバスケット分析

あなたの場合、相関関係が予想されるインタラクション間の最大時間を設定(および微調整)する必要があります。その後、頻繁にユーザーを選択し、彼が作成したトランザクション(またはサンプル)ごとに、他のユーザートランザクションの2日間の単一レコード。属性は次のようなブール値である必要があります

UserA,transactionP |UserB,transaction Z| UserB, transaction F | [...]

本当に助かります、ありがとう!したがって、各ユーザーに対してアルゴリズムを1回実行して、他のユーザーがそのユーザーに関連付けられているかどうかを確認しますか、それとも1回だけ実行して「関連付けられているユーザーのセットを表示する」ことができますか?
マット

私のアプローチに従うことで、カップルのユーザーと伝統によって開始された「パターン」のみをテストできます。どのユーザーとアクションを選択するかは、相関の可能性に関する知識に依存します。
cesko80

3つの提案。1.お問い合わせを絞り込みます。失礼ではありませんが、データに内在する可能性のある多くの関連性から有意義な関連性をすべて伝えることができる、単一の驚くほど包括的な統計手順はありません。2.時系列分析を読んでください。3.因果関係を単なる相関関係から区別する方法を読んでください。残念ながら、簡単な修正方法はありません!
rolando2

1

データを調査する1つの方法は、前のアクションと次のアクションの表を作成することです。そのため、イベントごとに、同じユーザーによる次のアクションを見つけます。同様に、次のアクションまでの前のアクションXの遅延を集計できます。

次に、前のアクションが次のアクションに影響を与えるかどうかを調べることができます。そうでない場合、ユーザーは「ステートレス」です。

別の単純化としては、ユーザーIDを無視し、各アクションの頻度が時間の経過とともに同じか変化するかを尋ねることがあります。そして、それが周期的であるか傾向を示すかどうかを変える場合。

これらの質問に対する答えは、データの構造がほとんどないことを示している場合があります。または、テストするためにいくつかの新しい仮説を立てることができます。


1

これは興味深い質問です。最適なアプローチは、データセット全体を調べて頻度テーブルを作成することです。例:ユーザーAがアクションPを実行し、ユーザーBがアクションQとZを実行し、ユーザーCがアクションRとXを実行しているため、同様に、より多くのアクションを実行しているユーザーが増えます。そのため、このデータセットに対処するためのいくつかのアプローチがあります1)異なるバケット内の類似アイテムをグループ化するクラスターアルゴリズム2)ユーザー対アクションのマッピングと頻度を識別するマーケットバスケット分析

データセット全体を調べることなく、これらの種類の質問に対して特定のアルゴリズムを処方することは推奨されません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.