時間イベントの長期的な分布


10

Webサーバーのログがあるとします。これらのログには、次の種類のタプルがあります。

user1, timestamp1
user1, timestamp2
user1, timestamp3
user2, timestamp4
user1, timestamp5
...

これらのタイムスタンプは、たとえばユーザーのクリックを表します。これで、user1は1か月間に複数回(セッション)のサイトにアクセスし、各セッション中に各ユーザーからのクリックのバーストが発生します(ユーザーがサイトにアクセスすると、ユーザーは複数のページをクリックするとします)。

これらのクリックのバーストを、それらを生成したセッションで分割したいとしますが、追加の情報源はなく、タイムスタンプのリストのみがあるとします。同じユーザーによる2回のクリックの間隔の分布を計算すると、長い分布が得られます。直感的には、「カットパラメータ」、たとえばN秒を探します。ここで、であればtimestamp_{i+1} - timestamp{i} > N、あなたtimestamp_{i+1}は新しいセッションの始まりです。

問題は、この分布が実際には2つの変数の混合であるということです:X =「同じセッションでの2つの後続のクリック間の間隔」とY =「前のセッションの最後のクリックと新しいセッションの最初のクリックとの間の間隔」。

問題は、このNをどのように推定するかであり、クリックのバーストを調べるだけで、2つの分布を(おそらく少しオーバーラップして)分割しますか?


「クリックのバーストを見るだけで」と言うとき、N以外を計算できないことを意味しますか?
ジェラド

つまり、タプル(ユーザー、タイムスタンプ)以外の情報源はありません。しきい値ベースの方法(デルタ> Nに基づく)は、方法のほんの一例です。多分他の何かが可能です。
marcorossi

このスレッドはあなたに興味があるかもしれません:適切なクラスタリング技術-テンポラルデータ
gung-モニカの復活

回答:


2

実際には、生の値ではなく、クリック間隔の対数をプロットする必要があります。これにより、ディストリビューションが平坦化され、ディストリビューションの複数のモードが明らかになる場合もあります。

神経スパイクのバーストを特定する際の非常に類似した問題を解決するために、より高度なアプローチが神経科学者によって開発されました。この古典的な論文や、Google Scholarに関する他の多くの関連論文。


ディストリビューションのログを印刷しました。平らな線です。それはどのように役立ちますか?あなたは何を見ますか?論文の参照は素晴らしいです、ありがとう。
marcorossi

対数確率プロットだけはどうですか?つまり、間隔ではなく、周波数のみのログを取ります。2つのモードがわかりますか?
jerad
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.