最初の要素が特定の期間のウェブサイトへの訪問数であり、最大の訪問数を持つ一意のIPによる順序ベクトルであり、2番目の要素が2番目の要素を持つ一意のIPによる訪問数であるとします最大訪問数など。サイトごとのバリエーションがあるかもしれないと理解していますが、一般的にこのベクトルの形状に想定されるパターンはありますか?たとえば、べき乗分布に従っていますか?
最初の要素が特定の期間のウェブサイトへの訪問数であり、最大の訪問数を持つ一意のIPによる順序ベクトルであり、2番目の要素が2番目の要素を持つ一意のIPによる訪問数であるとします最大訪問数など。サイトごとのバリエーションがあるかもしれないと理解していますが、一般的にこのベクトルの形状に想定されるパターンはありますか?たとえば、べき乗分布に従っていますか?
回答:
いいえ、ウェブサイトへのユニークビジターはべき法則を順守していません。
過去数年間で、べき法則の主張のテストがますます厳しくなっています(例:Clauset、Shalizi and Newman 2009)。明らかに、過去の主張は十分にテストされていないことが多く、ログ-ログスケールでデータをプロットし、直線を実証するために「眼球テスト」に依存するのが一般的でした。正式なテストがより一般的になったため、多くの分布はべき乗則に従わないことが判明しました。
Webでのユーザーの訪問を調べることがわかっている最高の2つの参考文献は、Ali and Scarr(2007)とClauset、Shalizi and Newman(2009)です。
Ali and Scarr(2007)は、Yahoo Webサイトでのユーザークリックのランダムサンプルを見て、次のように結論付けました。
広く知られているのは、ウェブのクリックとページビューの分布は、スケールフリーのべき法則の分布に従うということです。ただし、統計的に有意に優れたデータの記述は、スケールに敏感なZipf-Mandelbrot分布であり、それらの混合により適合度がさらに向上することがわかりました。以前の分析には3つの欠点があります。少数の候補分布を使用し、古いユーザーのWeb動作を分析し(1998年頃)、疑わしい統計手法を使用していました。より良い近似分布がいつか見つからないことを排除することはできませんが、スケールに敏感なZipf-Mandelbrot分布は、スケールフリーべき乗則またはZipfよりも統計的に有意に強いフィットをデータに提供することを確信できます。 Yahooドメインのさまざまな業種。
1か月にわたる個々のユーザークリックのヒストグラムと、ログとログのプロット上の同じデータを、比較した異なるモデルとともに示します。データは明らかに、スケールフリーの配電から予想される直線対数線上にはありません。
Clauset、Shalizi and Newman(2009)は、尤度比検定を使用して、べき法則の説明と対立仮説を比較し、ウェブのヒットとリンクの両方を「もっともらしい法則に従うとは考えられない」と結論付けました。前者のデータは、America Online Internetサービスの顧客による1日のWebヒットであり、後者のデータは、1997年の約2億WebページのWebクロールで見つかったWebサイトへのリンクです。以下の画像は、累積分布関数P(x)とその最尤指数法則を示しています。
Clauset、Shalizi、Newmanのこれらのデータセットの両方について、分布の極端な裾を修正する指数関数的なべき乗分布は、純粋なべき法則分布よりも明らかに良く、対数正規分布も適切であることがわかりました。(彼らはまた、指数および拡張指数仮説にも注目しました。)
手元にデータセットがあり、単に興味をそそるだけではない場合は、異なるモデルに適合させて比較する必要があります(R:pchisq(2 *(logLik(model1)-logLik(model2)))、df = 1、より低い。 tail = FALSE))。ゼロ調整されたZMモデルをどのようにモデル化するのか、手っ取り早いとは思いません。Ron PearsonはZMディストリビューションについてブログを書いており、明らかにRパッケージzipfRがあります。私は、おそらく負の二項モデルから始めますが、私は本当の統計学者ではありません(そして彼らの意見が欲しいです)。
(また、データを指摘する2番目のコメント者@richiemorrisroeは、ウェブをクロールするプログラムや多くの人々のコンピューターを表すIPアドレスなど、個々の人間の行動とは無関係な要因の影響を受ける可能性が高いことを指摘します)
言及された論文: