2つの頻度分布間の統計的な「距離」を測定する方法は?


14

私は、年間を通じてウェブサイトの使用時間を調査するデータ分析プロジェクトに取り組んでいます。私がやりたいのは、使用パターンがどの程度「一貫性がある」かを比較することです。たとえば、週に1回1時間使用するパターン、または1回10分間使用するパターンにどれだけ近いかを比較します。週に数回。私は計算できるいくつかのことを知っています:

  • シャノンエントロピー:結果の「確実性」がどれだけ異なるか、つまり確率分布が均一な分布とどれだけ異なるかを測定します。
  • カルバック・リーブラー発散:ある確率分布が他の確率分布とどれだけ異なるかを測定します
  • Jensen-Shannon発散: KL 発散と似ていますが、有限値を返すため、より有用です
  • スミルノフ・コルモゴロフ検定:連続したランダム変数の2つの累積分布関数が同じサンプルに由来するかどうかを判定する検定。
  • カイ2乗検定:頻度分布が予想される頻度分布とどれだけ異なるかを判断する適合度検定。

私がやりたいのは、実際の使用期間(青)が理想的な使用時間(オレンジ)とどれだけ異なるかを比較することです。これらの分布は離散的であり、以下のバージョンは正規化されて確率分布になります。水平軸は、ユーザーがWebサイトで費やした時間(分単位)を表します。これは、年の各日について記録されています。ユーザーがウェブサイトにまったくアクセスしていない場合、これはゼロ期間としてカウントされますが、これらは度数分布から削除されています。右側は累積分布関数です。

Webサイトの使用データと理想的な使用データの分布

私の唯一の問題は、JSダイバージェンスを取得して有限値を返すことができても、異なるユーザーを見て、それらの使用量分布を理想的なものと比較すると、ほとんど同じ値を取得することです(したがって、これは良くありませんそれらがどれだけ異なるかの指標)。また、頻度分布ではなく確率分布に正規化すると、かなりの情報が失われます(たとえば、学生がプラットフォームを50回使用する場合、バーの長さの合計が50になるように青色の分布を垂直にスケーリングする必要があります。オレンジ色のバーの高さは1ではなく50にする必要があります。「一貫性」とは、ユーザーがWebサイトにアクセスする頻度が、Webサイトからの離脱に影響するかどうかです。彼らがウェブサイトにアクセスした回数が失われた場合、確率分布の比較は少し疑わしいです。ユーザーの継続時間の確率分布が「理想的な」使用量に近い場合でも、そのユーザーは1年間にプラットフォームを1週間しか使用しなかった可能性があり、おそらく一貫性はありません。

2つの頻度分布を比較し、それらがどれほど似ている(または似ていない)かを特徴付ける何らかのメトリックを計算するための確立された手法はありますか?


4
損失関数とは何か(つまり、使用パターンが理想的な悪とどのように異なっているか、そして悪の量はどのような発散にどのように依存するか)を自問することから始めます。その周り。
累積

回答:


12

Wasserstein metricとしても知られるEarth moverの距離に興味があるかもしれません。R(パッケージを見る)とPythonで実装されています。また、多数のスレッドがあります。emdist

EMDは、連続分布と離散分布の両方で機能します。emdistR のパッケージは、離散分布で機能します。

χ2

別の言い方をすると、2つの分布(1,0,0)と(0,1,0)は(1,0,0)と(0,0,1)よりも「類似」しているはずです。EMDはこれを認識し、2番目のペアよりも最初のペアに短い距離を割り当てます。のχ2


なぜその特定の距離ですか?これは、あらゆる継続的な配布用に設計されているようです。OPには度数分布があるので、カイ二乗のようなより「離散的な」距離ではありませんか?
user2974951

@ user2974951:結構です。編集をご覧ください。
ステファンKolassa

Lp

Lp

3

2つの分布のそれぞれからランダムに個人をサンプリングする場合、それらの差を計算できます。これを(置換を使用して)何回も繰り返すと、必要なすべての情報を含む差異の分布を生成できます。この分布をプロットして、平均、中央値など、必要な要約統計で特徴付けることができます。


1
そのような手順の名前はありますか?
user2974951

4
任意の分布とそれ自体の違いの分布は、任意の分布ごとに異なるというベースラインの事実をどのように説明できるのだろうか。N(0,1)対それ自体と比較して、U(0,1)対それ自身を考える。したがって、2つの異なる分布を比較して得られる差の分布は、一意のベースラインがないと評価するのが困難です。観測値がペアになっている場合、問題はなくなり、ベースラインはゼロの単位質量になります。
リチャードハーディ

@ user2974951それはかなり単純であり、明らかにブートストラップに関連しているので、あると思います。しかし、私はそれを正確に何と呼ぶべきかわかりません。
mkt-モニカの復活

1
@mkt、説明をありがとう。それだけのために議論するつもりはありませんが、私はまだ、独自のベースラインがなければ、定規はまったくないと思います。しかし、私はそのままにします。とにかくあなたのアイデアにはいいことがあります。
リチャードハーディ

1
@RichardHardy私はここでの交換に感謝し、あなたは正しいかもしれません。これについてさらに検討する必要があります。
mkt-モニカの復活

0

メトリックの1つは、平均と標準偏差によって特徴付けられる2つの分布間のヘリンガー距離です。アプリケーションは、次の記事で見つけることができます。

https://www.sciencedirect.com/science/article/pii/S1568494615005104


ありがとう。私が望んでいることをする分岐(f-divergences)のファミリーがあることを見てきましたが、文献をすばやく確認しても、どちらが最適であるかを示すようには見えません...この?
omegaSQU4RED
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.