2つの頻度分布間の統計的な「距離」を測定する方法は?
私は、年間を通じてウェブサイトの使用時間を調査するデータ分析プロジェクトに取り組んでいます。私がやりたいのは、使用パターンがどの程度「一貫性がある」かを比較することです。たとえば、週に1回1時間使用するパターン、または1回10分間使用するパターンにどれだけ近いかを比較します。週に数回。私は計算できるいくつかのことを知っています: シャノンエントロピー:結果の「確実性」がどれだけ異なるか、つまり確率分布が均一な分布とどれだけ異なるかを測定します。 カルバック・リーブラー発散:ある確率分布が他の確率分布とどれだけ異なるかを測定します Jensen-Shannon発散: KL 発散と似ていますが、有限値を返すため、より有用です スミルノフ・コルモゴロフ検定:連続したランダム変数の2つの累積分布関数が同じサンプルに由来するかどうかを判定する検定。 カイ2乗検定:頻度分布が予想される頻度分布とどれだけ異なるかを判断する適合度検定。 私がやりたいのは、実際の使用期間(青)が理想的な使用時間(オレンジ)とどれだけ異なるかを比較することです。これらの分布は離散的であり、以下のバージョンは正規化されて確率分布になります。水平軸は、ユーザーがWebサイトで費やした時間(分単位)を表します。これは、年の各日について記録されています。ユーザーがウェブサイトにまったくアクセスしていない場合、これはゼロ期間としてカウントされますが、これらは度数分布から削除されています。右側は累積分布関数です。 私の唯一の問題は、JSダイバージェンスを取得して有限値を返すことができても、異なるユーザーを見て、それらの使用量分布を理想的なものと比較すると、ほとんど同じ値を取得することです(したがって、これは良くありませんそれらがどれだけ異なるかの指標)。また、頻度分布ではなく確率分布に正規化すると、かなりの情報が失われます(たとえば、学生がプラットフォームを50回使用する場合、バーの長さの合計が50になるように青色の分布を垂直にスケーリングする必要があります。オレンジ色のバーの高さは1ではなく50にする必要があります。「一貫性」とは、ユーザーがWebサイトにアクセスする頻度が、Webサイトからの離脱に影響するかどうかです。彼らがウェブサイトにアクセスした回数が失われた場合、確率分布の比較は少し疑わしいです。ユーザーの継続時間の確率分布が「理想的な」使用量に近い場合でも、そのユーザーは1年間にプラットフォームを1週間しか使用しなかった可能性があり、おそらく一貫性はありません。 2つの頻度分布を比較し、それらがどれほど似ている(または似ていない)かを特徴付ける何らかのメトリックを計算するための確立された手法はありますか?