平日の分布の均一性を測定する


10

私はここで尋ねられた質問と同様の問題を抱えています:

分布の不均一性をどのように測定しますか?

曜日全体にわたる一連の確率分布があります。各分布が(1 / 7,1 / 7、...、1/7)にどれだけ近いかを測定したいと思います。

現時点では、上記の質問の回答を使用しています。L2ノルムは、分布の1日の質量が1の場合に値1を持ち、(1 / 7,1 / 7、...、1/7)に対して最小化されます。私はこれを線形にスケーリングして、0と1の間にあるようにします。それを反転させると、0は完全に不均一になり、1は完全に均一になります。

これはかなりうまく機能しますが、私には1つの問題があります。平日は7次元空間の次元として等しく扱われるため、日数の近さは考慮されません。つまり、(1 / 2,1 / 2,0,0,0,0,0)と(1 / 2,0,0,1 / 2,0,0,0)にも同じスコアを与えますある意味では、後者はより「広がり」、均一であり、理想的にはより高いスコアを取得する必要があります。日付の順序が循環的であるという追加の複雑さが明らかにあります。

日の近さを説明するために、このヒューリスティックをどのように変更できますか?


1
(1 / 2,1 / 2,0,0,0,0,0)と(1 / 2,0,0,1 / 2,0,0,0)の例は、同じように不均一ですなので、不均一性のテストのみに関心がある場合は問題になりません。それで、あなたはあなたの質問で明示的に述べられなかった何かをもっとテストしたいですか?ところで、 エントロピーは均一性の尺度です。
Tim

ティムに感謝します。エントロピーを使用してみましたが、上記のヒューリスティックが私の目的に適していることがわかりました。興味のある平日の確率分布のプロパティを何と呼ぶか​​わかりませんが、週の確率の「広がり」をカプセル化する必要があります。
EBartrum、2015年

回答:


15

アースムーバの距離もワッサーメトリック、測定二つのヒストグラムの間の距離として知られています。基本的には、1つのヒストグラムを多数の汚れの山と見なし、移動する必要のある汚れの量と、このヒストグラムを別のヒストグラムに変換するための距離(!)を評価します。あなたは、あなたの分布と均一な分布の間の距離を曜日にわたって測定します。

もちろん、これは日数の近さを考慮しています。月曜日から木曜日よりも月曜日から火曜日に「汚れ」を移動する方が簡単なので、(1 / 2,0,0,1 / 2,0,0,0)には月曜日と火曜日に集中しているヒストグラムよりも、均一な分布からの地球発動機の距離が短い。

これが行わないことは、週の「循環性」を考慮することです。つまり、土曜日と日曜日は日曜日と月曜日と同じくらい接近しているということです。そのためには、循環確率質量分布で定義されたアースムーバーの距離を探す必要があります。これは、適切な最適化アプローチを使用して実行できるはずです。


編集:Rでは、emdパッケージはヒストグラム間のアースムーバー距離を計算します

「循環性」の問題は、かなり簡単な方法(アドホックですが)で対処できます。

  • d1
  • d2
  • d3
  • ...
  • d1,,d7

これは、いくつかの追加の計算を犠牲にして循環性を処理します。

di

ただし、これを少なくともいくつかの方法で循環を考慮するための潜在的に有用な方法と考えます。単一のヒストグラムを使用して、週を日曜日から土曜日またはその他の任意の方法で定義するよりも確かに優れています。加えて、上記のリンクのいくつかは、円形の地球の移動距離の実装を上げていますが、Rの実装については、おそらくここで最も使用されている言語であることに気付いていません。


3
d1,,d7di

@JiK:良い点、そして昨日接続を失った後に私にも起こった点。これはハックであり、実際の円形の地球移動距離ではないことを強調するために、私の回答を明確にしました。
Stephan Kolassa、2015年

1
感謝します。実際、私は自分の距離関数を定義することで、emdパッケージとemd2d関数を使用して、Rに円形の地球移動距離を実装することができたので、あなたが言及したハックを使用する必要はありませんでした。これはまさに私が探していたものです!もう1つの些細な問題:それを何と呼ぶべきですか?ティムが上で言ったように、私はこの均一性を呼ぶべきではありません。このヒューリスティックの適切な名前は何ですか?
EBartrum、2015年

1
L2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.