分布の不均一性をどのように測定しますか？

28

私が実行している実験の分布の不均一性を測定するためのメトリックを考えています。ほとんどの場合、均一に分布するランダム変数があり、変数が一定のマージン内で均一に分布していないデータセットの例を識別（および場合によってはその程度を測定）できるようにしたいと思います。

私が測定している何かの発生頻度を表す10の測定値を持つ3つのデータシリーズの例は、次のようなものです。

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

cのような分布をaやbのような分布と区別し、均一な分布からのcの偏差を測定できるようにしたいと思います。同様に、分布がどの程度均一であるか（標準偏差がゼロに近い？）のメトリックがある場合は、おそらくそれを使用して分散の大きいものを区別できます。ただし、上記のcの例のように、データには1つまたは2つの外れ値しかない場合があり、そのように簡単に検出できるかどうかはわかりません。

私はソフトウェアでこれを行うために何かをハックすることができますが、これを正式に正当化する統計的手法/アプローチを探しています。私は数年前に授業を受けましたが、統計は私の地域ではありません。これは、よく知られたアプローチが必要なもののようです。これのいずれかが完全に骨のある場合は申し訳ありません。前もって感謝します！

— JJC
ソース

関連： stats.stackexchange.com/questions/66186/...

— HalvorsenのはKjetil B

18

頻度だけでなく実際のカウントがある場合は、各データ系列に対して適合度検定を使用できます。特に、離散一様分布のテストを使用する必要があります。これにより、優れたテストが得られます。これにより、どのデータ系列が均一な分布によって生成された可能性が低いかを調べることができますが、均一性の尺度は提供されません。 $\chi^2$

各シリーズのエントロピーを計算するなど、他の可能なアプローチがあります-均一分布はエントロピーを最大化するため、エントロピーが疑わしいほど低い場合は、おそらく均一分布がないと結論付けます。それはある意味で均一性の尺度として機能します。

別の提案は、2つの分布の類似性を測定するKullback-Leibler発散のような測定を使用することです。

— マンス
ソース

返信に関していくつか質問があります。1.カイ2乗では均一性が得られないと述べるのはなぜですか。均一な分布での適合テストは、均一性の尺度ではありませんか？2.カイ2乗またはエントロピーのどちらを使用すべきかをどのようにして知ることができますか？

— kanzen_master

@kanzen_master：カイ2乗統計量は均一性の尺度として見ることができると思いますが、収束の欠如、任意に配置されたビンへの依存、セルの予想カウント数に必要ないくつかの欠点がありますただし、どの測定/テストを使用するかは好みの問題であり、エントロピーにも問題がないわけではありません（特に、分布のエントロピーの多くの異なる推定量があります）。私にとっては、エントロピーはあまりless意的ではないように思われ、解釈が容易です。

— MånsT

8

@MansTの優れたアイデアに加えて、他の手段を考え出すこともできますが、それは「不均一性」の意味に依存します。シンプルにするために、4つのレベルを見てみましょう。完全な均一性は簡単に定義できます。

25 25 25 25

しかし、次のどれがより不均一ですか？

20 20 30 30または20 20 25 35

またはそれらは等しく不均一ですか？

それらが等しく不均一であると思われる場合は、可能な最大値でスケーリングされた、正常からの偏差の絶対値の合計に基づくメジャーを使用できます。次に、1つ目は5 + 5 + 5 + 5 = 20であり、2つ目は5 + 5 + 0 + 10 = 20です。最初は25 + 25 + 25 + 25 = 100になり、2番目は25 + 25 + 0 + 100 = 150になります。

— ピーター・フロム-モニカの復職
ソース

1

「均一に分布している」を「等しい」と解釈しているようです、ピーター。それがOPの意図であるかどうかは提起する有効なポイントですが、実際には質問に対するコメントとして表示されるべきです。

— whuber

こんにちは、@ whuber質問から、それは彼が意味したことのように思えました。他に何を意味するのでしょうか？

— ピーターフロム-モニカの復職

2

"等しい" CDFがあることを意味し

のため

、

のため

"均一"とは、一方

ため

。あなたは定義する標準的な統計感が第二であるのに対し、最初の意味で「完璧な均一性を」。

F (x) = 1

$F(x) = 1$

x \geq μ

$x\ge \mu$

F (x) = 0

$F(x) = 0$

x < μ

$x\lt \mu$

F (x) = (x - α) / θ

$F(x) = (x-\alpha)/\theta$

x \in [α, α + θ]

$x \in [\alpha, \alpha+\theta]$

— whuber

@whuber、私にとって最初のことは、元のポスターが「ユニフォーム」によって意味したものに近いように思えます。もう一度見てみると、彼は「均一」を使用して「低分散」を意味していたようです。

— マクロ

それだけです、マクロ：本当に言うことはできません。質問に答えるに値する前に、明確にする必要があります。受け入れられた答えは、OPが標準的な統計的意味で「均一」を使用したことを示唆しています。

— whuber

6

ここで、単純なヒューリスティックである：あなたが任意のベクトル和の要素を仮定した場合に（又は単にこれを達成するために、合計で各要素を正規化する）、次いで、均一性の範囲L2ノルム、で表すことができる $1$ をに、はベクトルの次元です。 $\frac{1}{\sqrt d}$ $1$ $d$

下限は均一性に対応し、ホットベクトルの上限に対応します。 $\frac{1}{\sqrt d}$ $1$

これをから間のスコアにスケーリングするには、使用できます。 $0$ $1$ 、ここではL2ノルムです。 $\frac{n*\sqrt d - 1}{\sqrt d - 1}$ $n$

$1$

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

$0.0028$ $0.0051$ $0.4529$

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end

— user495285
ソース

1

L_{p}

$L_p$

@whuber私は知らないし、これに関する研究も知らない。基本的に、これは私が経験則として使用したものであり、OPが何を求めているのかに合うかもしれません。

— user495285

@whuber-これがなぜうまく機能するのか、理論的に理解してもらえますか。これを引用する必要があります。

— ケタン

@ user495285-これは、周波数だけでなく、値でも直接機能するようです。あなたの経験では、周波数でのみ使用する方が良いでしょうか、それともベクトル上で直接使用してもいいですか？

— ケタン

L_{2}

$L_2$

χ^{2}

$\chi^2$

0

最近これに遭遇し、私が理解している限り、@ user495285からの回答に追加しました。

$\mathbb{R}^n$ $L_p$ $p$ $\mathbb{R}^n$ $p$

$L_2$ $p$

\frac{n \sqrt{d} - 1}{\sqrt{d} - 1}

$\frac{n\sqrt{d} - 1}{\sqrt{d} - 1}$

n

$n$

L_{2}

$L_2$

d

$d$

幾何学的尺度の有用性は、記述された空間の各位置（次元）が同等のスケール、たとえば潜在的に等しい分布のすべてのカウントで測定されると想定される場合に適用されると思います。PCA / SVDのようなベースの変更の基礎となる同じ仮定は、おそらくここでも似ています。しかし、再び私は数学者ではないので、より多くの情報にさらされたままにしておきます。

— 動揺
ソース

便利そうですね。これをよりよく理解できるように、いくつかの参考文献を教えていただけますか？実際にこれを引用する必要があります。

— ケタン

Lpノルムをカバーする線形代数テキストを引用できます。これは、ジオメトリの非常に一般的な主題です。N次元空間の2点間の距離を計算する方法です。分野によっては引用する必要さえないかもしれません。

— lakinsm