私が実行している実験の分布の不均一性を測定するためのメトリックを考えています。ほとんどの場合、均一に分布するランダム変数があり、変数が一定のマージン内で均一に分布していないデータセットの例を識別(および場合によってはその程度を測定)できるようにしたいと思います。
私が測定している何かの発生頻度を表す10の測定値を持つ3つのデータシリーズの例は、次のようなものです。
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
cのような分布をaやbのような分布と区別し、均一な分布からのcの偏差を測定できるようにしたいと思います。同様に、分布がどの程度均一であるか(標準偏差がゼロに近い?)のメトリックがある場合は、おそらくそれを使用して分散の大きいものを区別できます。ただし、上記のcの例のように、データには1つまたは2つの外れ値しかない場合があり、そのように簡単に検出できるかどうかはわかりません。
私はソフトウェアでこれを行うために何かをハックすることができますが、これを正式に正当化する統計的手法/アプローチを探しています。私は数年前に授業を受けましたが、統計は私の地域ではありません。これは、よく知られたアプローチが必要なもののようです。これのいずれかが完全に骨のある場合は申し訳ありません。前もって感謝します!