5つの数字の要約のみが知られている2つの分布の統計的検定

5つの数値の要約（最小、1番目の四分位数、中央値、3番目の四分位数、最大）とサンプルサイズのみがわかっている2つの分布があります。ここでの質問に反して、すべてのデータポイントが利用できるわけではありません。

2つの基礎となる分布が異なるかどうかを確認できるノンパラメトリック統計テストはありますか？

ありがとう！

distributions nonparametric

— ボニファズ
ソース

回答:

分布が同じであり、両方のサンプルが共通の分布からランダムに独立して取得されるという帰無仮説の下で、1つの文字値を別の文字値と比較することで作成できるすべての $5\times 5$ （決定論的）テストのサイズを計算できます。これらのテストのいくつかは、分布の違いを検出するのに妥当な力を持っているようです。

分析

元の定義 $5$ の数字のいずれか順序付けられたバッチの-letter要約 $x_1 \le x_2 \le \cdots \le x_n$ 以下[テューキーあるEDA 1977]

任意の数 $m = (i + (i+1))/2$ in $\{(1+2)/2, (2+3)/2, \ldots, (n-1+n)/2\}$ 定義する $x_m = (x_i + x_{i+1})/2.$
ましょう。 $\bar{i} = n+1-i$
ましょう及び $m = (n+1)/2$ $h = (\lfloor m \rfloor + 1)/2.$
概要-letterがセットされその要素として知られている最小、下部ヒンジ、中央値、上側ヒンジ、及び、最大値をそれぞれ。 $5$ $\{X^{-} = x_1, H^{-}=x_h, M=x_m, H^{+}=x_\bar{h}, X^{+}=x_n\}.$

例えば、データのバッチで我々は計算することができる、、及び、whence $(-3, 1, 1, 2, 3, 5, 5, 5, 7, 13, 21)$ $n=12$ $m=13/2$ $h=7/2$

\begin{aligned} X^{-} & = - 3, \\ H^{-} & = x_{7 / 2} = (x_{3} + x_{4}) / 2 = (1 + 2) / 2 = 3 / 2, \\ M & = x_{13 / 2} = (x_{6} + x_{7}) / 2 = (5 + 5) / 2 = 5, \\ H^{+} & = x_{\bar{7 / 2}} = x_{19 / 2} = (x_{9} + x_{1} 0) / 2 = (5 + 7) / 2 = 6, \\ X^{+} & = x_{12} = 21. \end{aligned}

$\eqalign{ &X^{-} &= -3, \\ &H^{-} &= x_{7/2} = (x_3+x_4)/2 = (1+2)/2 = 3/2, \\ &M &= x_{13/2} = (x_6+x_7)/2 = (5+5)/2 = 5, \\ &H^{+} &= x_\overline{7/2} = x_{19/2} = (x_9+x_10)/2 = (5+7)/2 = 6, \\ &X^{+} &= x_{12} = 21. }$

ヒンジは四分位に近い（しかし通常は正確に同じではない）。四分位数を使用する場合、一般に、2つの順序統計量の加重算術平均であり、間隔かにあり、はおよび使用するアルゴリズムから決定できます。四分位数を計算します。場合、一般的に、間隔である私は緩く書き込むいくつかのそのような加重平均を参照する及び $[x_i, x_{i+1}]$ $i$ $n$ $q$ $[i, i+1]$ $x_q$ $x_i$ 。 $x_{i+1}$

二つのデータのバッチと及び二つの別々の5文字の要約があります。文字 1つと文字 1つを比較することにより、両方が共通分布 iid ランダムサンプルであるという帰無仮説をテストできます。たとえば、上部ヒンジを比較します $(x_i, i=1,\ldots, n)$ $(y_j, j=1,\ldots,m),$ $F$ $x$ $x_q$ $y$ $y_r$ $x$ がより大幅に小さいかどうかを確認するために、の下側のヒンジに移動します。これは明確な疑問につながります。このチャンスを計算する方法、 $y$ $x$ $y$

{Pr}_{F} (x_{q} < y_{r}) .

${\Pr}_F(x_q \lt y_r).$

分数およびこれはを知らないと不可能です。ただし、および場合、fortiori $q$ $r$ $F$ $x_q \le x_{\lceil q \rceil}$ $y_{\lfloor r \rfloor} \le y_r,$

{Pr}_{F} (x_{q} < y_{r}) \leq {Pr}_{F} (x_{⌈ q ⌉} < y_{⌊ r ⌋}) .

${\Pr}_F(x_q \lt y_r) \le {\Pr}_F(x_{\lceil q \rceil} \lt y_{\lfloor r \rfloor}).$

これにより、個々の順序統計を比較する右手確率を計算することにより、望ましい確率の普遍的な（依存しない）上限を取得できます。 私たちの前にある一般的な質問は $F$

可能性は何ですかの最も高い値未満であろうの最も高い共通の分布からIID引かれた値は？ $q^\text{th}$ $n$ $r^\text{th}$ $m$

確率が個々の値に過度に集中している可能性を排除しない限り、これでさえ普遍的な答えはありません。つまり、つながりは不可能だと仮定する必要があります。 これは、が連続分布でなければならないことを意味します。これは仮定ですが、弱く、ノンパラメトリックです。 $F$

解決

確率を使用してすべての値を再表現すると、新しいバッチが取得されるため、分布は計算に関与しません。 $F$ $F$

X^{(F)} = F (x_{1}) \leq F (x_{2}) \leq \dots \leq F (x_{n})

$X^{(F)} = F(x_1) \le F(x_2) \le \cdots \le F(x_n)$

そして

Y^{(F)} = F (y_{1}) \leq F (y_{2}) \leq \dots \leq F (y_{m}) .

$Y^{(F)} = F(y_1) \le F(y_2) \le \cdots \le F(y_m).$

さらに、この再表現は単調で増加しています。順序を保持し、その結果、イベントは連続であるため、これらの新しいバッチは均一分布から引き出されます。この分布の下で、そして今では不必要な " "を表記から削除すると、がベータ =ベータ分布を持つことが簡単にわかります。 $x_q \lt y_r.$ $F$ $[0,1]$ $F$ $x_q$ $(q, n+1-q)$ $(q, \bar{q})$

Pr (x_{q} \leq x) = \frac{n!}{(n - q)! (q - 1)!} \int_{0}^{x} t^{q - 1} (1 - t)^{n - q} d t .

$\Pr(x_q\le x) = \frac{n!}{(n-q)!(q-1)!}\int_0^x t^{q-1}(1-t)^{n-q}dt.$

同様に、の分布はBetaです。領域二重積分を実行することにより、望ましい確率を取得できます。 $y_r$ $(r, m+1-r)$ $x_q \lt y_r$

Pr (x_{q} < y_{r}) = \frac{Γ (m + 1) Γ (n + 1) Γ (q + r)_{3} {\tilde{F}}_{2} (q, q - n, q + r; q + 1, m + q + 1; 1)}{Γ (r) Γ (n - q + 1)}

$\Pr(x_q \lt y_r) = \frac{\Gamma (m+1) \Gamma (n+1) \Gamma (q+r)\, _3\tilde{F}_2(q,q-n,q+r;\ q+1,m+q+1;\ 1)}{\Gamma (r) \Gamma (n-q+1)}$

すべての値は整数であるため、すべての値は実際には単なる階乗です：積分。あまり知られていない関数は、正則化された超幾何関数です。この場合、いくつかの階乗によって正規化された長さ単純な交互合計として計算できます。 $n, m, q, r$ $\Gamma$ $\Gamma(k) = (k-1)! = (k-1)(k-2)\cdots(2)(1)$ $k\ge 0.$ $_3\tilde{F}_2$ $n-q+1$

Γ (q + 1) Γ (m + q + 1)_{3} {\tilde{F}}_{2} (q, q - n, q + r; q + 1, m + q + 1; 1) = \sum_{i = 0}^{n - q} (- 1)^{i} (\binom{n - q}{i}) \frac{q (q + r) \dots (q + r + i - 1)}{(q + i) (1 + m + q) (2 + m + q) \dots (i + m + q)} = 1 - \frac{(\binom{n - q}{1}) q (q + r)}{(1 + q) (1 + m + q)} + \frac{(\binom{n - q}{2}) q (q + r) (1 + q + r)}{(2 + q) (1 + m + q) (2 + m + q)} - \dots .

$\Gamma(q+1)\Gamma(m+q+1)\ {_3\tilde{F}_2}(q,q-n,q+r;\ q+1,m+q+1;\ 1) \\ =\sum_{i=0}^{n-q}(-1)^i \binom{n-q}{i} \frac{q(q+r)\cdots(q+r+i-1)}{(q+i)(1+m+q)(2+m+q)\cdots(i+m+q)} \\ = 1 - \frac{\binom{n-q}{1}q(q+r)}{(1+q)(1+m+q)} + \frac{\binom{n-q}{2}q(q+r)(1+q+r)}{(2+q)(1+m+q)(2+m+q)} - \cdots.$

これにより、確率の計算は、加算、減算、乗算、および除算よりも複雑になることはありません。計算の労力はとしてスケーリングし対称性を活用することにより $O((n-q)^2).$

Pr (x_{q} < y_{r}) = 1 - Pr (y_{r} < x_{q})

$\Pr(x_q \lt y_r) = 1 - \Pr(y_r \lt x_q)$

新しい計算はとしてスケーリングされるため、必要に応じて2つの合計のうち簡単なものを選択できます。ただし、文字の要約はを超えることはめったにない小さなバッチにのみ使用される傾向があるため、これはほとんど必要ありません $O((m-r)^2),$ $5$ $n, m \approx 300.$

応用

2つのバッチのサイズがおよびます。関連する順序統計量とであり及びそれぞれ。ここでは可能性のあるテーブルと列とインデックス列のインデックスを作成するには： $n=8$ $m=12$ $x$ $y$ $1,3,5,7,8$ $1,3,6,9,12,$ $x_q \lt y_r$ $q$ $r$

q\r 1       3       6       9       12
1   0.4      0.807  0.9762  0.9987  1.
3   0.0491  0.2962  0.7404  0.9601  0.9993
5   0.0036  0.0521  0.325   0.7492  0.9856
7   0.0001  0.0032  0.0542  0.3065  0.8526
8   0.      0.0004  0.0102  0.1022  0.6

標準正規分布からの10,000個のiidサンプルペアのシミュレーションでは、これらに近い結果が得られました。

などのサイズで片側検定を作成し、バッチがバッチよりも大幅に小さいかどうかを判断するには、この表で近い値またはそのすぐ下の値を探します。良い選択肢は、であるチャンスはでの可能性が、及びでの確率でどちらを使用するかは、対立仮説に関するあなたの考えに依存します。たとえば、テストでは、の下側のヒンジを最小値と比較します $\alpha,$ $\alpha = 5\%,$ $x$ $y$ $\alpha$ $(q,r)=(3,1),$ $0.0491,$ $(5,3)$ $0.0521$ $(7,6)$ $0.0542.$ $(3,1)$ $x$ $y$ あり、その下側のヒンジが小さいヒンジである場合に大きな違いを見つけます。このテストは、極値に敏感です。範囲外のデータについて何らかの懸念がある場合、これは選択するリスクの高いテストになる可能性があります。一方、テストは、の上部ヒンジをの中央値と比較します。これは、バッチの外れ値に対して非常に堅牢であり、外れ値適度に堅牢です。ただし、中間値と中間値を比較します。これはおそらく良い比較ですが、どちらのテールでも発生する分布の違いは検出しません。 $y$ $(7,6)$ $x$ $y$ $y$ $x$ $x$ $y$

これらの重要な値を分析的に計算できることは、テストの選択に役立ちます。1つ（または複数）のテストが特定されたら、変更を検出するテストの能力は、おそらくシミュレーションによって最もよく評価されます。電力は、分布の違いに大きく依存します。これらのテストにパワーがあるかどうかをするために、正規分布から描画したしてテストを実行しました。つまり、その中央値を1標準偏差だけシフトしました。シミュレーションでは、テストはかなりの時間でした。これは、これほど小さいデータセットにはかなりの力です。 $(5,3)$ $y_j$ $(1,1)$ $54.4\%$

もっと言えますが、それはすべて、両面テストの実施、効果の大きさの評価方法などに関する日常的なことです。主要なポイントが実証されています：2バッチのデータの文字の要約（およびサイズ）を考えると、合理的に強力なノンパラメトリックテストを構築して、基礎となる母集団の違いを検出 $5$ できます。選択するテストの選択肢。ここで開発された理論は、サンプルから適切に選択された順序統計（文字の要約を近似するものだけでなく）を使用して2つの母集団を比較するためのより広範なアプリケーションを持っています。

これらの結果には他の有用な用途があります。 たとえば、箱ひげ図は文字の要約をグラフィカルに表現したものです。したがって、箱ひげ図で示されるサンプルサイズの知識とともに、これらのプロットで視覚的に明らかな違いの重要性を評価するために、いくつかの簡単なテストを利用できます（ある箱とひげの部分を別のものと比較することに基づいています）。 $5$

— ウーバー
ソース

私はすでに文献にあるものはないだろうとかなり確信していますが、ノンパラメトリックなテストを求める場合、基礎となる変数の連続性の仮定の下にある必要があります-あなたはECDFのようなものを見ることができます-type統計-Kolmogorov-Smirnov-type統計に相当するもの、またはAnderson-Darling統計に似たものを言う（もちろん、この場合、統計の分布は大きく異なります）。

小さなサンプルの分布は、5つの数値の要約で使用される分位の正確な定義に依存します。

たとえば、デフォルトの四分位数とRの極値（n = 10）を考えます。

> summary(x)[-4]
    Min.  1st Qu.   Median  3rd Qu.     Max. 
-2.33500 -0.26450  0.07787  0.33740  0.94770

5つの数字の要約について、コマンドによって生成されたものと比較します。

> fivenum(x)
[1] -2.33458172 -0.34739104  0.07786866  0.38008143  0.94774213

上下の四分位数は、fivenumコマンド内の対応するヒンジとは異なることに注意してください。

対照的に、n = 9の場合、2つの結果は同一です（すべてが観測で発生する場合）

（Rには、変位値の9つの異なる定義が付属しています。）

観測で発生する3つすべての四分位数のケース（n = 4k + 1の場合、おそらくそれらのいくつかの定義の下でより多くのケースの下で）は、実際には代数的に実行可能であり、ノンパラメトリックでなければなりませんが、一般的なケース（多くの定義にわたって）それほど実行可能ではなく、ノンパラメトリックではないかもしれません（少なくとも1つのサンプルで変位値を生成するために観測値を平均化する場合を検討してください...その場合、サンプル変位値の異なる配置の確率は、もはや影響を受けない可能性がありますデータの分布）。

固定の定義が選択されると、シミュレーションが進行する方法のように思われます。

の可能な値のサブセットではノンパラメトリックであるため、他の値の分布がもはや自由ではないという事実はそれほど大きな懸念ではないかもしれません。少なくともが小さすぎない場合、中間のサンプルサイズでほぼ無分布と言えます。 $n$ $n$

無料で配布する必要があるいくつかのケースを見て、いくつかの小さなサンプルサイズを考えてみましょう。5つの数値のサマリー値が個別の注文統計値になるサンプルサイズの場合、5つの数値のサマリー自体に直接適用されるKSタイプの統計情報を考えてください。

これは、たとえば、KSに比べてテールのジャンプが大きすぎるため、実際にはKSテストを正確に「エミュレート」しないことに注意してください。一方、要約値でのジャンプは、それらの間のすべての値に対して行われるべきであると断言することは容易ではありません。重み/ジャンプの異なるセットには、異なるタイプIエラー特性と異なる電力特性がありますが、何を選択するのが最善かはわかりません（等しい値とわずかに異なる値を選択すると、より重要なレベルのセットを取得できる場合があります）。私の目的は、特定の手順を推奨することではなく、一般的なアプローチが実行可能であることを示すことです。要約の各値に対する任意の重みのセットは、データを参照して取得されない限り、ノンパラメトリック検定を実行します。

とにかく、ここに行きます：

シミュレーションを介してヌル分布/クリティカル値を見つける

2つのサンプルのn = 5および5では、特別なことをする必要はありません。これは、ストレートKSテストです。

n = 9および9では、均一なシミュレーションを実行できます。

 ks9.9 <- replicate(10000,ks.test(fivenum(runif(9)),fivenum(runif(9)))$statistic)
 plot(table(ks9.9)/10000,type="h"); abline(h=0,col=8)

ここに画像の説明を入力してください

  # Here's the empirical cdf:
 cumsum(table(ks9.9)/10000)
   0.2    0.4    0.6    0.8 
0.3730 0.9092 0.9966 1.0000

したがって、、おおよそ（）、おおよそ（）になります。（素敵なアルファステップを期待しないでくださいが適度に大きい場合、選択肢は非常に大きいか、または非常に小さいことしか期待できません）。 $n_1 = n_2=9$ $\alpha=0.1$ $D_{crit}=0.6$ $\alpha=0.005$ $D_{crit}=0.8$ $n$ $\alpha$

$n_1 = 9, n_2=13$ 有意水準は5％に近い（） $D=0.6$

$n_1 = n_2=13$ 有意水準は2.5％に近い（） $D=0.6$

これらに近いサンプルサイズでは、このアプローチは実行可能ですが、両方のが21（および）をはるかに超えている場合、これはまったく機能しません。 $n$ $\alpha \approx 0.2$ $\alpha\approx 0.001$

非常に高速な「検査による」テスト

調べたケースでは、拒否ルールが頻繁に発生します。どのようなサンプル配置がそれをもたらしますか？次の2つのケースがあると思います。 $D\geq 0.6$

（i）1つのサンプル全体が他のグループの中央値の片側にある場合。

（ii）ボックス（四分位数でカバーされる範囲）が重ならない場合。

そのため、非常にシンプルでノンパラメトリックな拒否ルールがありますが、通常、サンプルサイズが9〜13を超えない限り、「良い」有意水準にはなりません。

可能なレベルのより細かいセットを取得する $\alpha$

とにかく、同様の場合のテーブルの作成は比較的簡単です。中規模から大規模なでは、このテストは可能な限り小さなレベル（または非常に大きい）のみを持ち、違いが明らかな場合を除いて実用的ではありません）。 $n$ $\alpha$

興味深いことに、達成可能なレベルを上げるための1つのアプローチは、Golomb-rulerに従って「5つの」cdfにジャンプを設定することです。たとえば、cdf値がおよび場合、cdf-valuesのペアの差は他のペアとは異なります。それが電力に大きな影響を与えるかどうかは一見の価値があるかもしれません（私の推測では、おそらくあまりないでしょう）。 $\alpha$ $0,\frac{1}{11},\frac{4}{11},\frac{9}{11}$ $1$

これらのKSのようなテストと比較して、アンダーソンダーリングのようなものがより強力になると期待していますが、問題はこの5つの数字の要約ケースの重み付け方法です。それに取り組むことができると思いますが、どれだけの価値があるのかわかりません。

力

差異を検出する方法を見てみましょう。これは通常のデータの検出力曲線であり、効果delは、2番目のサンプルが上にシフトされる標準偏差の数です。 $n_1=9,n_2=13$

ここに画像の説明を入力してください

これはかなり妥当な電力曲線のようです。そのため、少なくともこれらの小さなサンプルサイズでは問題なく動作するようです。

ノンパラメトリックではなく、堅牢性はどうですか？

ノンパラメトリック検定はそれほど重要ではないが、ロバスト検定は大丈夫な場合は、代わりに、要約の3つの四分位値のより直接的な比較（IQRに基づく中央値の間隔やサンプルサイズなど）を見ることができます。（正規分布など、堅牢性が望まれる周囲の名目上の分布に基づいています。これは、たとえば、ノッチ付きボックスプロットの背後にある理由です）。これは、適切な有意水準の欠如に苦しむノンパラメトリック検定よりも、大きなサンプルサイズではるかにうまく機能する傾向があります。

— Glen_b -Reinstate Monica
ソース

非常に素晴らしい！要約統計が与えられたら、KS検定で可能な最大または最小のD統計を実際に計算できるかどうかはわからないでしょう。たとえば、要約統計に基づいてCDFを描画すると、各サンプルCDFのPボックスウィンドウが表示されます。これらの2つのpボックスウィンドウに基づいて、可能な最大または最小のD統計を計算し、通常の表で検定統計を検索できます。

— アンディW 14

少なくともいくつかの仮定がなければ、そのようなテストがどのように行われるかはわかりません。

同じ5番号の要約を持つ2つの異なるディストリビューションを使用できます。

これは些細な例で、2つの数字だけを変更しますが、明らかにもっと多くの数字を変更できます

set.seed(123)

#Create data
x <- rnorm(1000)

#Modify it without changing 5 number summary
x2 <- sort(x)
x2[100] <- x[100] - 1
x2[900] <- x[900] + 1

fivenum(x)
fivenum(x2)

— ピーター・フロム-モニカの復職
ソース

この例は、そのような手順の能力の制限を示しているだけですが、それ以外の点ではあまり光を当てていないようです。

— whuber

いくつかの仮定がなければ、そのようなテストの力は計り知れないものになると思います。そのようなテストはどのように見えるでしょうか？

— ピーターフロム-モニカを復活

ノンパラメトリックテストであっても、電力の計算には常に仮定が必要です。テスト自体を実行するために必要な以上の仮定なしに、コルモゴロフ-スミルノフのパワーカーブを見つけてみてください。

— -Glen_b-モニカーを復活14

検討できるテストの数には限りがあります。1つのサマリーの値を別のサマリーの値と比較します。それらの1つは、（たとえば）1つのデータセットの上部ヒンジと別のデータセットの下部ヒンジの比較です。サンプルサイズが十分に大きい場合、これはある母集団が別の母集団と比較して有意な差があることを示します。これは、独立確率変数およびに対する結合確率に関連しています。有意水準をあまり制御することはできませんが、これらのテストは多数の選択肢に対してかなり強力です。

X > Y

$X\gt Y$

X

$X$

Y

$Y$

— whuber

@whuber測定の誤差や精度の測定なしで？または、サンプルサイズで提供されますか？この方法では、変位値、さらには最大値と最小値を扱うのは困難です。

— ピーターフロム-モニカの復職