中央値の差をテストする

2つの分布のサンプルを考えて、中央値の差のテストを探しています（中央値が異なるという証拠のためにnullを拒否します）。両方の分布について何も仮定しません。この状況の標準テストはありますか？

ムードの中央値検定は知っていますが、分布がシフトしていることを前提としています。一部の。私はこれらの情報源でこの主張を支持します： $F_2(t) = F_1(t-a)$ $a \in \mathbb{R}$

リンク1 リンク2 LINK3

hypothesis-testing statistical-significance median

— マヌエル
ソース

考えられる答えへの注意：ウィルコクソン順位和検定（マンホイットニー検定）は中央値の違いを検定しません！

— Firebug 2018

+1 @Firebugはほぼ正しいです。ランサムテストは、厳密な追加の仮定（OPの指定されたデシデラタに違反する）の下で中央値の差のみをテストします。

— Alexis

@Alexisこれは、分布が対称である場合の中央値の検定であり、その場合は平均の検定でもあります。

— AdamO

両方の分布が同じ形状（対称またはず）を有する場合、@AdamOそれは中央値のテストであるとの両方の分布は、同じ分散を有するときに...それは単に位置ずれの試験である場合です。（そして、はい、それは偶然にも平均差のテストになります。）

— Alexis

@アレクシス、うさぎの穴に。Rのドキュメントでそれを読んだことを思い出したので、それを投稿することを考えました

— Firebug

回答:

順列検定を検討できます。

median.test <- function(x,y, NREPS=1e4) {
  z <- c(x,y)
  i <- rep.int(0:1, c(length(x), length(y)))
  v <- diff(tapply(z,i,median))
  v.rep <- replicate(NREPS, {
    diff(tapply(z,sample(i),median))
  })
  v.rep <- c(v, v.rep)
  pmin(mean(v < v.rep), mean(v>v.rep))*2
}

set.seed(123)
n1 <- 100
n2 <- 200
## the two samples
x <- rnorm(n1, mean=1)
y <- rexp(n2, rate=1)
median.test(x,y)

両面p値0.1112を示します。これは、分布傾向にアピールしない場合の中央値テストの非効率性を証明するものです。

MLEを使用した場合は、正規分布の中央値が中央値であるため、正規分布の中央値の95％CIを平均から取得できます。つまり、1.00から1.18です。指数の中央値の95％CIはとしてフレーム化できます。これは、デルタ法では0.63〜0.80です。したがって、Wald検定は0.05レベルで統計的に有意ですが、中央値検定はそうではありません。 $\log(2)/\bar{X}$

— アダモ
ソース

警告：「サンプルの中央値の違いに基づいてテストを行う場合、状況はさらに悪化します。つまり、サンプルサイズに関係なく、置換テストの漸近的棄却確率は非常に厳しい条件下でαになるため、本質的には基礎となる分布が同じ場合。」projecteuclid.org/euclid.aos/1366138199から。これらの著者によると、より良い解決策は、テスト統計のスタッズ付きバージョンを使用することです。

— ジュリアンカール

結果が序数または間隔値であると仮定すると、mediank = 2でノンパラメトリック検定を使用できます。以下は、スタタによる実装の説明です。

中央値検定では、2つ以上のサンプルが同じ中央値を持つ母集団からのものである可能性が高いかどうかを調べます。帰無仮説は、サンプルが同じ中央値を持つ母集団から抽出されたというものです。対立仮説は、少なくとも1つのサンプルが異なる中央値を持つ母集団から抽出されたというものです。このテストは、順序データまたは間隔データでのみ使用する必要があります。比較するk個の独立したサンプルのスコア値があると仮定します。中央値検定は、サンプルグループに関係なく、すべての観測値の組み合わせの中央値を最初に計算することによって実行されます。各スコアはこの計算された大中央値と比較され、大中央値より上、大中央値より下、または大中央値に等しいとして分類されます。総中央値に等しいスコアの観測は削除でき、「上記」グループに追加されます。「下」グループに追加するか、2つのグループ間で分割します。すべての観測値が分類されると、データは2xk分割表にキャストされ、ピアソンのカイ2乗検定またはフィッシャーの正確確率検定が実行されます。

— Dimitriy V. Masterov
ソース

これは気分の中央値テストです。分布がシフトしているとは想定していませんか？

— マヌエル

@マヌエル私はムードの中央値テストに精通していませんが、私が提案したものと非常によく似ています。ただし、シフトの仮定は、私がリンクしたヘルプファイルの他の部分には表示されません。また、ここでどこが必要であるかは不明です。私は何かが足りない可能性がありますが、おそらくそれが必要であると信じる理由を追加できますか？

— Dimitriy V. Masterov

私は質問にいくつかのリンクを追加しました。彼らはシフトされた配布が必要であると言っています。

— マヌエル