ウィルコクソンの代わりにランクとz変換?


8

Andrew Gelmanは彼のブログの最近の投稿で、ランクを使用し、ランクをZスコアに変換してから、ノンパラメトリックテストを実行する代わりに、パラメトリックテストとツールを使用することを提案しています。今まで聞いたことがありません。

Googleでの検索により、パッケージGenABELのこのR関数が示されました。これは、データベクトルのランク+ z変換を実行しているようですが、代わりに変換されたデータでパラメトリックテストを使用するアイデアを評価または議論する論文を見つけることができませんでした。ウィルコクソンテストの。

誰かがこの方法に関するいくつかの文献を私に指摘できますか?


2
これはパラメトリックテストではありません。ランクベースの統計のnull分布の漸近近似を使用しました。
dsaxton 2015

1
@dsaxton多くの場合、これはノンパラメトリックテスト(またはむしろ、1の近似)です。ランクを固定の(サンプルサイズが与えられた)スコアのセットで置き換えても、nullの下の元の分布形状への依存の欠如は変わりません。
Glen_b-モニカを復活させる2017

回答:


10

(本棚からプルーコノバー[1] ...)

このアイデアはかなり古いです。それは少なくともvan der Waerden(1952/1953)[2] [3] にさかのぼります。彼はクラスカルウォリスに対応するテストを提案しましたが、ランクは通常のスコアに置き換えられました。(期待値や中央値の近似値ではなく、順序付けられたランダムな正規値を使用するという考えは、おそらく少し古いものです。)

Conoverによると、Fisher and Yates(1957)[4]は、正規性が仮定されるさまざまなテストで、観測を期待される通常のスコア(つまり、変換されたランク)で置き換えることを提案しています。

法線での漸近相対効率は1になるため、非常に魅力的に聞こえます...しかし、言うまでもなく、Wilcoxon-Mann-Whitney(パワーの増加)は、法線でさえ、非常に小さく、分布が通常よりも裾が重い場合(ロジスティックなど)、これを行うことは不利になる場合があります。(一部のシミュレーションは、それが実際に当てはまることを示唆しています:分布が既に正規に近い場合を除いて-その場合、変換を行う利点はありません-そのような変換は実際には力を失う可能性があります。)

Chernoff&Lehmann [5]は、さまざまな分布の漸近力を計算します。少なくとも1つの非常に短いテール(ユニフォームなど)がある場合、通常のスコアテストは、ウィルコクソンマンホイットニーに対するシフト代替案のAREがはるかに高くなる可能性があります(t検定自体よりも優れています)。彼らの結果は、より重い裾のケースのシミュレーションと一致します。

2つのサンプルの場合、平均の分離が大きくなるので、結合されたサンプルはかなり正常に見えますが、2つのサンプルはまったく正常ではないことに注意してください。

ここに画像の説明を入力してください

その結果、通常のテストのすべてのプロパティが通常のスコアテストに引き継がれるわけではなく、より大きな分離(小さいサンプルの場合)での動作は直観に反する場合があります。

このアイデアによって得られたテストは、まとめて通常スコアテストと呼ばれることがあります。

たとえば、ここでは、Richard DarlingtonがWilcoxonの符号付き順位検定でそれを行うことについて説明しています。テスト統計の同値の数が減るため、プレーンランクテストよりも優れていると彼は指摘します。

最終的にページを書く前に、さらに検索してもらいます。

Conoverは他の参考文献をいくつかリストしており、かなりの議論があるので、私はそれを読むことをお勧めします。

しかし、ゲルマンのポイントは利便性にあるようです-状況が変わるたびに新しいテストを開発する必要はありません。ただし、利便性が主な問題である場合は、任意の統計で順列検定を使用する機能がすでにあります。[通常のスコアアプローチでは、ランク付けするための適切な方法が依然として必要であるという難しさがあります。nullで比較できないものをランク付けして、正しい種類の動作を期待することはできません。同様にnullの下での交換可能性が必要なため、順列テストにも同様の問題があります。]

R関数について言及しましたが、すでにRに付属している関数を使用するだけで、Rでランク付けして通常のスコアに簡単に変換できます。

たとえばsleep、R のデータを使用して、次のようにt検定を行います。

 t.test(extra ~ group, data = sleep)  # Welch
 t.test(extra ~ group, data = sleep, var.equal=TRUE)  # equal-variance
 t.test(qqnorm(extra,plot=FALSE)$x ~ group, data = sleep)  # normal scores

[1] Conover、WJ(1980)、
Practical Nonparameteric Statistics、2e。
ワイリー。316〜327ページ。

(上記のWikipediaリンクから、3e(1999)のように見えます。議論はp396から始まります)

[2] van der Waerden、BL(1952)、
「2標本問題とその力の順序テスト」、
Koninklijke Nederlandse Akademie van Wetenschappenのプロシーディングス、セリエA 55Indagationes Mathematicae 14)、453–458

[3] van der Waerden、BL(1953)、
「2標本問題の順序テスト。II、III」、
Koninklijke Nederlandse Akademie van Wetenschappenのプロシーディングス、セリエA 56Indagationes Mathematicae15)、303–310& 311〜316。

(そのボリュームのp 80の1952年の論文に対する修正もあります)

[4]フィッシャーRAおよびイェーツF.(1957)
生物学的、農業および医学的研究の統計表、5e、オリバー&ボイド、エディンバラ。

[5]ホッジス、JL。Lehmann、EL(1961)、
"Comparison of the Normal Scores and Wilcoxon Tests"、
Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability、Volume 1:Contributions to the Theory of Statistics、307--317、
University of California Press、カリフォルニア州バークレー
http://projecteuclid.org/euclid.bsmsp/1200512171


グレン、これは興味深いトピック(私はもっと知りたい)であり、あなたの良い答えです。しかし、リンクだけでなく、肉(談話/結論)を追加するようにお願いできますか?そして、おそらく、このサイトで同様のQ / Aへのリンクを収集しますか?ありがとうございました。
ttnphns 2015

素晴らしいトピックです。平均値の差の検定のために、ノンパラメトリックアプローチとノーマルスコアアプローチ(パラメトリック検定を使用)の比較が公開されていますか?私の同僚と私は相関のテストのためにいくつか持っていますが、それは私が知っているすべてです。相関関係のコンテキストでは、通常のスコアはランク検定(スピアマン相関)または非変換パラメトリック検定(ピアソン)よりもわずかに優れています。他の状況でも同様の結果が発生するかどうか知りたいです。
アンソニー

1
@Antony。グレンが指摘した項目[5]には、通常のスコアと漸近的効率に基づくウィルコクソンの比較が含まれています。学者はその論文への114の引用をリストアップし、それらのいくつかは他の形式の比較を提供するべきです。
Jacques Wainer、2015

1
χ2,df=1

1
コメントはすべて申し訳ありませんが、このような楽しいスレッドを我慢できません!もう1つの考え-@Glen_bの図は、Zimmerman(2011)によって「継承」と呼ばれた問題を示しています。変換後でも、個別のサンプルは元の変換されていない分布の一部のプロパティを「継承」する場合があります。redalyc.org/articulo.oa?id=16917012005
Anthony、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.