ウィルコクソンの符号付きランク検定の効果サイズ?


18

一部の著者(たとえば、Pallant、2007、p。225;以下の画像を参照)は、検定統計量を観測数の平方根で除算することにより、ウィルコクソンの符号付きランク検定の効果サイズを計算することを提案しています。

r=Znx+ny

Zは、SPSS(以下の画像を参照)およびwilcoxsign_testR によるテスト統計出力です(関連する質問:wilcoxsign_testのteststatistic vs linearstatisticも参照)。

他には、ブラベ・ピアソン()またはスピアマン(rS)相関係数(データ型に依存)。r=cov(XY)sd(X)×sd(Y)rS

それらを計算すると、2つrのsは、リモートでも同じではありません。たとえば、現在のデータの場合:

r = 0.23(r=Znx+ny

r = 0.43(ピアソン)

これらは、まったく異なるエフェクトサイズを意味します。

では、どちらを使用するのが正しいエフェクトサイズであり、2つrのs はどのように相互に関連していますか?


Pallant、J.(2007)の224ページ(下部)および225ページ。SPSSサバイバルマニュアル:

ここに画像の説明を入力してください

ここに画像の説明を入力してください


1
ああ、はい、多分それのよう見えます。
Glen_b -Reinstateモニカ

3
私はむしろそれをそのままにしておきます-ブラバイが1つの言語で信用に値するなら、彼は別の言語でそれに値する!教育のギャップを埋めることに感謝しています。
Glen_b-モニカの復職

1
はい、ネクタイを処理できるテストが必要だからです。

2
nnn=nx+ny

1
個人的には、Z / sqrt(n)が選択肢の1つであると考えました。Mann-WhitneyのWikipediaは、ペアのWilcoxonも考慮しているKirbyのpdf論文にリンクしています。私は自分で記事を読んでいません。
ttnphns

回答:


6
  • 関係がない場合は、対応する変更前の値より小さい変更後の値の割合を報告します。
  • 同点がある場合は、非結合ペアの総数のうち、前よりも小さい値の後の比率を報告するか、3つの比率(<、=、>)のすべてとおそらく2つの合計を報告することができますより意味のある。たとえば、「33%の統計への恐怖が少なく、57%に変化がなく、10%にコース後の恐怖が多く、90%は以前と同じかそれ以上でした」と言えます。

NzNz/Nz/N

ただし、別のしわがあります。全体的な効果の大きさの推定値が必要な場合、通常は、順序のみのデータでウィルコクソンの符号付きランクテストを使用します。つまり、データが学生内のシフトの大きさを確実に示すことができるが、シフトが発生したことだけを信頼できる場合です。これにより、上記で説明した改善された割合になります。


一方、値が本質的に意味があると信頼する場合(たとえば、正規性と外れ値に対するロバスト性のために符号付きランクテストのみを使用した場合)、生の平均または中央値の差、または標準化された平均差を使用できます効果の尺度として。


2
+1提案された効果測定値は簡単に理解でき、検定統計量にも関連しています。
ジョン

2

どんな種類のデータが評価されているかを知らなければ、ここで良いアドバイスをすることは非常に困難です。そして本当に、それはあなたが得ることができるすべてです。このような質問に対する効果サイズの最良の尺度というようなものはありません...たぶん今までにありません。

質問で言及されている効果サイズは、すべて標準化された効果サイズです。しかし、元の測定値の平均または中央値が問題ないことは完全に可能です。たとえば、製造プロセスが完了するまでにかかる時間を測定する場合、時間の差は完全に合理的な効果サイズである必要があります。プロセス、将来の測定、システム全体の測定、工場全体の測定の変更はすべて、時間内に行われます。平均値が必要な場合もあれば、中央値またはモードが必要な場合もありますが、最初に行う必要があるのは、実際の測定スケールを見て、効果サイズが解釈に適しており、測定値に強く関連しているかどうかを確認することです。

それについて考えるのを助けるために、標準化されるべき効果は、より間接的かつ多くの方法で測定されるものです。たとえば、心理スケールは時間とともにさまざまな方法で変化し、直接評価されていない基礎となる変数に到達しようとします。これらの場合、標準化された効果サイズが必要です。

標準化された効果サイズでは、重要な問題は使用するものだけでなく、それらが意味するものです。あなたがあなたの質問で暗示しているように、あなたはそれらが何を意味するかも知らず、それは重要なことです。標準化された効果がわからない場合、正しく報告したり、正しく解釈したり、正しく使用したりできません。さらに、データについてさまざまな方法で議論したい場合、複数の効果サイズを報告することを妨げるものは何もありません。製品モーメント相関などの線形関係、またはスピアマンとのランク間の関係の観点からデータを議論できますrそれらの違い、または表のすべての情報を提供します。それには何の問題もありません。しかし、何よりも、結果に何を意味させたいかを決める必要があります。それは与えられた情報からは答えることができないものであり、この種のフォーラムでの質問に対して合理的であるよりもはるかに多くの情報とドメイン固有の知識を必要とするかもしれません。

そして、常に効果を報告する方法についてメタ分析的に考えてください。将来、人々は私が報告している結果を取り、他の人とそれらを統合することができますか?おそらくあなたの分野にはこれらのことに対する標準があります。おそらく、基礎となる分布について他の人が下した結論を信頼しないために、主にノンパラメトリックテストを選択し、主にパラメトリックテストを使用する分野での仮定をより保守的にしたいのでしょう。その場合、パラメトリックテストで通常使用されるエフェクトサイズを追加で提供しても問題はありません。同様の研究のより大きな文献で発見をどのように位置付けるかを考えるとき、これらおよび他の多くの問題を考慮する必要があります。通常、これらの問題は適切な記述統計で解決します。

それが主なアドバイスです。追加のコメントがいくつかあります。エフェクトのサイズを、行ったテストに強く関連させたい場合Zは、明らかにベースの推奨が最適です。標準化された効果サイズは、テストと同じことを意味します。しかし、そうしないとすぐに、他のほとんどのものを使用しても何も問題はありませんd。パラメトリックテストに関連するCohenのようなものでさえも。平均、標準偏差、またはを計算するための正規性の仮定はありません。dスコア。実際、推奨される相関係数よりも弱い仮定があります。そして、常に適切な記述的手段を報告してください。繰り返しますが、記述的手段には違反するという前提はありませんが、その実質的な意味に留意してください。あなたが言いたいデータについて何かを言う記述統計と、異なることを言う手段と中央値を報告します。

繰り返される測定値と独立した設計効果サイズについて議論したい場合、それはまったく新しい質問です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.