複数のリッカートアイテムの中央値の違いをテストする方法は?


8

アンケート調査では、雪、滑りやすさなどのさまざまな冬の気候要因が、歩行や自転車の動作の選択にどのように影響するかについて、回答者に態度を示すように依頼しました。500人の個人と回答で構成されるサンプルは、非常に否定的から非常に肯定的(通常の尺度)までの5段階の評価形式でした。

さまざまな質問に対する回答を比較したい場合、データは序数であるため、中央値は適切なツールだと思います。比較するということは、差の確率が有意であるかどうかを示すためのさまざまな統計的検定があることを知っています(t検定または非パラメトリック検定など)。しかし、ここで説明した種類のデータに対してこれらのテストを使用できるかどうか、少し混乱しています。

  • 中央値の比較に使用する検定統計量はありますか?
  • または、適切であれば、データを間隔スケールに転送する必要がありますか?

回答:


4

平均値は、リッカートアイテムの中心傾向の中央値よりもはるかに有用な指標であることがわかりました。リッカートアイテムの平均値と中央値のどちらを使用するかについて質問するときの質問について、ここで詳しく説明しました

これらの理由のいくつかの要約:

  • 平均はより有益です。中央値はリッカートアイテムには粗すぎます。たとえば、中央値は(つまり、3)1 1 3 3 3と同じです3 3 3 5 5が、平均は違いを反映しています。
  • リッカートアイテムは、カテゴリ間の仮定が等しい距離であるという前提が有用な出発点となるような方法で表現されることがよくあります。
  • 個々の応答が離散的である場合でも、グループレベルの測定は連続性に近づきます(500人と5ポイントのスケールでは、平均の値は500 * 4 + 1 = 2001異なる値を取る可能性があります)。
  • 「はい」と「いいえ」のタイプの質問(投票など)では、パーセンテージが有用な要約であるという議論はほとんどありません。これは、応答がコーディングされているという意味0 and 1です。5ポイントのようにrtrtスケールを扱うことは、1 2 3 4 5私にとってほぼ同じように思えます。
  • リッカートアイテムの他のもっともらしいスケーリングでは、平均値の差が存在するかどうかに関する推論は実質的に変更されません(ただし、これは確認できます)。

平均値が中心傾向の適切な測定値であると納得している場合は、平均値の差を検定するように仮説検定を構成する必要があります。対応のあるサンプルのt検定では、平均のペアごとの比較が可能になりますが、離散および非正規のエラー分布が与えられた場合のp値の精度に問題があります。それでも、ノンパラメトリックアプローチを採用することは、仮説を変えるため、解決策ではありません。

対応のあるサンプルのt検定は、少なくとも典型的なリッカートアイテムの場合はかなりロバストであり、どちらの極端なスケールも回避することを期待しますが、シミュレーションの研究はありません。


2

一般的に、平均はリッカート尺度の妥当な統計であるというジェロミーの主張に同意します。中央値について言えば、中央値は外れ値から保護するため、位置のより堅牢な測定値です(50%の可能な最大のブレークダウンポイントがあります)。ただし、リッカートスケールは有界スケールであるため、極端な外れ値の可能性は非常に低くなります(データが非常に歪んでいる場合のみ)。さらに、中央値は通常、データからトリミングしすぎるため、代わりにトリミングされた平均の使用を検討できます。通常は20%トリミングすることをお勧めします[1]。

中央値の差の対応のある検定を計算する場合は、パーセンタイルブートストラップ法を使用して平均を比較することをお勧めします(これは、同値の場合にうまく機能する中央値を比較する唯一の方法です。Wilcox、2005を参照してください。 1])。

R のWRSパッケージには、trimpb22つの独立したサンプルに対してこの計算を行うと呼ばれる関数があります(その関数を使用して、トリミング平均のp値を計算することもできます)。ただし、あなたのケースでは、従属グループを比較する必要があります。この場合、バイアス調整されたパーセンタイルブートストラップ法[2]を実行することもできます。

ただし、周辺分布の中央値の差は、差スコアの中央値を見るのと同じではないことに注意してください。最初の質問は、「最初のグループからの一般的な応答は2番目のグループとどのように異なるか」という質問に答え、WRS機能によって実行されますrmmcppb。2つ目は、「一般的な差異スコアとは」という質問に答え、WRS関数によって実行されますrmmcppbd

[1] ウィルコックス、RR(2005)。ロバスト推定と仮説検定の紹介。サンディエゴ:アカデミックプレス。

[2] Wilcox、RR(2006)。中央値に基づく従属グループのペアワイズ比較。計算統計とデータ分析、50、2933-2941。doi:10.1016 / j.csda.2005.04.017


0

中央値を比較する1つのオプションは、順列検定です。ただし、同じ人のセット(ペアのデータ)によって記入された2つの質問の回答を比較する場合は、マクネマーのテストとそのバリエーションも確認することをお勧めします。

少し補足すると、McNemar検定(およびその拡張)の考え方は、組み合わせを選択した回答者の数のカウントを含む行列を調べることです。そのため、個人は、列が以下によって決定されるセルのカウントに寄与します。質問1と行への回答は、質問2への回答によって決まります(テーブルまたはクロステーブルコマンドがマトリックスを作成します)。このマトリックスのパターンは、おそらく単純な平均値や中央値よりも有益です。対角線は2つの質問に同じように回答した人を表し、上三角は2番目の質問よりも1番目の質問の方が高く回答した人、下三角は差を表しています。対角線からの距離は、2つの回答の違いを示しています。マクネマー検定のバリエーションでは、2つの三角形の数が異なるかどうかを調べます。または、行列が対称である場合。データの序数(対名義)の性質を考慮するために、対角線からの距離が考慮されます。

表のパターンを確認するだけで十分な場合もありますが、正式なテストが必要な場合は、推奨されるテストを実行するか、何らかの形式の置換テストを実行できます(正確には、探しているものによって異なります)または表示しようとしています)。


3
マクネマーの検定は名目データ用です。序数データの場合、ここにあるように、人々はウィルコクソンの符号付き順位検定または符号検定を選択することがよくあります(ただし、後者の検出力は低くなる傾向があります)。
whuber

Saeedの質問の問題は、独立した分布ではなく、関連する分布の中央値を比較する必要があることです。対応のあるサンプルのt検定、その分子-ケースごとの差の平均-が2つの平均の差と同じ値であるため、平均を比較します。ただし、中央値の場合、ケースごとの差の中央値は、2つの中央値の差と同じ値ではありません。したがって、「ペアのサンプルの中央値のテスト」と正確に呼ぶことができるテストは存在しません。
ttnphns 2011
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.