5ポイントのリッカートアイテムのグループの違い

22

この質問に続いて：5ポイントのリッカート項目（例：人生に対する満足度：不満に満足）で、2つのグループ（例：男性と女性）の中心傾向の違いをテストしたいと想像してください。t検定はほとんどの目的に対して十分に正確であると思いますが、グループ平均間の差のブートストラップ検定は多くの場合、信頼区間のより正確な推定値を提供します。どの統計検定を使用しますか？

— ジェロミー・アングリム
ソース

2

関連する質問：この種のデータには、しばしばノンパラメトリックマンホイットニー検定を使用します。可能な値は5つしかないため、多くの同順位があります。Mann-Whitneyテストは同順位に調整しますが、同数が非常に多い場合、この調整は機能しますか？

— ハーベイモトルスキー

5

PARE、Five-Point Likert Items：t test vs Mann-Whitney-Wilcoxon、j.mp / biLWrAで公開されたこの最近の記事に興味があるかもしれません。

— chl

カイ2乗検定も適切かどうかはわかりません。グループとアイテムの間に依存関係があるかどうかをテストします（グループ間の異なる分布）。

— pe-pe-rry 14

12

Clason＆Dormodyは、リッカートアイテムの統計的検定の問題について議論しました（個々のリッカートタイプのアイテムによって測定されたデータの分析）。ブートストラップテストは、2つの分布が似ている（ベル型と等分散）場合は大丈夫だと思います。それは、アイテムのカテゴリ全体の応答分布を確認するにAgrestiの本を参照することができますので、カテゴリーデータ（例えば傾向またはフィッシャーテスト、または順序ロジスティック回帰）のテストがあまりにも興味深いものになるだろうカテゴリーデータ分析上（第7章をためロジットモデル多項応答）。

これとは別に、応答分布が2つのグループ間で大きく不均衡な場合、t検定またはその他のノンパラメトリック検定が失敗する状況を想像できます。たとえば、グループAのすべての人が1または5（等しい割合で）と答え、グループBのすべての人が3と答えた場合、グループ内平均は同じになり、この場合はテストはまったく意味がありません等分散性の仮定は大きく違反しています。

— chl
ソース

Clason and Dormodyの記事は良さそうです。応答分布のコメントは、興味深いものです。分布の違いに関心があるかもしれないことに同意します。ただし、人口グループの平均が異なるかどうかだけに関心がある場合、どのような分布がそのような平等をもたらすかは必ずしも問題ではありません。

— ジェロミーアングリム

この場合、リッカートスケール（つまり、かなり満足していると「ちょうど」満足しているとの違い）が理想的に振る舞い、両方の母集団で同じ意味を持つと見なされると仮定しています。したがって、これは暗黙的に数値スケールであると仮定していますが、特に参加者が同じ国から来ている場合、これは応用研究でしばしばそのように考えられることに同意します。私のポイントは、質問10への回答のように、因子分析の伝統で通常見られるカテゴリカルなデータ分析の観点を強調することだけでした。

— chl

リッカート項目に応答するサンプルの平均は、一般に、基礎となる次元でのグループの位置の意味のある要約であると思います。リッカートアイテムの意味がグループ間で体系的に異なる場合を考えるのは興味深いことです。もちろん、この問題は、リッカート項目だけでなく、おそらく主観的な測定手順にまで及びます。

— ジェロミーアングリム

8

問題のデータセットのサイズによっては、仮説の正確なテスト（および正確なCI）を提供できるという点で、置換テストの方がブートストラップよりも望ましい場合があります。

— ラッセルピアス
ソース

4

私見では、リッカート尺度にt検定を使用できません。リッカート尺度は序数であり、変数の値の関係についてのみ「認識」します。たとえば、「完全に不満」は「何らかの不満」よりも悪いです。一方、t検定では平均値などを計算する必要があるため、間隔データが必要です。リッカートスケールスコアを間隔データにマップできます（「完全に不満」は1など）が、「完全に不満」が「何らかの不満」と同じ距離であることを保証する人はいません。ところで：「まったく不満」と「なんとなく不満」の違いは何ですか？したがって、最終的には、順序データのコード化された値に対してt検定を実行しますが、それは意味をなさないだけです。

— xmjx
ソース

9

...それでも、一般的に行われています。1つ指摘しておくと、そうです。これは、リッカートスケールではない単一のリッカートタイプのアイテムを使用している場合、少し面倒です。違いは意味があります（質問者はリッカートアイテムについて語っていますが、順序は問題です）。リッカート尺度は、複数のリッカート項目を合計または平均化した結果です。このアプローチは、序数データが実際に序数であった範囲を相殺し、間隔スケール上にあるものとして扱うことがより合理的になるように特に開発されました。

— ラッセルピアス

3

アンケートの個々の項目が序数であり、「強く同意する」と「同意する」の量的差異が「間の同意」と同じであるかどうかを知る方法がないため、この点に異議を唱えることはできないと思う強く反対」と「反対」の場合、これらすべての順序レベルスケールの合計が真の間隔レベルデータのプロパティを共有する値を生成するのはなぜですか？

たとえば、うつ病インベントリの結果を解釈している場合、「少なくとも」スコアが20の人は、「うつ病」のスコアの人の2倍落ち込んでいるとは意味がありません。 10 "。これは、アンケートの各項目がうつ病のレベルの実際の違いを測定するのではなく（うつ病が安定した、内在性、器質的障害であると仮定して）、特定の声明に対する同意の主観的な評価であるためです。「気分が1から4のスケールでどれほど落ち込んでいるのか、1は非常に落ち込んでいて4はまったく評価されていない」と尋ねられたとき、ある回答者の主観的な評価1が他の回答者の評価と同じであることをどのように知ることができますか？？または、人との関係で4と3の差が3と4の差と同じであるかどうかを知るには現在のうつ病のレベル：このいずれもわからない場合、これらすべての順序項目の合計を間隔レベルのデータとして扱うことは意味がありません。データが正規分布を形成していても、すべての応答をリッカート項目に加算して計算した場合、スコア間の差を間隔レベルのデータとして扱うのは適切ではないと思います。データの正規分布は、応答がおそらくより大きな母集団を代表していることを意味します。インベントリから取得した値が間隔レベルデータの重要なプロパティを共有していることを意味するものではありません。すべての応答をリッカート項目に加算して計算された場合、スコア間の差を間隔レベルのデータとして扱うのが適切だと思います。データの正規分布は、応答がおそらくより大きな母集団を代表していることを意味します。インベントリから取得した値が間隔レベルデータの重要なプロパティを共有していることを意味するものではありません。すべての応答をリッカート項目に加算して計算された場合、スコア間の差を間隔レベルのデータとして扱うのが適切だと思います。データの正規分布は、応答がおそらくより大きな母集団を代表していることを意味します。インベントリから取得した値が間隔レベルデータの重要なプロパティを共有していることを意味するものではありません。

行動科学では、研究している潜在変数と話すために統計をどのように使用するかについて注意する必要があります。パラメトリックテストに。繰り返しますが、単に一連の応答に値を割り当てたからといって、これらの値の違いに意味があるとは限りません。

— ジャスティン
ソース

1

項目のスコアを加算することに満足している場合、厳密な順序のレベルを超える測定を既に想定しています。厳密に言えば、序数のメジャーを有意義に追加または平均化することはできません（偶然、スティーブンスはそれについて明確です）。それが完了したら、結果のスコアを間隔レベルのデータとして扱うことは完全に合理的です。

— ガラ

0

比例オッズ比モデルは、リッカートアイテムスケールのt検定よりも優れています。

— Wojtek
ソース

1

理由を説明しますか？そのようなモデルが、観測された応答のより正確なモデルをどのように提供するかを見ることができます。しかし、私が見た典型的な実際の研究状況では、研究者は2つのグループの平均が異なるかどうかに興味があります（たとえば、トレーニンググループがコントロールよりも優れたパフォーマンスを報告したか、学生の満足度が1年ごとに高くなったか）。比例オッズ比モデルは、私が知っている限りこの質問を正確にテストしません。

— ジェロミーアングリム

0

この質問に対する少なくとも2つの回答で提案され、示されたため、この文脈で比例オッズ比モデルを説明しようとします。

比例オッズモデルのスコアテストは、ウィルコクソンのランクサムテストと同等です。

より正確には、序数の結果に対する比例オッズ累積ロジスティック回帰モデル（McCullagh 1980）の単一の二項共変量の効果がないスコア検定統計量は、ウィルコクソン順位和検定統計量に等しいことが示されました。（複雑なサンプル調査データのためのウィルコクソンの順位和検定の拡張の証明。）

ウィルコクソンのランクサムテストと同様に、このテストは、期待値に関係なく、2つのサンプルが異なる分布から引き出されたかどうかを検出します。

ウィルコクソンのランクサムテストのように、異なる期待値を持つ分布から2つのサンプルが抽出されたかどうかのみを検出する場合、このテストは無効です。

— マルコ・ラロヴィッチ
ソース