この質問に続いて:5ポイントのリッカート項目(例:人生に対する満足度:不満に満足)で、2つのグループ(例:男性と女性)の中心傾向の違いをテストしたいと想像してください。t検定はほとんどの目的に対して十分に正確であると思いますが、グループ平均間の差のブートストラップ検定は多くの場合、信頼区間のより正確な推定値を提供します。どの統計検定を使用しますか?
この質問に続いて:5ポイントのリッカート項目(例:人生に対する満足度:不満に満足)で、2つのグループ(例:男性と女性)の中心傾向の違いをテストしたいと想像してください。t検定はほとんどの目的に対して十分に正確であると思いますが、グループ平均間の差のブートストラップ検定は多くの場合、信頼区間のより正確な推定値を提供します。どの統計検定を使用しますか?
回答:
Clason&Dormodyは、リッカートアイテムの統計的検定の問題について議論しました(個々のリッカートタイプのアイテムによって測定されたデータの分析)。ブートストラップテストは、2つの分布が似ている(ベル型と等分散)場合は大丈夫だと思います。それは、アイテムのカテゴリ全体の応答分布を確認するにAgrestiの本を参照することができますので、カテゴリーデータ(例えば傾向またはフィッシャーテスト、または順序ロジスティック回帰)のテストがあまりにも興味深いものになるだろうカテゴリーデータ分析上(第7章をためロジットモデル多項応答)。
これとは別に、応答分布が2つのグループ間で大きく不均衡な場合、t検定またはその他のノンパラメトリック検定が失敗する状況を想像できます。たとえば、グループAのすべての人が1または5(等しい割合で)と答え、グループBのすべての人が3と答えた場合、グループ内平均は同じになり、この場合はテストはまったく意味がありません等分散性の仮定は大きく違反しています。
私見では、リッカート尺度にt検定を使用できません。リッカート尺度は序数であり、変数の値の関係についてのみ「認識」します。たとえば、「完全に不満」は「何らかの不満」よりも悪いです。一方、t検定では平均値などを計算する必要があるため、間隔データが必要です。リッカートスケールスコアを間隔データにマップできます(「完全に不満」は1など)が、「完全に不満」が「何らかの不満」と同じ距離であることを保証する人はいません。ところで:「まったく不満」と「なんとなく不満」の違いは何ですか?したがって、最終的には、順序データのコード化された値に対してt検定を実行しますが、それは意味をなさないだけです。
アンケートの個々の項目が序数であり、「強く同意する」と「同意する」の量的差異が「間の同意」と同じであるかどうかを知る方法がないため、この点に異議を唱えることはできないと思う強く反対」と「反対」の場合、これらすべての順序レベルスケールの合計が真の間隔レベルデータのプロパティを共有する値を生成するのはなぜですか?
たとえば、うつ病インベントリの結果を解釈している場合、「少なくとも」スコアが20の人は、「うつ病」のスコアの人の2倍落ち込んでいるとは意味がありません。 10 "。これは、アンケートの各項目がうつ病のレベルの実際の違いを測定するのではなく(うつ病が安定した、内在性、器質的障害であると仮定して)、特定の声明に対する同意の主観的な評価であるためです。「気分が1から4のスケールでどれほど落ち込んでいるのか、1は非常に落ち込んでいて4はまったく評価されていない」と尋ねられたとき、ある回答者の主観的な評価1が他の回答者の評価と同じであることをどのように知ることができますか? ?または、人との関係で4と3の差が3と4の差と同じであるかどうかを知るには 現在のうつ病のレベル:このいずれもわからない場合、これらすべての順序項目の合計を間隔レベルのデータとして扱うことは意味がありません。データが正規分布を形成していても、すべての応答をリッカート項目に加算して計算した場合、スコア間の差を間隔レベルのデータとして扱うのは適切ではないと思います。データの正規分布は、応答がおそらくより大きな母集団を代表していることを意味します。インベントリから取得した値が間隔レベルデータの重要なプロパティを共有していることを意味するものではありません。すべての応答をリッカート項目に加算して計算された場合、スコア間の差を間隔レベルのデータとして扱うのが適切だと思います。データの正規分布は、応答がおそらくより大きな母集団を代表していることを意味します。インベントリから取得した値が間隔レベルデータの重要なプロパティを共有していることを意味するものではありません。すべての応答をリッカート項目に加算して計算された場合、スコア間の差を間隔レベルのデータとして扱うのが適切だと思います。データの正規分布は、応答がおそらくより大きな母集団を代表していることを意味します。インベントリから取得した値が間隔レベルデータの重要なプロパティを共有していることを意味するものではありません。
行動科学では、研究している潜在変数と話すために統計をどのように使用するかについて注意する必要があります。パラメトリックテストに。繰り返しますが、単に一連の応答に値を割り当てたからといって、これらの値の違いに意味があるとは限りません。
比例オッズ比モデルは、リッカートアイテムスケールのt検定よりも優れています。
この質問に対する少なくとも2つの回答で提案され、示されたため、この文脈で比例オッズ比モデルを説明しようとします。
比例オッズモデルのスコアテストは、ウィルコクソンのランクサムテストと同等です。
より正確には、序数の結果に対する比例オッズ累積ロジスティック回帰モデル(McCullagh 1980)の単一の二項共変量の効果がないスコア検定統計量は、ウィルコクソン順位和検定統計量に等しいことが示されました。(複雑なサンプル調査データのためのウィルコクソンの順位和検定の拡張の証明。)
ウィルコクソンのランクサムテストと同様に、このテストは、期待値に関係なく、2つのサンプルが異なる分布から引き出されたかどうかを検出します。
ウィルコクソンのランクサムテストのように、異なる期待値を持つ分布から2つのサンプルが抽出されたかどうかのみを検出する場合、このテストは無効です。