リッカート尺度をさまざまな数のカテゴリーと時系列で比較するにはどうすればよいですか?


8

1年目を昨年のデータ、2年目を今年のデータとします。

1年目にリッカート尺度が1〜9(カテゴリ/序数)で、2年目に同じ質問に対して1〜5(カテゴリ/序数)のリッカート尺度があったと仮定します。

2年分のデータを比較するために(もしあれば)何を試してみますか?

これまでに行ったこと:

  • 比較された分布(形状、スキュー、尖度、統計的に等しい)
  • 1-9から1-5に再スケーリングされ、頻度の前年比の変化は、業界のニュース/イベントおよび定性的な調査結果から得られた論理的な期待に一致しています。

注:これは宿題ではありません。また、明確な答えがない場合もあります。しかし、私は手が必要です!

前もって感謝します!


なぜリッカート尺度、次にカテゴリ/序数と言うのですか?リッカートとは、間隔がスケーリングされることを意味します。これについて少し説明してもらえますか?
Henrik

具体的には、タイトルをLikert "item"に変更する必要があります。2番目の点では、リッカートアイテムが間隔データまたは序数データを提示するかどうかについて多くの人が反対するでしょう。私の質問では、それは同意の尺度であり、強く同意しないから強く同意するまでです。合意の各レベルは「カテゴリ」であり、「標準」である間の距離です。しかし、意味論に縛られないようにしましょう!
Brandon Bertelsen、2011

@Henrik @Brandon 性質とリッカートのスケール/アイテムを処理する方法について、すでにスケールタグの下にあるいくつかの議論がありました。
11

回答:


5

これは完全な答えではありません。ほんの数点:

  • スケールの両方のバージョンをサブサンプルに管理できる場合、2つの応答形式で対応するスコアを推定できます。次に、経験的に正当化された変換式を適用できます。これを行う方法はいくつか考えられます。これを行うためのベストプラクティスに関する学術論文があれば、私は興味があります。

  • 単純な再スケーリング(1 = 1; 2 = 3; 3 = 5; 4 = 7; 5 = 9)を行う場合、これが正当であるという保証はありません。広義のステートメントとして(少なくとも組織設定での私の経験の範囲内で)、項目の表現の変更とスケールオプションの変更は、関心のある属性の実際の変更よりも応答に大きな影響を与える可能性があります。少なくとも、使用されているスケールアンカーが2つの応答形式間でほぼ等しいかどうかを確認する必要があります。


2番目のコメントへのメモとして。アンカーは、前年の調査と同じです。基本的に、スケールの細分性が低下しました。
Brandon Bertelsen、2011

4

[技術的には、リッカート尺度ではなく調査項目があります。後者は複数のアイテムから作られています。たとえば、Paul SpectorのSummated Rating Scale Construction {Sage}を参照してください。]

実行する手順は、報告する対象者に依存する必要があります。論文委員会のように、それが学術的で厳しい場合、特別な課題に直面するかもしれません。そうでない場合、および一般的な1〜5の形式で問題ない場合は、それに合わせて再スケーリングし、平均と標準偏差を報告してください(特に、形状、スキュー、および尖度は年ごとに異なるため、分布は推定されます)。中心的な傾向を正確に表すことを意味する十分に正常ですか?)

->変数を間隔レベルの変数として扱うのはなぜですか?純粋主義者は、序数レベルの変数は手段またはSDを介して報告されるべきではないと言っているかもしれません。 -レベル。結局、なぜそうでなければ歪度や尖度を評価するのでしょうか。あなたの聴衆も大丈夫であり、平均などの間隔レベルの統計に関連できるようになると思います。

すでにデータをグラフィカルに探索しているのはいいですね。差の大きさの評価を超えて仮説検定を実施したい場合は、T検定(データに応じて独立または相関)を行って、1-5点前と1-5点後を比較します。平均差の信頼区間を生成します。ここでは、母集団からランダムなサンプルを取得していると想定しています。


はい、私はこれらの項目のいくつかを序数データで調べていると「想定」されていないことに気づきましたが、実際、それは2年間を比較するために考えられる唯一のツールです。本当に、分布を比較できるものを見ていました。しかし、テストの手段はもっともらしいと思いますが、この質問がYoYをレビューする業界には多くの構造的変化があったため、信頼区間には必ずしも私の平均が含まれない場合があります。
Brandon Bertelsen、2011

1

両方のデータセットからの応答をzスコアに変換することを検討してください。どんな種類の再スケーリングにもアドホックな品質がありますが、少なくともこの方法では、1つのアイテムの特定の間隔のセットを、他の特定のセットと同等のものとして機械的に処理することを避けます。アイテムをあらゆる種類の分散分析で予測子または結果変数として使用している場合は、間違いなくこの方法を使用します。複合スケール(リッカートメジャーを集計するもの)を使用して何かをしている場合は、基本的に私が提案したことを実行するでしょう:アイテムの応答をZスコアに変換してから、合計するか、その平均を形成します複合スケール; または、因子分析またはアイテムの共分散行列を使用してそれらに対する応答の親和性を決定する別の手法でスケールを形成します。


2
これにより、前年比を比較する際の平均と分散が等しくなり、時間的変化に関するほとんどの情報が人為的に排除されるように思われます。
whuber

本当。2つのサンプルの平均を比較することは考えていませんでした。その場合、Zスコアへの変換は自己破壊的です。共分散を念頭に置いていました。たとえば、1つ以上の予測子がリッカートアイテムスコアと年または両方の組み合わせでどのように関連しているかを評価しました。共分散行列は、リッカートアイテムを使用するときに学ぶべき唯一のことだと思う傾向があります(人々はメジャーにポイントを投資する傾向がありますが、あまりにも意味があります-「私のものは11になります」)。私がだれもトラックから外さなかったことを望みます。
dmk38

確かにいくつかの比較は失われます。ただし、私の分析の多くは、平均と分散ではなく、ネットプロモータースコアに焦点を当てています。だから、私はそれを試してみて、それが私を何にするのか見てみましょう。対応を乾杯。
Brandon Bertelsen、2011

1

私はこの正確な問題を解決しなければなりませんでした。10年前のトラッカーで5ポイントスケールに変更された9ポイントスケールがありました。それだけでなく、一部のステートメントも変更されました。そして、私たちはネットプロモータースコアの形式として報告していました。

私たちが使用したソリューションは、各回答者に古いステートメントのいくつかを古い方法(およびすべての新しい方法)に尋ねることによる、対になった設計です。回答者の疲労を最小限に抑えるため、すべてではなく古い方法でカップルに質問しました。次に、9ポイントのスケールで各スコアを取得し、5ポイントのスコアでの平均を見つけ、これを使用してスケールの変更とステートメントの変更を修正します。これは、一部の論文で「固定された単語値の意味的判断」と呼ばれるものと非常に似ていますが、専門家を使用して「単語値」を決定する代わりに、回答者の実際のデータを使用しました。

たとえば、9ポイントスケールで2と回答した回答者の5ポイントスケールの平均スコアが1.2である場合、5ポイントスケールで異なるスケールと年を直接比較するには、9ポイントスケールで2をすべて置き換えます。 1.2の場合は、9ポイントのスコアすべてに対して同じことを行い、通常どおり続行します。

NPSの報告についても同様のことを行いました。ただし、最初に5ポイントスケールを1(プロモーター)、0(パッシブ)、-1(批評家)のNPSスケールに変換しました。たとえば、NPSスケールの平均が9ポイントスケールの2に対して0.9である場合、それを置き換えました。 0.9の場合、9ポイントのスコアすべてに対して同じことを行い、通常どおりNPSを計算します。

これの有効性を評価するために、まず9ポイントと5ポイントのスケールを使用して「未修正」NPSスコアを比較し、実際に問題があるかどうかを確認してから、「修正済み」のNPSスコアを比較しました。まだデータは入手できていませんが、入手でき次第報告します!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.