平均値を使用して5ポイント評価の中心的な傾向を要約する利点
@gungが述べたように、私は5ポイント項目の平均を中心傾向の指標とする非常に良い理由がしばしばあると思います。ここですでにこれらの理由を概説しました。
言い換えると:
- 平均は簡単に計算できます
- 平均は直感的でよく理解されています
- 平均は単一の数字です
- 他のインデックスは、多くの場合、オブジェクトの同様のランク順を生成します
平均がAmazonに適している理由
平均を報告する際のAmazonの目標について考えてください。彼らは目指しているかもしれない
- アイテムに直感的で理解可能な評価を提供する
- ユーザーが評価システムを受け入れていることを確認する
- 人々が評価の意味を理解していることを確認し、購入の決定を適切に伝えることができるようにします
Amazonは、ある種の丸められた平均、各評価オプションの頻度カウント、およびサンプルサイズ(評価の数)を提供します。この情報は、おそらく、ほとんどの人がアイテムに関する一般的な感情とそのような評価に対する信頼の両方を評価するのに十分です(つまり、20評価の4.5は2評価の4.5よりも正確である可能性が高い; 10 5のアイテムは-星評価、およびコメントのない1つ星評価は、まだ良いアイテムかもしれません)。
平均を民主的な選択肢と見ることさえできます。多くの選挙は、どの候補者が2点スケールで最高の平均を得るかに基づいて決定されます。同様に、レビューを送信した各人が投票を取得するという議論をすると、平均は各人の投票に均等に重み付けするフォームとして見ることができます。
規模の違いは本当に問題ですか?
心理学の文献(レビューについては、Saal et al 1980を参照)で知られている評価バイアスには、中心傾向バイアス、寛容バイアス、厳密性バイアスなど、さまざまなものが知られています。また、一部の評価者はよりarbitrary意的で、一部の評価者はより信頼性が高くなります。偽のポジティブなレビューや偽のネガティブなレビューを体系的に行うことさえあるかもしれません。これにより、アイテムの真の平均評価を計算しようとすると、さまざまな形式のエラーが発生します。
ただし、母集団のランダムサンプルを取得した場合、そのようなバイアスは相殺され、十分なサンプルサイズの評価者がいる場合でも、真の平均を取得できます。
もちろん、Amazonでランダムなサンプルを取得することはありません。また、アイテムに対して取得する評価者の特定のセットが、より寛容または厳格になるように体系的に偏っているというリスクがあります。そうは言っても、Amazonのユーザーは、ユーザーが提出した評価が不完全なサンプルに由来することを評価すると思います。また、妥当なサンプルサイズでは、多くの場合、応答バイアスの差の大部分が消え始める可能性が高いと思います。
平均を超える可能性のある進歩
評価の精度を改善するという点では、平均の一般的な概念に挑戦することはありませんが、むしろ、アイテムの真の母集団平均評価(つまり、得られる平均評価)を推定する他の方法があると思いますアイテムの評価を依頼された大規模な代表サンプルでした)。
- 信頼性に基づく体重評価者
- すべてのアイテムの平均評価と特定のアイテムの平均の加重合計として平均評価を推定するベイジアン評価システムを使用し、評価の数が増加するにつれて特定のアイテムの重みを増加させる
- アイテム全体の一般的な評価傾向に基づいて評価者の情報を調整します(たとえば、通常3を与える人からの5は、通常4を与える人よりも価値があります)。
したがって、評価の精度がAmazonの主な目標である場合、アイテムごとの評価の数を増やし、上記の戦略のいくつかを採用するよう努力する必要があると思います。このようなアプローチは、「最高の」ランキングを作成するときに特に関連する可能性があります。ただし、ページの謙虚な評価については、サンプルの方が単純さと透明性の目標をよりよく満たしている可能性があります。
参照資料
- サール、FE、ダウニー、RG&ラヘイ、MA(1980)。評価の評価:評価データの心理測定品質の評価.. Psychological Bulletin、88、413。