Amazonの「平均評価」は誤解を招くものですか?


49

私が正しく理解していれば、1-5のスケールでの本の評価はリッカートスコアです。つまり、私にとって3は、他の誰かにとって必ずしも3であるとは限りません。これは通常のスケールのIMOです。順序スケールを実際に平均するべきではありませんが、モード、中央値、パーセンタイルを確実に取ることができます。

人口の大部分が上記の統計よりも平均を理解しているので、ルール曲げることは「大丈夫」ですか?研究コミュニティは、リッカートスケールベースのデータの平均を取ることを強く非難しますが、大衆でこれを行うことは問題ありません(実際に言えば)?この場合の平均を取ることは、そもそも誤解を招くかもしれませんか?

Amazonのような会社が基本的な統計情報を手探りすることはまずないと思われますが、そうでない場合は、ここで何が欠けていますか?順序尺度は、平均を取ることを正当化するための順序の便利な近似であると主張できますか?どんな理由で?


3
あなたのための3が他の誰かのための3と同じでない場合、スケールさえありません:あなたは比類のない測定値のコレクションを持っており、それらを要約するためにできることはほとんど意味がありません。スケールを序数にしているのは、(a)値比較できるため、3とmy 3は同じことを意味しますが、(b)値の数値の違いはその符号を除いて意味がないため、(たとえば)2つの3 4と2、または5と1は任意の順序で並べることができますが評価の各ペアの数値は平均と中央値が同じです。
whuber

1
@whuber-しかし、2人が数字について1-9の尺度で同じ意見を共有しないかもしれないというのは本当ではありませんか?私にとっての6は、他の誰かが事前に定義されたスケールを持っていない限り、実際には6ではないかもしれません。
PhD

1
アマゾンで最近、あるレビューを読みました。「素晴らしい製品はそれに失敗することはありません。5つ星を与えることはないので、4を獲得しました」。これが平均をゆがめない場合、私はそれがわからない
マットウィルコ

2
@Wilko規模の違いではなく、意見の違いについて話している。(たとえば)体操やフィギュアスケートのスコアリング、または川の急流の難易度を評価するための国際的なスケールのように、スケールが非常に慎重に較正されている場合でも、専門家がそのスケールを使用するように訓練されている場合でも、ばらつきがあります。それは通常、スケールが主観的であるという証拠として解釈されません。それは裁判官間の変動として解釈されます。
whuber

1
申し訳ありませんが、これは実際には答えではありませんが、残念ながら「コメント」機能が見つかりませんでした。最近、私は顧客レビューの重要な要素に関する修士論文を書き始めました。次の状況を考慮して、私はAmazonの5つ星評価システムの重要性も疑い始めました。- 信頼できないレビューの数- 評価バイアスとJカーブの影響(buildingreputation.com/writings/2009
derPio

回答:


42

平均値を使用して5ポイント評価の中心的な傾向を要約する利点

@gungが述べたように、私は5ポイント項目の平均を中心傾向の指標とする非常に良い理由がしばしばあると思います。ここですでにこれらの理由を概説しました

言い換えると:

  1. 平均は簡単に計算できます
  2. 平均は直感的でよく理解されています
  3. 平均は単一の数字です
  4. 他のインデックスは、多くの場合、オブジェクトの同様のランク順を生成します

平均がAmazonに適している理由

平均を報告する際のAmazonの目標について考えてください。彼らは目指しているかもしれない

  • アイテムに直感的で理解可能な評価を提供する
  • ユーザーが評価システムを受け入れていることを確認する
  • 人々が評価の意味を理解していることを確認し、購入の決定を適切に伝えることができるようにします

Amazonは、ある種の丸められた平均、各評価オプションの頻度カウント、およびサンプルサイズ(評価の数)を提供します。この情報は、おそらく、ほとんどの人がアイテムに関する一般的な感情とそのような評価に対する信頼の両方を評価するのに十分です(つまり、20評価の4.5は2評価の4.5よりも正確である可能性が高い; 10 5のアイテムは-星評価、およびコメントのない1つ星評価は、まだ良いアイテムかもしれません)。

平均を民主的な選択肢と見ることさえできます。多くの選挙は、どの候補者が2点スケールで最高の平均を得るかに基づいて決定されます。同様に、レビューを送信した各人が投票を取得するという議論をすると、平均は各人の投票に均等に重み付けするフォームとして見ることができます。

規模の違いは本当に問題ですか?

心理学の文献(レビューについては、Saal et al 1980を参照)で知られている評価バイアスには、中心傾向バイアス、寛容バイアス、厳密性バイアスなど、さまざまなものが知られています。また、一部の評価者はよりarbitrary意的で、一部の評価者はより信頼性が高くなります。偽のポジティブなレビューや偽のネガティブなレビューを体系的に行うことさえあるかもしれません。これにより、アイテムの真の平均評価を計算しようとすると、さまざまな形式のエラーが発生します。

ただし、母集団のランダムサンプルを取得した場合、そのようなバイアスは相殺され、十分なサンプルサイズの評価者がいる場合でも、真の平均を取得できます。

もちろん、Amazonでランダムなサンプルを取得することはありません。また、アイテムに対して取得する評価者の特定のセットが、より寛容または厳格になるように体系的に偏っているというリスクがあります。そうは言っても、Amazonのユーザーは、ユーザーが提出した評価が不完全なサンプルに由来することを評価すると思います。また、妥当なサンプルサイズでは、多くの場合、応答バイアスの差の大部分が消え始める可能性が高いと思います。

平均を超える可能性のある進歩

評価の精度を改善するという点では、平均の一般的な概念に挑戦することはありませんが、むしろ、アイテムの真の母集団平均評価(つまり、得られる平均評価)を推定する他の方法があると思いますアイテムの評価を依頼された大規模な代表サンプルでした)。

  • 信頼性に基づく体重評価者
  • すべてのアイテムの平均評価と特定のアイテムの平均の加重合計として平均評価を推定するベイジアン評価システムを使用し、評価の数が増加するにつれて特定のアイテムの重みを増加させる
  • アイテム全体の一般的な評価傾向に基づいて評価者の情報を調整します(たとえば、通常3を与える人からの5は、通常4を与える人よりも価値があります)。

したがって、評価の精度がAmazonの主な目標である場合、アイテムごとの評価の数を増やし、上記の戦略のいくつかを採用するよう努力する必要があると思います。このようなアプローチは、「最高の」ランキングを作成するときに特に関連する可能性があります。ただし、ページの謙虚な評価については、サンプルの方が単純さと透明性の目標をよりよく満たしている可能性があります。

参照資料

  • サール、FE、ダウニー、RG&ラヘイ、MA(1980)。評価の評価:評価データの心理測定品質の評価.. Psychological Bulletin、88、413。

1
+1。これはあなたの以前の答えを非常に良い方法で超えている/拡張していると思います。私は特に、「なぜ平均がAmazonに適しているのか」というセクションが好きです。「スケールのさまざまな使用」も非常に洞察に富んでいます。あなたが良いものを知っているなら、私はその文献のレビューへの引用を感謝します。ただし、最後のセクションは2番目の部分で多少緊張しています。
GUNG -復活モニカ

2
ありがとう。評価バイアスに関する文献への参照を追加し、最後に2つの視点を調整しようとするものを追加しました。
ジェロミーアングリム

2
+1 @JeromyAnglim-問題のさまざまな側面に光を当てる徹底的な視点。称賛!
PhD

+1、素晴らしい答え。私はわずかに誤解を招く文章を見つけましたが。「ただし、母集団のランダムサンプルを取得する場合、そのようなバイアスは相殺され、十分なサンプルサイズの評価者がいる場合でも、真の平均が得られます。」-母集団のサンプルがランダムであっても、すべてのバイアスに当てはまるとは思いません。
マイケルビショップ

1
@MichaelBishopありがとう、私は私の言語が少しずさんだったことに同意します。「真の意味」が何を意味するかによると思います。人口に偽者がいると、調整されていない人口の平均値が仮想の「真の平均値」から偏る可能性があることがわかります。私は、すべてのアイテムに適用される個人の体系的なバイアスが相殺され、結果の平均に基づいてアイテムの公平なランク付けが可能になると考えていました。
ジェロミーアングリム

15

ここでは、やや技術的であるためには、これらの評価は、実際にはありませんリッカート尺度。それらは単なる序数の評価です。さて、あなたの主張は本質的に正しいと言っています。しかし、私はしばしばこの問題であまりにも多くのものが作られていると思います。もう一つ注意すべきは、一般的に序項目数の平均がいることを理解していることであることができ、およそ間隔も、多くの評価がある場合ので、平均がより合理的な表現になります。@JeromyAnglimによるこの回答は優れていることがわかりました(実際、質問とそれに付随するすべての回答は読む価値があります)。より理論的な取り扱いについては、こちらをご覧ください。別の注意として、私はアマゾンが好きですが、特に基本的なサイト設計に関して、統計的な洗練を期待する理由はありません。ポイントは、統計学の教授を感動させるためではなく、消費者による使いやすさです。


2
アマゾンは、オンライン広告とウェブサイト使用のための実験的デザインの(インターネット)テクノロジー業界のリーダーの1つです。あなたは彼らが実際に彼らの統計的アプローチにおいて非常に洗練されていることを確信することができます。:-)あなたのポイントは良いものです。さらに一歩踏み込んで、Amazonが「より洗練された」ことをしていて、誰かが単純な平均を使用してそれらをチェックし、いくつかのアイテムが平均より「高い」、他のアイテムが「低い」とランク付けされていることを想像できますか?大騒ぎし、アマゾンを離れて、製品に関する「隠れたバイアス」を説明しようとしていますか?
枢機

1
Netflixなどの他のサービスは、「要約」データのみを提供することでこの問題を回避します。:)
枢機

@cardinal、それは非常に興味深いです、私はアマゾンについてそれを知りませんでした。
GUNG -復活モニカ

15

誰もがこれについて良い意見を持っています。これ以上追加できるとは本当に思いません。しかし、私はこれを投稿します


7
この漫画は、一部の人々はアイテムの品質の判断が下手であると強調していると思います。そのような多くの人々を平均することにより、あなたは平均が貧弱になります。一般に、群衆の知恵は、少なくとも合理的な割合の人々がある程度の知識を持っている場合、平均がかなりうまく機能することを示唆しています。信頼性による評価の重み付けも、問題を克服するための1つの戦略です。
ジェロミーアングリム

1
他のオプションは、Netflixスタイルの推奨事項を使用することです。評価を他のユーザーの評価と比較し、同様の選択肢を持つユーザーが提供する評価を平均します。
ラーウル

1
@rahulそれは良い点です。私の答えでは、エラーの構造があったとしても、評価はほとんどが真のスコア+エラーであると仮定することがあります。しかし、個人的な好みが品質の定義の一部であるドメインに関しては、これは必ずしもそれほど意味をなさない。
ジェロミーアングリム

私はそれが好きです、そして、それは(消費者として)私が星の数を見るだけでなくレビューを読むことを試みる理由です。しかし、この場合、中央値、モード、パーセンタイルのより「洗練された」方法がすべて平均より悪い結果を与えるのは皮肉だと思いました;
ダーレンクック

3

私の経験では、評価尺度データの平均は、多くの場合、評価尺度に関連付けようとする実際の測定基準のレベルと最も密接に相関しています。多くの線形関係が見つかりました。したがって、平均はデータを要約するより良い方法の1つです。とはいえ、ジェロミーが指摘したように、レーティングスケールの中心的な傾向を分析するほとんどの方法は、ほとんどの場合、同様の結果(順位など)を提供します。

また、Amazonはおそらく科学的妥当性に何らかの形で関心を持っているわけではないと思う。Amazonの最終的な目標は、人々にAmazon.comでより多くの買い物をしてもらうことであり、それを達成するのに役立つレビューの方法は、使用するワンナンバーサマリーによっておそらく変わらないでしょう。良い製品は報われ、本当に悪い製品は罰せられ、神経質な購入者は長所と短所をより詳細に確認する機会があります。


2

Amazonの評価は、企業がシステムを賭けているために誤解を招きます。5つ星のレビューと引き換えに顧客にリベートと無料の商品が提供されると、評価番号が何であるか、または何を意味するかの「統計」が議論の対象になります。


1
そのようなことが起こる頻度に関するデータはありますか?
マイケルビショップ

1

あなたは良いポイントを作ります。序数の平均を取ることは、やや誤解を招く恐れがあります。いくつかのランキングの要約は、私の主観的な3が実際に4に等しいという事実に苦しむでしょう。したがって、異なる個々のスコアを組み合わせることがおそらく最大の問題です。3と4の平均を3.5と解釈することは、それほどひどいことではありません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.