私と一緒に話してくれてありがとう、私はどのような統計学者でもないし、私が想像していることをどのように説明するのかわからないので、Googleはここで私を助けていません...
作業中のWebアプリケーションに評価システムを含めています。各ユーザーは各アイテムを1回だけ評価できます。
「非常に嫌い」、「嫌い」、「好き」、「非常に好き」の4つの値を持つスケールを想像していて、それぞれ-5、-2、+ 2、+ 5の値を割り当てる予定でした。
さて、すべてのアイテムが同じ数の評価を持つことになれば、私はこのスコアリングシステムに非常に満足し、最も好きなアイテムと最も嫌いなアイテムを明確に区別できます。ただし、アイテムの評価の数は同じではなく、異なる写真の投票数の格差は非常に劇的です。
その場合、2つのアイテムの累積スコアを比較することは、平凡な評価が多い古いアイテムのほうが、投票数が少ない例外的な新しいアイテムよりもはるかに高いスコアになることを意味します。
だから、私が平均を取ることを最初に考えた明らかなこと...しかし、アイテムが「+5」の評価が1つしかない場合、99「+5」のスコアを持つアイテムよりも平均が良い1つの「+2」評価。直感的には、これはアイテムの人気を正確に表すものではありません。
私はこの問題が一般的だと思います。皆さんは私がもっと多くの例で問題を起こす必要はないので、この時点で停止し、必要に応じてコメントで詳しく説明します。
私の質問は:
- この種の問題は何と呼ばれ、それを解決するために使用される技法の用語はありますか?読みたいので、これを知りたいのですが。
- この件に関する一般向けのリソースを知っている場合は、リンクをいただければ幸いです。
- 最後に、この種のデータを効果的に収集および分析する方法に関する他の提案をいただければ幸いです。