より少ない人々によって高く評価されたアイテムよりもより多くの人々によって高く評価されたアイテムを支持するために評価システムに重みを付けますか?


9

私と一緒に話してくれてありがとう、私はどのような統計学者でもないし、私が想像していることをどのように説明するのかわからないので、Googleはここで私を助けていません...

作業中のWebアプリケーションに評価システムを含めています。各ユーザーは各アイテムを1回だけ評価できます。

「非常に嫌い」、「嫌い」、「好き」、「非常に好き」の4つの値を持つスケールを想像していて、それぞれ-5、-2、+ 2、+ 5の値を割り当てる予定でした。

さて、すべてのアイテムが同じ数の評価を持つことになれば、私はこのスコアリングシステムに非常に満足し、最も好きなアイテムと最も嫌いなアイテムを明確に区別できます。ただし、アイテムの評価の数は同じではなく、異なる写真の投票数の格差は非常に劇的です。

その場合、2つのアイテムの累積スコアを比較することは、平凡な評価が多い古いアイテムのほうが、投票数が少ない例外的な新しいアイテムよりもはるかに高いスコアになることを意味します。

だから、私が平均を取ることを最初に考えた明らかなこと...しかし、アイテムが「+5」の評価が1つしかない場合、99「+5」のスコアを持つアイテムよりも平均が良い1つの「+2」評価。直感的には、これはアイテムの人気を正確に表すものではありません。

私はこの問題が一般的だと思います。皆さんは私がもっと多くの例で問題を起こす必要はないので、この時点で停止し、必要に応じてコメントで詳しく説明します。

私の質問は:

  1. この種の問題は何と呼ばれ、それを解決するために使用される技法の用語はありますか?読みたいので、これを知りたいのですが。
  2. この件に関する一般向けのリソースを知っている場合は、リンクをいただければ幸いです。
  3. 最後に、この種のデータを効果的に収集および分析する方法に関する他の提案をいただければ幸いです。

回答:


14

これに対処する1つの方法は、各カテゴリに比率を使用することです。これにより、各カテゴリに数値を入力する必要がなくなります(80%を「非常に好き」と評価しておくことができます)。しかし、プロポーションは少数の格付け問題に悩まされています。これは、あなたの例では、1 +5の評価の写真は、99 +5および1 +2の評価の写真よりも平均スコア(および比率)が高くなることを示しています。これは私の直感にうまく適合しません(そして、私はほとんどの人々を疑っています)。

この小さなサンプルサイズの問題を回避する1つの方法は、「ラプラスの継承の法則」として知られるベイジアン手法を使用することです(この用語を検索すると役立つ場合があります)。確率を計算する前に、各カテゴリに1つの「観測」を追加するだけです。数値の平均を取りたい場合は、加重平均をお勧めします。ここで、重みは継承のルールによって計算された確率です。

nsd,nd,nl,nslnsl=1,nsd=nd=nl=0nsl=99,nl=1,nsd=nd=0

Pr("Strongly Like")=nsl+1nsd+nd+nl+nsl+4

あなたが与える2つの例では、彼らは「非常に好き」の確率をとして与えます 1+11+0+0+0+4=2599+199+1+0+0+4=1001041199100

それぞれのスコアは、私が以下のように書いた加重平均によって与えられます:

Score=5nsl+1nsd+nd+nl+nsl+4+2nl+1nsd+nd+nl+nsl+42nd+1nsd+nd+nl+nsl+45nsd+1nsd+nd+nl+nsl+4

またはより簡潔に

Score=5nsl+2nl2nd5nsdnsd+nd+nl+nsl+4

2つの例でスコアを与える55=14971044.8

これは少し「数学的」だったかもしれませんので、さらに説明が必要な場合はお知らせください。


それは私にとっては少し「数学的」で、最初は式を理解できませんでしたが、3回ほど注意深く読んだところ、クリック音が鳴りました。これはまさに私が探していたものであり、数学者でも統計学者でもない人でも、あなたの説明は非常に明確でした。どうもありがとうございました!
Andrew

2
非常に素晴らしい非技術的な答え、そして私が自分では考えなかったであろうアプローチ。整数以外の数値を含め、1の代わりに任意の数の偽の「オブザベーション」を各カテゴリに追加することが可能であることだけを追加します。これにより、投票数が少ないアイテムのスコアをゼロに向かって「縮小」する度合いを柔軟に決定できます。また、この方法の技術的な説明が必要な場合は、事前に対称ディリクレを使用して多項分布からのデータのベイジアン分析を実行していると言えます。
ワンストップ2011年

1
それらは「偽の」観察のように見えるかもしれませんが、+ 1の場合は明確に定義された意味を持ちます(実際には「偽の」数値または以前のデータコレクションからの数値である+2以上とは対照的です)。基本的に、データを観察するに、各カテゴリに投票することができるという知識の状態を説明します。これは、(N-1)シンプレックスの前のフラットが正確に行うことです。
確率

この投稿を見つけた将来の人々のためのもう1つの観察:これを私のモデルに実装する際に、最終スコアを取得して20で乗算しました。これにより、-100から100の範囲で最悪から最高のスコアが得られます(ただし、技術的にはあなたがこれまで完全に到達することはできませんが、あなたはアイデアを得ます)。これにより、アプリのユーザーの出力は非常に直感的になります。
Andrew

@probabilityislogic:確かに事前のディリクレの厳密に正のパラメーターは、すべての確率が厳密に0と1の間にあると説明していますか?そして、この引数には、mはカテゴリの数ではなく、1は2 / mで、それらを設定することを提案する:en.wikipedia.org/wiki/...を
ワンストップ

2

私はグラフィカルなアプローチを取るでしょう。x軸は平均評価で、y軸は評価の数です。私はこれをスポーツ統計で使用して、若い現象の寄与とベテランの星の寄与を比較していました。ポイントが右上隅に近いほど、理想に近くなります。もちろん、「最良の」アイテムを決定することは依然として主観的な決定ですが、これは何らかの構造を提供します。

別の変数に対して平均評価をプロットする場合は、バブルプロットで、たとえばXLまたはSASのように、バブルサイズを使用して3番目の変数として評価の数を設定できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.