評価の信頼区間を見つける方法は?


32

Evan Millerの「平均評価でソートしない方法」では、信頼区間の下限を使用して、評価されたアイテムの実用的な集計「スコア」を取得することを提案しています。ただし、ベルヌーイモデルでは機能しています。評価は「いいね」または「いいね」です。

アイテムの評価の数が少ないと仮定して、離散スコアを星に割り当てる評価モデルに使用する合理的な信頼区間とは何ですか?k1k

私は、ウィルソンとアグレスチ-クール間隔の中心をどのように適応させるかを見ることができると思います

p~=i=1nxi+zα/22p0n+zα/22

ここで、または(おそらくより良い)すべてのアイテムの平均評価です。ただし、間隔の幅を調整する方法がわかりません。私の(改訂された)最高の推測はp0=k+12

p±zα/2n=1nバツp2+zα/2p0p2n

、私は以上のようことを取る、Agresti-Coullのアナロジーとして手振ると正当化することができませんn=n+zα/22

見積もりバツ¯±zα/2n見積もりヴァールバツ

適用される標準的な信頼区間はありますか?(私はジャーナルの購読や大学図書館への簡単なアクセスを持っていないことに注意してください;必ず適切な参考文献を与えてください、しかし実際の結果を補足してください!)


4
現在の返信は(おそらく丁寧さから)この問題を回避しているため、このアプリケーションは信頼限界のひどい乱用であることを指摘したいと思います。平均をランク付けするためにLCLを使用する理論的な正当性はありません(LCLが実際にランク付けのために平均自体よりも悪い理由はたくさんあります)。したがって、この質問はひどく欠陥のあるアプローチに基づいているため、比較的注目を集めていない理由かもしれません。
whuber

2
この特定の質問の優れた機能は、実際の質問を無視し、より重要な根本的な質問と思われるものに焦点を当てるのに十分なコンテキストが含まれていることです。
カール

1
変更されたタイトルを好みに合わせて変更してくれてうれしいです、ピーター。私の元の編集は、利己的なものではなく、タイトルが質問のテキストを反映するように行われました。あなたはあなたが本当に意味することの最終的な調停者です。
whuber

回答:


23

Karl Bromanが答えで言ったように、ベイジアンのアプローチは信頼区間を使用するよりもはるかに良いでしょう。

信頼区間の問題

信頼区間の使用がうまく機能しないのはなぜですか?1つの理由は、アイテムの評価があまりない場合、信頼区間が非常に広くなるため、信頼区間の下限が小さくなるためです。したがって、多くの評価のないアイテムはリストの一番下に表示されます。

ただし、直感的には、多くの評価のないアイテムを平均アイテムの近くにしたいので、アイテムの推定評価をすべてのアイテムの平均評価に合わせて小刻みにしたい(つまり、推定評価を前のアイテムに押し付けたい) 。これはまさにベイジアンアプローチが行うことです。

ベイジアンアプローチI:評価に対する正規分布

カールの答えのように、推定格付けを事前に移動する1つの方法は、の形式の推定を使用することです。wR+1wC

  • は、アイテムの評価の平均です。R
  • は、すべてのアイテムの平均です(または、評価を縮小する前のものは何でも)。C
  • 式は、Cの重み付けされた組み合わせにすぎないことに注意してください。RC
  • Rに割り当てられた重みです。vはビールのレビュー数、mはある種の定数「しきい値」パラメーターです。w=vv+mRvm
  • なお際、我々が現在の項目の評価がたくさんあるとき、すなわち、その後、非常に大きいWは、当社の推定評価は非常に近くにあるので、非常に近い1にあるR、我々は前に少し注意を払うC。ただし、vが小さい場合、wは0に非常に近いため、推定される評価では、以前のCに大きな重みが置かれます。vwRCvwC

実際、この評価は、個々の評価がその平均を中心とする正規分布に由来する場合、アイテムの平均評価の事後評価としてベイジアン解釈を与えることができます。

ただし、評価が正規分布に由来すると仮定すると、2つの問題があります。

  • 正規分布は連続的ですが、評価は離散的です。
  • アイテムの評価は、必ずしも単峰性のガウス形状に従うとは限りません。たとえば、あなたのアイテムは非常に偏光しているため、人々は非常に高い評価を与えるか、非常に低い評価を与える傾向があります。

ベイジアンアプローチII:評価に対する多項分布

p1p2

もちろん、これらの確率が何であるかはわかりません。このアイテムの評価が増えるにつれて、推測できます。p1n1nn1n Drα1αk

αα1=2α2=1α

ααα

次に、実際の評価が入ってきたら、そのカウントをDirichletの仮想カウントに追加するだけです。アイテムの評価を見積もる場合は、アイテムのすべての評価(仮想評価と実際の評価の両方)を単純に平均します。


1
アプローチ2は、アプローチ1と同じように機能しますが、正当化は異なりますか?
ピーターテイラー

2
@ピーター:ああ、本当!あなたがそれに言及するまで気づかなかった=)。(あなたがやりたいのは、事後の平均を取ることである場合、それらは同一です。異なる種類のスコア、例えば、ある種の極性尺度を計算したい場合、ディリクレ事後を持つことは有用かもしれませんまれなことかもしれません。)
raegtin

1
m

15

この状況は、ベイジアンアプローチを求めています。評価のベイジアンランキングのための簡単なアプローチがここにあります(興味深いコメントに特に支払う)、そしてここに、そしてこれらのさらなるコメントはここにあります。これらのリンクの最初のコメントの1つが指摘しているように:

Best of BeerAdvocate(BA)...は、ベイジアン推定を使用しています。

加重ランク(WR)=(v /(v + m))×R +(m /(v + m))×C

ここで、
R =ビールのレビュー平均
v = ビールのレビュー数
m =リストに必要な最小レビュー(現在10)
C =リスト全体の平均(現在2.5)


2
Beer Advocateメソッドの欠点は、ばらつきを考慮していないことです。それにもかかわらず、私はこの考え方を、信頼限界の下限のアイデアよりも好みます。
カール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.