Karl Bromanが答えで言ったように、ベイジアンのアプローチは信頼区間を使用するよりもはるかに良いでしょう。
信頼区間の問題
信頼区間の使用がうまく機能しないのはなぜですか?1つの理由は、アイテムの評価があまりない場合、信頼区間が非常に広くなるため、信頼区間の下限が小さくなるためです。したがって、多くの評価のないアイテムはリストの一番下に表示されます。
ただし、直感的には、多くの評価のないアイテムを平均アイテムの近くにしたいので、アイテムの推定評価をすべてのアイテムの平均評価に合わせて小刻みにしたい(つまり、推定評価を前のアイテムに押し付けたい) 。これはまさにベイジアンアプローチが行うことです。
ベイジアンアプローチI:評価に対する正規分布
カールの答えのように、推定格付けを事前に移動する1つの方法は、の形式の推定を使用することです。w ∗ R + (1 − w )∗ C
- は、アイテムの評価の平均です。R
- は、すべてのアイテムの平均です(または、評価を縮小する前のものは何でも)。C
- 式は、とCの重み付けされた組み合わせにすぎないことに注意してください。RC
- はRに割り当てられた重みです。vはビールのレビュー数、mはある種の定数「しきい値」パラメーターです。w = vv + mRvm
- なお際、我々が現在の項目の評価がたくさんあるとき、すなわち、その後、非常に大きいWは、当社の推定評価は非常に近くにあるので、非常に近い1にあるR、我々は前に少し注意を払うC。ただし、vが小さい場合、wは0に非常に近いため、推定される評価では、以前のCに大きな重みが置かれます。vwRCvwC
実際、この評価は、個々の評価がその平均を中心とする正規分布に由来する場合、アイテムの平均評価の事後評価としてベイジアン解釈を与えることができます。
ただし、評価が正規分布に由来すると仮定すると、2つの問題があります。
- 正規分布は連続的ですが、評価は離散的です。
- アイテムの評価は、必ずしも単峰性のガウス形状に従うとは限りません。たとえば、あなたのアイテムは非常に偏光しているため、人々は非常に高い評価を与えるか、非常に低い評価を与える傾向があります。
ベイジアンアプローチII:評価に対する多項分布
p1p2
もちろん、これらの確率が何であるかはわかりません。このアイテムの評価が増えるにつれて、推測できます。p1n1nn1n D i r (α1、… 、αk)
α私私α1= 2α2= 1α私
α私α私私α私
次に、実際の評価が入ってきたら、そのカウントをDirichletの仮想カウントに追加するだけです。アイテムの評価を見積もる場合は、アイテムのすべての評価(仮想評価と実際の評価の両方)を単純に平均します。