StackExchangeサイトのデータマイニングパッケージを作成しようとしています。特に、「最も興味深い」質問を決定しようとしています。質問スコアを使用したいが、ビューの数に起因するバイアスを削除したいが、これに厳密にアプローチする方法がわからない。
理想的な世界では、計算することで質問を並べ替えることができます。ここで、は総投票数、は視聴回数です。結局、質問に賛成票を投じた人の割合から、質問に反対票を投じた人の割合を引いたものを測定します。 vn
残念ながら、投票パターンははるかに複雑です。投票は一定のレベルまで「停滞」する傾向があり、これは非常に人気のある質問を大幅に過小評価する効果があります。実際には、1回のビューと1回の賛成票を持つ質問は、確実にスコアが付けられ、10,000回のビューを持つが10,000票未満のその他の質問よりも高くソートされます。
現在、を経験式として使用していますが、正確にしたいと思います。数学的な厳密さでこの問題にどのようにアプローチできますか?
コメントのいくつかに対処するために、より良い方法で問題を再度説明しようとします。
合計票とビューの質問があるとします。ビューが達したときに、合計投票数が最も高いと推定できるものを作成したいと思います。n 0 v 1 n 1
このようにして、名目値を選択し、予想される合計に従ってすべての質問をことができます。v 1
SOデータダンプで2つのクエリを作成し、私が話している効果をより良く示します。
結果:
結果:
結果ではなく、確か真っ直ぐが優れている場合:(青色で、赤) v