StackExchangeの質問に対する「興味深い」機能
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 8年前に移行され ました。 StackExchangeサイトのデータマイニングパッケージを作成しようとしています。特に、「最も興味深い」質問を決定しようとしています。質問スコアを使用したいが、ビューの数に起因するバイアスを削除したいが、これに厳密にアプローチする方法がわからない。 理想的な世界では、計算することで質問を並べ替えることができます。ここで、は総投票数、は視聴回数です。結局、質問に賛成票を投じた人の割合から、質問に反対票を投じた人の割合を引いたものを測定します。 vnvnvn\frac{v}{n}vvvnnn 残念ながら、投票パターンははるかに複雑です。投票は一定のレベルまで「停滞」する傾向があり、これは非常に人気のある質問を大幅に過小評価する効果があります。実際には、1回のビューと1回の賛成票を持つ質問は、確実にスコアが付けられ、10,000回のビューを持つが10,000票未満のその他の質問よりも高くソートされます。 現在、を経験式として使用していますが、正確にしたいと思います。数学的な厳密さでこの問題にどのようにアプローチできますか?vログn +1vlogn+1\frac{v}{\log{n}+1} コメントのいくつかに対処するために、より良い方法で問題を再度説明しようとします。 合計票とビューの質問があるとします。ビューが達したときに、合計投票数が最も高いと推定できるものを作成したいと思います。n 0 v 1 n 1v0v0v_0n0n0n_0v1v1v_1n1n1n_1 このようにして、名目値を選択し、予想される合計に従ってすべての質問をことができます。v 1n1n1n_1v1v1v_1 SOデータダンプで2つのクエリを作成し、私が話している効果をより良く示します。 スコア別平均視聴回数 結果: ビュー別の平均スコア(100ビューバケット) 結果: 比較した2つの式 結果ではなく、確か真っ直ぐが優れている場合:(青色で、赤) vvnvn\frac{v}{n}vL O Gn +1vlogn+1\frac{v}{log{n}+1}