StackExchangeの質問に対する「興味深い」機能

StackExchangeサイトのデータマイニングパッケージを作成しようとしています。特に、「最も興味深い」質問を決定しようとしています。質問スコアを使用したいが、ビューの数に起因するバイアスを削除したいが、これに厳密にアプローチする方法がわからない。

理想的な世界では、計算することで質問を並べ替えることができます。ここで、は総投票数、は視聴回数です。結局、質問に賛成票を投じた人の割合から、質問に反対票を投じた人の割合を引いたものを測定します。 $\frac{v}{n}$ $v$ $n$

残念ながら、投票パターンははるかに複雑です。投票は一定のレベルまで「停滞」する傾向があり、これは非常に人気のある質問を大幅に過小評価する効果があります。実際には、1回のビューと1回の賛成票を持つ質問は、確実にスコアが付けられ、10,000回のビューを持つが10,000票未満のその他の質問よりも高くソートされます。

現在、を経験式として使用していますが、正確にしたいと思います。数学的な厳密さでこの問題にどのようにアプローチできますか？ $\frac{v}{\log{n}+1}$

コメントのいくつかに対処するために、より良い方法で問題を再度説明しようとします。

合計票とビューの質問があるとします。ビューが達したときに、合計投票数が最も高いと推定できるものを作成したいと思います。 $v_0$ $n_0$ $v_1$ $n_1$

このようにして、名目値を選択し、予想される合計に従ってすべての質問をことができます。 $n_1$ $v_1$

SOデータダンプで2つのクエリを作成し、私が話している効果をより良く示します。

スコア別平均視聴回数

結果：

スコア別視聴回数

ビュー別の平均スコア（100ビューバケット）

結果：

ビューによるスコア

比較した2つの式

結果ではなく、確か真っ直ぐが優れている場合：（青色で、赤） $\frac{v}{n}$ $\frac{v}{log{n}+1}$

フォーミュラ

data-mining predictive-models

— スクリブフズ
ソース

これは確かに興味深い質問ですが、stats.SEでこれを聞いた方が良いと思います。

@Theo実際は正しいかもしれません。MODが最適であると判断した場合、MODを移行するようフラグを立てます。

なぜビューは面白さに寄与しないのでしょうか？（しかし悪いことは、なぜ彼らはマイナスに寄与するのでしょうか？）もっと面白いものがより頻繁に見られる傾向にある...ここに根本的な問題は何である興味深いでも意味ですか？それは、一般的な関心のある質問またはより特定のより高いレベルの聴衆に関心のある質問を意味しますか？誰かが「数学的な厳密さ」でこの質問に答えるには、最初に厳密に提起する必要があります。

ビューは一つの質問の可能性があるため、質問にバイアスをかける、と言う、良いサイトがリンクであるとビューのトンを受け取る-あなたが見ればトップクラスの質問、彼らはすべての高いビューの質問です。興味深いとは、サイトのユーザーがより多くの価値を持っている質問を意味します。いずれにせよ、問題は依然として存在します：品質の最高の予測因子を得るためにビューと投票を組み合わせる正しい方法は何ですか？

数学の人々は良い質問をしました。この質問の論理は循環しているようです。SEの質問の「品質」を測定する式を求めているようですが、「ユーザーが知覚する値」などの非運用シノニムを与える以外は「品質」の意味を規定していませんサイトの。」あなたは無料で何かを手に入れることはできません！

— whuber

回答:

興味深い質問は、視聴回数を考えて比較的多くの票を獲得したものと定義できます。このために、ビューが与えられた場合の予想投票数を反映するベースライン曲線を作成できます。ベースラインよりも多くの票を集めた曲線は、特に興味深いと見なされました。

ベースラインを構築するには、100ビューのビンあたりの投票数の中央値を計算することができます。また、ビンごとの標準偏差のロバストな尺度として、絶対偏差の中央値（MAD）を計算できます。次に、「面白さ」は次のように計算できます。

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— ジョナス
ソース

これが私の理論です。2種類の質問があると思います。ほとんどがSE内にとどまる質問（通常はビューが少ない）と、他の場所からリンクされているために部外者に表示される質問（通常はビューが多い）です。

ほとんどがSE内に残っている質問については、投票は興味深い質問の良い尺度です。これが投票のポイントです。

質問がサイトの外部にリンクされている場合、投票の意味はなくなります。一部のリンクサイトには非常に少数のSEメンバーしかいない場合がありますが、他のリンクサイトにはそれ以上のメンバーがいる場合があります。これらの質問に対する投票数の分散はおそらく高いでしょう（曲線の右側が咲くスコア対ビュープロットから明らかなように）。これらの質問にはより多くのビューがあり、ビューは興味深い質問のより良い指標になる可能性があります。または、より大きなコミュニティが偶然より興味深いものを見つけたという質問。この状況には多くの変数があり、これらのケースを区別するために、より多くの情報を見つけることを試みる価値があると思います。SEは紹介情報を公開していますか？

— rm999
ソース

SEは紹介情報を公開していますか？私はむしろちょうどupvotes、コメントなどよりポストの閲覧パターンを知るために興味があると思います

— d_a_c321