SEの貢献者の「丸み」を測定する方法は?


12

Stack Exchangeは、ご存知のように、さまざまなトピックを持つQ&Aサイトの集まりです。各サイトが互いに独立していると仮定すると、ユーザーが持っている統計を考慮して、次の人と比較して彼の「丸み」を計算する方法は?使用すべき統計ツールは何ですか?

正直なところ、「ウェルラウンドネス」を数学的に定義する方法はよくわかりませんが、次の特性が必要です。

  1. すべてが同じであるほど、ユーザーの担当者が多いほど、ユーザーはよりバランスのとれたものになります
  2. すべてが同じであれば、ユーザーが参加するサイトの数が増えるほど、ユーザーはよりバランスの取れたものになります。
  3. 回答または質問がウェルネスに影響しないかどうか

まず、SEのコンテキストで「丸み」をどのように定義しますか?
JMは統計家ではありません

@JM、わかりません。だからこそ、コミュニティがコンセプトをもう少し具体化する手助けをしてくれることを願っています。
グラビトン

1
ひどくPCの警官のように聞こえるリスクがある-私たちのサイトを訪問する女性を含めましょう。@Graviton、あなたの言及はすべて男性に関するものです。
rolando2 2011年

ユーザーIDで定義された適切な丸みは、貢献者の SEごとに異なるユーザーIDを持つ可能性があるため、貢献者の適切な丸みについてはわかりません。一部のユーザーIDは、複数の寄稿者(アカウントを共有するパートナーなど)が使用する場合もあります。
Alexis

回答:


7

サイト間の類似性も考慮する必要があります。StackOverflowとに参加誰かベテランのアドバイスは、より多くのSOとに参加する誰かよりよく丸められた(私が主張するだろう)より順番にあるSOとCrossValidatedに参加する誰か、よりよく丸められているプログラマ。間違いなくそれを行う方法はたくさんありますが、重複する登録をチェックして、それを感じ取ることができます。


1
@マットパーカー、良い点-担当者がメトリックの一部である場合、担当者がどのようにして獲得されたかを確認する必要があると思います。多くの質問/回答で小さな利益から代表を獲得した人は、多数の賛成票を獲得した単一の質問で同じ代表を獲得した人よりも、よりよく丸められます。
DQdlM

3
@ケニーそれは良い点であり、あなたがそれを述べた方法は正しいと思います-しかし、私は最も投票された質問と回答の多くが専門知識をほとんど示していないように感じます非常に低い票。
マットパーカー、

1
たとえば、whuberの回答を確認してください。彼の回答は一様に優れているので、彼の高評価の回答と1票の違いは何ですか?前者を見ると、私が理解している質問に対するすばらしい答えが見られます。後者では、私はさえもグロッキーを開始しない質問への素晴らしい答えです。そのため、投票数の少ない回答は、実際には専門性が高いことを示している可能性があります(ただし、適切なSEユーザーの見た目が気になる場合は、これが当てはまります)。
マットパーカー、

1
実際、@ Graviton氏は、多面的であると考えられるマルチサイトユーザーを探し、さまざまなメトリックでのパフォーマンスを確認するのが賢明な場合があります。
マットパーカー、

1
@KennyPeanutsは、上記の@Mattのポイントを補足するために、膨大な数の質問に答えながらも賛成票をほとんど出さないかなりの数のユーザーがSEサイトにいるようです。これは通常、専門知識や完全な丸みを示すものでもありません。(ただし、それはあるガーナー「評判」への最も簡単な戦略の一つ)。
枢機卿、

6

例:3つのサイトがあり、ユーザーA、B、Cの丸みを比較したいとします。3つのサイトにわたるユーザーの評判をベクター形式で書き込みます。

ユーザーA:[23、23、0]

ユーザーB:[15、15、0]

ユーザーC:[10、10、10]

AはBよりもバランスのとれたものと見なします(その評判は両方とも2つのサイトに均等に広がっていますが、Aの評判は全体的に高くなっています)。また、CはBよりもバランスのとれたものと見なします(評判は同じですが、Cはより多くのサイトに分散しています)。 。

xAxBxC

f(x)ff(xA)>f(xB)f(xC)>f(xB)

f(x)

凸関数の2つの一般的な例は、「分数ノルム」です。

f([x1,...,xm])=ixip

0<p<1

p=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

1/2

f

f([x1,...,xm])=ixilog(xi/c).

c=ixi

f

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

スケーリングされたシャノンエントロピーに従って測定された場合、Cは3つのうち最も丸みがあり、Aは2番目に適切な丸めであると言えます。

f(x)

EDIT2:whuberのコメントに照らして例を追加しました。


f

f[1,101]f

x_i <0の場合、フラクショナルノルムは未定義です。x_i/ c≤0の場合、シャノンエントロピーは失敗します。一部のx_iが0から-𝜀に変化したときに、十分な丸みの尺度が突然膨らむことは意味がありません。
200_success 2013年

4

これは本当に興味深い質問です(実際、私は一般的にスタック交換サイトをモデル化するというアイデアにいくらか興味があります)。

丸みの問題については、これを評価する1つの方法は、特定のユーザーが回答する傾向のあるタグと、サイト間での分布を使用することです。例はこれをより明確にするかもしれません。

私はTeX、StackOverflow、CrossValidated、AskUbuntuのメンバーです。今、私は本当にこことStackOverflowにのみ貢献しています。StackoverflowのRについてだけです。そこで、丸みを明確にするために、a)2つのサイトに共通するタグの量(サイト間の類似性を定義するため)と、共通のタグがほとんどないかまったくないサイトでユーザーが質問に回答する程度を調べます。

たとえば、誰かがStackOverflowとcookingでPythonタグに貢献した場合、その人は、Overflowに関する統計ソフトウェアの質問(たとえば)に回答し、ここで統計の質問に回答している誰かよりもより総合的です。

これが多少役立つことを願っています。


4
(+1)SOと料理の両方でPythonタグに貢献している人は、食べ物にエキゾチックな味がします:-)チキンの味がします。
whuber

3

「十分な丸み」を「多くの異なるStack Exchangeサイトへの貢献」として定義した場合、サイトごとの貢献のメトリックを計算します。合計投稿数、1日あたりの平均投稿数、または評判を使用できます。次に、すべてのサイトにわたるこのメトリックの分布を見て、意味のある方法でその歪度を計算します。

言いかえれば、「十分にバランスの取れた」人は多くの異なるサイトに貢献する人であり、「十分にバランスの取れていない」人は主に1つのサイトに貢献する人です。すべてのサイトのユーザーの合計でメトリックをスケーリングすることにより、これをさらに改善できます。つまり、多くの異なるサイトに多くの貢献をした人は、どのサイトにも何も貢献していない人よりも、より総合的なものと見なされるべきです。SEを使用したことがない人はあまり丸みを帯びていません!


1

すでに多くの良い答えがあるので、なぜもう1つ必要なのでしょうか。これは面白いアイデアに注意を引くためにほとんどある議論ここのn-カテゴリーカフェ。生態学の多様性(および他の場所)は、主に豊富さを調べるだけですが、異なる種がどれほど類似/非類似であるかについても検討する必要があります。

種(またはSEサイトのようなもの)を計量空間の点として表すことで、エントロピーを計量空間に一般化しますたとえば、Tom Leinsterによる計量空間の最大エントロピー、Emily Roffを参照してください。タグをメトリック空間のポイントとして見ることにより、SEサイト内で同じアイデアを使用できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.