評判に対する投票の影響の分析を改善するにはどうすればよいですか?


15

最近、私はアップボットに対する評判の影響の分析を行い(ブログ投稿を参照)、その後、より啓発的な(またはより適切な)分析とグラフィックスについていくつか質問をしました。

いくつか質問があります(特に特定の人には自由に回答し、他の人は無視してください)。

  1. 現在の化身の中で、私は郵便番号を中央に置くつもりはありませんでした。これは、ポストカウントの下限に向かってより多くのポストがあるため、散布図に負の相関の誤った外観を与えることだと思います(これは、Jon Skeetパネルではなく、定命のユーザーでのみ発生しますパネル)。ポスト番号の平均を中心にしないのは不適切ですか?(ユーザーの平均スコアごとにスコアを中心にしたからです)

  2. グラフから、スコアが非常に右に歪んでいることが明らかであるはずです(そして、平均センタリングはそれを変更しませんでした)。回帰直線をフィッティングするとき、線形モデルと、Huber-White sandwhichエラー(rlmMASS Rパッケージを使用)を使用するモデルの両方にフィッティングしますが、勾配推定値に違いはありませんでした。ロバスト回帰の代わりにデータへの変換を検討すべきでしたか?変換では、0および負のスコアの可能性を考慮する必要があることに注意してください。または、OLSの代わりにカウントデータに他のタイプのモデルを使用する必要がありましたか?

  3. 一般に、最後の2つのグラフィックスは改善できると考えています(また、改善されたモデリング戦略にも関連しています)。私の(うんざりした)意見では、評判の効果が本当かどうかはポスターの歴史のかなり早い段階で実現されるのではないかと疑います(本当なら、これらは再考されるかもしれません。 「合計スコアによる評判」効果の代わりに「投稿」)。オーバープロットを考慮しながら、これが正しいかどうかを示すためにグラフィックを作成するにはどうすればよいですか?これを実証する良い方法は、フォームのモデルに適合することだと思いました。

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

ここで、は(現在の散布図と同じ)、X 1は、Z 1はYscore - (mean score per user)X1post number例えばポスト番号のいくつかの任意の範囲を表すダミー変数(ある Z 1つの等しいポスト番号である場合、 Zポスト番号がなどの場合、 2は等しくなります)。β 0Z1ZkZ111 through 25Z2126 through 50β0及びそれぞれグランドインターセプト及び誤差項です。次に、推定γを調べますϵγ評判の影響がポスターの歴史の早い段階で出現したかどうかを判断する(またはグラフィカルに表示する)スロープ。これは合理的な(そして適切な)アプローチですか?

ある種のノンパラメトリックな平滑化線をこれらのような散布図(黄土やスプラインなど)に適合させることは一般的なようですが、スプラインを使った私の実験では啓発的なものは何も明らかになりませんでした(ポスターの歴史の早い段階でのポスト効果の証拠はわずかで気まぐれでした)私が含めたスプラインの数に)。私は効果が早期に起こるという仮説を持っているので、上記のモデリングアプローチはスプラインよりも合理的ですか?

また、私はこのデータのすべてをdrしましたが、調べるべき他のコミュニティがまだたくさんあります(スーパーユーザーやサーバーフォールトのようなものは同様に大きなサンプルを引き出しています)ので、将来提案するのは十分合理的ですホールドアウトサンプルを使用して関係を調べる分析。


現在、私の最初の質問についていくつかメモをとっていますが、それらはここにあります。現時点では、これを自分の質問への回答として投稿するだけなのか、別の質問を開くべきなのかわかりません(これは主にデータの視覚化に焦点を当てているため)。ただし、ここまたはチャットルームでGoogleドキュメントに関するコメントをお気軽にお寄せください。
アンディW

回答:


14

これは勇敢な試みですが、これらのデータだけでは、「評価が投票に与える影響」に関する研究の質問に答えることは困難または不可能です。問題は、他の現象の影響を分離することにあります。これらの現象を、それらがどのように対処されるかについての簡単な指示とともにリストします。

  • 学習効果。評判が上がると、経験が増えます。経験が上がるにつれて、人がより良い質問と回答を投稿することを期待するでしょう。品質が向上するにつれて、投稿あたりの投票数が増えると予想しています。おそらく、分析でこれを処理する1つの方法は、複数のSEサイトでアクティブな人々を識別することです。どのサイトでも、評判は経験の量よりもゆっくりと増加するため、評判と学習効果を区別するための手段を提供します。

  • コンテキストの一時的な変更。 これらは無数ですが、明らかなものには

    • 全体的な上昇傾向、季節的な傾向(多くの場合、学業サイクルに関連する)、および外れ値(特定のスレッドへのリンクなどの外部の宣伝から生じる)を含む、有権者の数の経時的な変化。 個人の評判の傾向を評価するとき、どんな分析もこれを考慮しなければならないでしょう

    • 時間の経過に伴うコミュニティの慣習の変化。コミュニティ、およびそれらがどのように相互作用し、進化し、発展するか。時間が経つにつれて、彼らは多かれ少なかれ投票する傾向があるかもしれません。 どんな分析でも、この効果を評価し、それを考慮しなければなりません

    • 時間そのもの。 時間が経つにつれて、以前の投稿は引き続き検索に利用でき、引き続き投票を獲得します。したがって、caeteris paribus古い投稿は新しい投稿よりも多くの票を投じるべきです。(これは強力な効果です。毎月のレピュテーションリーグで常に高い人がこのサイトを1年中訪問していません!)これは、実際のポジティブなレピュテーション効果を覆い隠してしまうことさえあります。 分析では、各投稿がサイトに存在する時間の長さを考慮する必要があります

  • 件名の人気。 一部のタグ(たとえば)は、他のタグよりはるかに人気があります。したがって、人が答える質問の種類の変化は、評判効果などの一時的な変化と混同される可能性があります。したがって、分析では、回答される質問の性質を考慮する必要があります。

  • ビュー [編集として追加]。質問は、さまざまな理由(フィルター、リンクなど)のためにさまざまな人数で表示されます。回答者が受け取った投票数は、ビューの数に関連している可能性がありますが、ビューの数が増えるにつれて割合が減少することが予想されます。(質問に真に興味を持っている人が実際の数ではなく、実際にそれを見る人の数の問題です。私の-逸話的な-経験は、私が多くの質問で受け取る賛成票のおよそ半分が最初の5-15ビュー、最終的には質問は数百回表示されます。)したがって、分析では、ビューの数を考慮する必要がありますが、おそらく線形ではありません。

  • 測定の難しさ。 「レピュテーション」とは、さまざまなアクティビティで受け取った投票の合計です:初期レピュテーション、回答、質問、質問の承認、タグWikiの編集、ダウン投票、およびダウン投票(価値の降順)。これらのコンポーネントは異なることを評価し、すべてがコミュニティの投票者の管理下にあるわけではないため、分析のために分離する必要があります。「評判効果」は、おそらく回答と、おそらく質問への賛成票に関連付けられていますが、他の評判のソースには影響しません。 開始時の評判は間違いなく差し引く必要があります(ただし、おそらく最初の経験値のプロキシとして使用できます)。

  • 隠された要因。 測定が不可能な他の多くの交絡要因が存在する可能性があります。たとえば、フォーラムへの参加にはさまざまな形式の「バーンアウト」があります。最初の数週間、数か月、または数年の熱意の後、人々は何をしますか?いくつかの可能性には、まれな質問、珍しい質問、または難しい質問に焦点を当てることが含まれます。未回答の質問に対してのみ回答を提供します。回答は少なくなりますが、質は高くなります。これらの中には評判効果を隠すものもあれば、誤って混乱させるものもあります。 そのような要因の代理は、個人の参加率の変化である可能性があります:それらは、その人の投稿の性質の変化を示す可能性があります。

  • サブコミュニティ現象。 非常に活発なSEページであっても、統計をよく見ると、回答と投票のほとんどを比較的少数の人々が行っていることがわかります。2、3人ほどの小さなクリークは、評判の成長に大きな影響を与える可能性があります。2人のクリークはサイトのビルトインモニターによって検出されますが(このサイトにはそのようなグループが1つ存在します)、より大きなクリークはおそらく検出されません。(私は正式な共謀について話しているのではありません。人々は気付かないうちにそのようなクリークのメンバーになれます) 詳細な投票データは診断に使用できますが、これらのデータにアクセスできるとは思いません。

  • 限られたデータ。レピュテーション効果を検出するには、おそらく(少なくとも)数十から数百の投稿を持つ個人に焦点を合わせる必要があります。これにより、現在の人口は50人未満になります。ばらつきや交絡の可能性がすべてあるため、実際に非常に強い場合を除き、重要な効果を引き出すには小さすぎます。 治療法は、他のSEサイトからのレコードでデータセットを拡張することです

これらすべての複雑さを考えると、ブログ記事の探索的グラフィックスは、明白に明白でない限り、何も明らかにする可能性がほとんどないことを明確にすべきです。予想通り、データは乱雑で複雑です。プロットまたは提示された分析の改善を推奨するのは時期尚早です。インクリメンタルな変更と追加の分析は、これらの基本的な問題に対処するまで役に立ちません


回答ありがとうございます。批判の幅を考えると、コメント内のすべての提案に適切に対処することはできません(別の場所を考えなければなりません。別のGoogleドキュメントを投稿するだけかもしれません)。しかし、今、私は答えることは不可能だとは思わないと言います(誰もがこのような観測データで何かに答えることができる程度まで)。少なくとも、潜在的な交絡の制限を考えると、評判効果が利用可能な証拠と一致しているかどうかを確認できます。
アンディW

@アンディ私は交絡が実質的かつ広範であると思うので、たとえ評判効果がそこにあるように見えても、それアーティファクトである可能性があります:これらの問題に対処しない限り、有効な結論を引き出すことはできません もちろん間違っているかもしれませんが、立証責任はあなたにあります。
whuber

「評判効果があるように見える場合」が重要なステートメントです(私が見ているように)。あなたが提示した交絡の大部分は、ポスターの評判/投稿番号/履歴に曖昧に関連しているか、理論的には後の回答でポスターのスコアを上げると予想されます。評判の影響の証拠が見つからない場合、潜在的な交絡の多くを使用して、その不在を説明することはできません。
アンディW

@Andyしかし、少なくとも1つはできます。それで十分です。これらには、隠された要因、主題の人気、およびコンテキストの時間的変化が含まれます。分析でこれらのすべてを明示的に処理しないと、結論が疑われます。記録を見ると、被験者の人気と時間的な変化が非常に大きいことがわかります。それらの潜在的な影響により、評判の影響が最大で1桁大きくなると合理的に予想されるものが圧倒されます。
whuber

2
@cardinalは、正式な定義がなくても、少数の人々が投票パターンにかなりの影響を与える可能性があります(これはwhuberがこの文脈で言及していることです)。Jon Skeetの平均的な投稿は、わずか5件の賛成票です。突然1人がすべての回答に賛成票を投じると決めた場合、そもそも平均スコアが低いことを考えると、かなり大きな影響を与える可能性があります。
アンディW

5

計量経済学者は、グレンジャーの因果関係の枠組みの中で同様の問題に注目しています。Z tの 2つのシリーズがある場合、ベクトル自己回帰モデルを実行できます。これは、単一のラグを持つ最も単純な形式で、Y t = a 0 + a 1 Y t 1 + a 2 Z t 1 + ϵ tZ t = b 0 + b 1 Y t +YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δt。あなたはそれが言って見れば2が重要である、そして、あなたがいることを主張することができZ(Granger-)が原因とYを約追加情報Zは、のために、モデルの精度向上Yを。ここで、時間tは投稿番号であり、変数は明らかに評判とスコアです。インクリメント取るようなデータとより深刻あいて両方は、非定常であるΔ YのTは =上記式では、ために呼び出されます。あなたは、通常、通常のベース失う可能性があること(注Fまたはχを2a2ZYZYtΔYt=YtYt1の代わりにYtFχ2非定常データと分布、およびトレンド変数と収束速度を、あなたが分析にそれらが含まれている場合であってもよく、またはより速く、よりもむしろ私たちのほとんどが中央極限定理から慣れているT 1 / 2。これらに非常に注意する必要があります。)だから、Y tが答えのスコアであり、Z tが評判であれば、明らか0は平均スコアですT1T1/2YtZta0a1人がより良い答えを書くことを学ぶ方法でありa2は彼らの評判が彼らの言葉に先行する方法です(モデルの仮定が満たされている場合など)

ポイント1:手で固定効果を行っている場合は、応答変数と説明変数の両方を中央に配置する必要があります。パネルデータ回帰パッケージはこれを行いますが、物事を見る公式の計量経済学的方法は、「プールされた」回帰から「中間」回帰を差し引くことです(参照 Wooldridgeのブラックブックを。しかし、私は通常、初版を計量経済学のパネルデータの最高の教科書タイプの説明と見なします。

あなたのポイント2:もちろん、Eicker / White標準エラーはあなたのポイント推定に影響しません。もしそうなら、それは間違った実装を示しているでしょう!時系列のコンテキストでは、さらに適切な推定量はNewey and West(1987)によるものです。変換を試すと役立つ場合があります。私は個人的にBox-Cox変換の大ファンです、しかし、あなたが行っている分析の文脈では、きれいにそれを行うことは困難です。まず、形状パラメーターの上にシフトパラメーターが必要になります。このようなモデルでは、シフトパラメーターを特定するのが難しいことで有名です。第二に、おそらく、異なる人々、および/または異なる投稿、および/または...のために異なるシフト/形状パラメータが必要になります... カウントデータもオプションですが、平均モデリングのコンテキストでは、ポアソン回帰は対数変換と同じくらい優れていますが、分散=平均という扱いにくい仮定を課しています。

PSおそらくこれに「longitudinal-data」と「time-series」のタグを付けることができます。


回答、およびいくつかのコメント/質問に感謝します。このデータで少なくとも明示的な時系列アプローチを検討する必要があったことに同意します(残差に自己相関の証拠があるかどうかを確認することすらしませんでした)。このデータの時系列モデリングでは、さらに複雑な問題がいくつかあります(tとは何ですか?また、スコア自体は動的であり、ポスト番号ごとに固定されていません)。また、Z_tを予測する回帰の必要はありません。の機能です!
アンディW

また、スコアが非定常であると非常に疑っていますが、それは何だと思いますか?
アンディW

少なくとも、それはおそらく異分散である:いくつかの投稿は興味深く、多くのヒットと多くの賛成票を獲得するが、他は小さな説明またはRTFM-「このリンクを読む」タイプの質問/回答である。それ自体は、技術的には非定常になります。もちろん、定常性はテスト可能な仮定ですが、これらのような狂気のデータでは、おそらく分析方法で過度に保守的であるという非常に安全な側になりたいでしょう(または、私が述べたように、結果が変な)。
StasK

私は最後のコメントに少し混乱しています。回答のスコアに影響を与える外因性の要因は、シリーズを異分散(どのようにスコアの分散がポスト番号とともに大きく/小さくなると仮定しますか)、およびこれは手近な質問とどのような関連性がありますか?
アンディW

すべての時点での周辺分布が同じ場合、時系列は定常です。そのため、同じ平均値を持っている場合でも、変化する分散は系列を非定常にします。例としては、2000年代初頭にノーベル賞が与えられた(G)ARCHモデルがあります。しかし、これらのデータでは、平均値にもいくらかの変化が予想されます。Webサイトのオーディエンスが増加した場合、特定の質の回答については、より多くの票が表示される可能性が高くなり、スコアの平均と分散の両方が高くなる可能性があります。
StasK

3

プロットに対する他のいくつかの変更:

  1. 回答スコアと以前の評判の分位帯。(プロット1および3)
  2. Skeet対他の密度プロット、投稿番号で層別化(プロット3)
  3. 競合する投稿数で層別化を検討する
  4. 時間による層別化(質問が行われた後もポイントを獲得し続ける場合があります)

これをモデル化することは難しくなります。ポアソン回帰を検討することもできます。率直に言って、良いプロットを開発することは、洞察とスキルを開発するはるかに良い方法です。データの理解が深まったら、モデリングを開始してください。


(+1)投稿をしばらく放置した後、ポイントの密度を視覚化することは、ポイント自体を視覚化することよりもはるかに優れたソリューションであることに気付きました(ただし、「stratify byポスト #")。また、推定分位数をプロットするのは良い考えのように思えますが、プロット1と2の場合は、大規模なクラウドにある可能性が高いです。繰り返しますが、この文脈での「時間による階層化」の意味もわかりません。BradLarsonのブログ投稿へのコメントと、これに関する私の応答を参照してください。
アンディW

また、競合する投稿が観察された関係に関係していることは非常に疑わしいです。評判が高い人は、歴史の早い段階でより多くの競合する回答をスレッドに投稿すると思いますか?他の共変量を含めることに関するあなたの提案は、モデリングを避けてプロットに焦点を合わせるという提案と矛盾しているようです。
アンディW

競合する投稿の背後にある考え方は、本質的に探索的です。答える動機はそれとは何の関係もありません。モデリングに関しては、それ自体がモデリング自体に反対しているわけではありませんが、データをよりよく理解するまで、あなたはまだそれを行う準備ができていません。データを理解していないと、モデルを理解できません。
イテレーター

投稿番号で層別化することで、投稿をビンに入れることをお勧めします。0-100の投稿、101-200などの間隔スケールにすることもできます。または、分位スケールでは、合計投稿の下部10%タイル、20%タイルなどでユーザーを分割します。非常に多くの記事があり、それは彼のピアグループに彼を比較することが最善ですが、それは持つもののピアグループに彼を比較するのは難しい正確にポストの同じ# -データが役立つことがありビニング。
イテレーター

ところで、層別化には、を使用できますcoplot()
イテレーター

1

おっと。(そして、いい意味で;)

このプロットの中央に非常に独特な曲線の説明はありません:http : //stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

そのような曲線を見ると、それらのポイントには非常に奇妙なものがあると思います-それらは互いに独立しておらず、代わりに同じソースの観測のシーケンスを反映しています。

(軽度の注意:「相関関係...」というプロットのタイトルは誤解を招く。)


5
その曲線は、軸上のスケールの奇妙な選択のために奇妙に見えます。これは、ユーザーの評判の大部分に貢献した返信、つまりワンポストワンダーズを反映しています。y軸は線形で、x軸は対数であるため、指数関数的です。ログレピュテーションに関連するものはすべて無視する必要があります。2というのも、評判が始まる多くのユーザーにとって、ログの評判についてはほとんどすべてを考慮する必要があるからです。3ただのノイズになります。そのため、このグラフィックの99%はそのノイズを表示することに専念しています。そこにはあまり情報がありません。
whuber

その曲線は、評判がアップボットとどのように関連するかという性質によって説明できます。また、1つの回答を投稿し、その唯一の回答からすべての評判を得た人々である可能性があります。現在の評判から最新の投稿からの評判を差し引いてプロットした場合、これは大部分の面倒を見ることになります(また、これらの観察結果はその後の分析とは関係ありません)。誤解を招く相関関係について詳しく説明しますか?
アンディW

@whuber、私は10 ^ 3以下のものは単なるノイズだとは思わないでしょう。評判が存在しない場合にも、評判効果の理論を適用できるはずです。また、提案されたプロットの改善点も歓迎します(どのプロットにもあまり情報はありません!)
アンディW

ありがとう。タイトルについては、相関の計算はありません。これは、限界スコアと評判の単なる散布図です。ただし、あなたと@whuberが言及しているように、実際には限界スコアではありません。deltaRep(またはRep(t)-Rep(t-1))対Rep(t-1)でなければなりません。
イテレーター

1
@Iteratorは、最後のステートメント(1回の投票につき10ポイント)を修正しますが、私が他のステートメントとプロットしていることを混乱させているようです。Y軸は評判ではありませんが、最新の投稿に対する投票数(Rep(t) - Rep(t-1)ユーザーが他の場所から評判を得ることができるとは限りません)、X軸は現在の評判(その投稿から得られた評判を含む)です。X軸は、交換する必要があると提案したものです(Y軸にプロットした問題の回答から得た賛成票を引きます)。
アンディW
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.