最近、私はアップボットに対する評判の影響の分析を行い(ブログ投稿を参照)、その後、より啓発的な(またはより適切な)分析とグラフィックスについていくつか質問をしました。
いくつか質問があります(特に特定の人には自由に回答し、他の人は無視してください)。
現在の化身の中で、私は郵便番号を中央に置くつもりはありませんでした。これは、ポストカウントの下限に向かってより多くのポストがあるため、散布図に負の相関の誤った外観を与えることだと思います(これは、Jon Skeetパネルではなく、定命のユーザーでのみ発生しますパネル)。ポスト番号の平均を中心にしないのは不適切ですか?(ユーザーの平均スコアごとにスコアを中心にしたからです)
グラフから、スコアが非常に右に歪んでいることが明らかであるはずです(そして、平均センタリングはそれを変更しませんでした)。回帰直線をフィッティングするとき、線形モデルと、Huber-White sandwhichエラー(
rlm
MASS Rパッケージを使用)を使用するモデルの両方にフィッティングしますが、勾配推定値に違いはありませんでした。ロバスト回帰の代わりにデータへの変換を検討すべきでしたか?変換では、0および負のスコアの可能性を考慮する必要があることに注意してください。または、OLSの代わりにカウントデータに他のタイプのモデルを使用する必要がありましたか?一般に、最後の2つのグラフィックスは改善できると考えています(また、改善されたモデリング戦略にも関連しています)。私の(うんざりした)意見では、評判の効果が本当かどうかはポスターの歴史のかなり早い段階で実現されるのではないかと疑います(本当なら、これらは再考されるかもしれません。 「合計スコアによる評判」効果の代わりに「投稿」)。オーバープロットを考慮しながら、これが正しいかどうかを示すためにグラフィックを作成するにはどうすればよいですか?これを実証する良い方法は、フォームのモデルに適合することだと思いました。
ここで、は(現在の散布図と同じ)、X 1は、Z 1はscore - (mean score per user)
post number
例えばポスト番号のいくつかの任意の範囲を表すダミー変数(ある Z 1つの等しいポスト番号である場合、 Zポスト番号がなどの場合、 2は等しくなります)。β 01
1 through 25
1
26 through 50
及びそれぞれグランドインターセプト及び誤差項です。次に、推定γを調べます評判の影響がポスターの歴史の早い段階で出現したかどうかを判断する(またはグラフィカルに表示する)スロープ。これは合理的な(そして適切な)アプローチですか?
ある種のノンパラメトリックな平滑化線をこれらのような散布図(黄土やスプラインなど)に適合させることは一般的なようですが、スプラインを使った私の実験では啓発的なものは何も明らかになりませんでした(ポスターの歴史の早い段階でのポスト効果の証拠はわずかで気まぐれでした)私が含めたスプラインの数に)。私は効果が早期に起こるという仮説を持っているので、上記のモデリングアプローチはスプラインよりも合理的ですか?
また、私はこのデータのすべてをdrしましたが、調べるべき他のコミュニティがまだたくさんあります(スーパーユーザーやサーバーフォールトのようなものは同様に大きなサンプルを引き出しています)ので、将来提案するのは十分合理的ですホールドアウトサンプルを使用して関係を調べる分析。