野球をフォローしている人なら誰でも、トロントのホセバウティスタのどこからともなくMVPタイプのパフォーマンスについて聞いたことがあるでしょう。前の4年間で、彼はシーズンあたり約15のホームランを打った。昨年彼は54を打った、野球の歴史の中でわずか12人の選手を超えた数。
2010年には240万ドルが支払われ、2011年にはチームに1,050万ドルを要求しています。760万ドルを提供しています。彼が2011年にそれを繰り返すことができれば、彼はどちらかの額に値するでしょう。しかし、彼が繰り返す確率は何ですか?私たちは彼が平均に後退することをどれほど難しいと期待できますか?彼のパフォーマンスのうちどれだけが偶然によるものであると期待できますか?彼の平均への回帰調整後の2010年の合計は何になると予想できますか?どうすれば解決できますか?
私はLahman Baseball Databaseをいじくり回しており、シーズンごとに少なくとも50打席があった過去5シーズンのすべてのプレーヤーのホームランの合計を返すクエリを絞り出しました。
テーブルは次のようになります(行10のJose Bautistaに注意)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
どこから始めればいいのか本当にわからない。誰かが私を正しい方向に向けることができますか?いくつかの関連する理論とRコマンドが特に役立ちます。
ありがとうございます
トミー
注:この例は少し不自然です。確かにホームランはプレーヤーの価値を示す最良の指標ではありません。ホームランの合計では、バッターがホームラン(プレートの出現)を打つチャンスがシーズンごとに変動する数は考慮されません。また、一部のプレーヤーがより有利なスタジアムでプレーしていることや、リーグの平均ホームランが毎年変化していることも反映されていません。等等平均への回帰の会計処理の背後にある理論を理解できれば、HRより適切な測定にそれを使用できます。