ホームランを打つ際の平均への回帰の測定

11

野球をフォローしている人なら誰でも、トロントのホセバウティスタのどこからともなくMVPタイプのパフォーマンスについて聞いたことがあるでしょう。前の4年間で、彼はシーズンあたり約15のホームランを打った。昨年彼は54を打った、野球の歴史の中でわずか12人の選手を超えた数。

2010年には240万ドルが支払われ、2011年にはチームに1,050万ドルを要求しています。760万ドルを提供しています。彼が2011年にそれを繰り返すことができれば、彼はどちらかの額に値するでしょう。しかし、彼が繰り返す確率は何ですか？私たちは彼が平均に後退することをどれほど難しいと期待できますか？彼のパフォーマンスのうちどれだけが偶然によるものであると期待できますか？彼の平均への回帰調整後の2010年の合計は何になると予想できますか？どうすれば解決できますか？

私はLahman Baseball Databaseをいじくり回しており、シーズンごとに少なくとも50打席があった過去5シーズンのすべてのプレーヤーのホームランの合計を返すクエリを絞り出しました。

テーブルは次のようになります（行10のJose Bautistaに注意）

     first     last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1    Bobby    Abreu      15      16      20      15      20
2   Garret Anderson      17      16      15      13       2
3  Bronson   Arroyo       2       1       1       0       1
4  Garrett   Atkins      29      25      21       9       1
5     Brad   Ausmus       2       3       3       1       0
6     Jeff    Baker       5       4      12       4       4
7      Rod  Barajas      11       4      11      19      17
8     Josh     Bard       9       5       1       6       3
9    Jason Bartlett       2       5       1      14       4
10    Jose Bautista      16      15      15      13      54

完全な結果（232行）はここから入手できます。

どこから始めればいいのか本当にわからない。誰かが私を正しい方向に向けることができますか？いくつかの関連する理論とRコマンドが特に役立ちます。

ありがとうございます

トミー

注：この例は少し不自然です。確かにホームランはプレーヤーの価値を示す最良の指標ではありません。ホームランの合計では、バッターがホームラン（プレートの出現）を打つチャンスがシーズンごとに変動する数は考慮されません。また、一部のプレーヤーがより有利なスタジアムでプレーしていることや、リーグの平均ホームランが毎年変化していることも反映されていません。等等平均への回帰の会計処理の背後にある理論を理解できれば、HRより適切な測定にそれを使用できます。

r regression modeling

— TMOD
ソース

2

野球は多くの米国の統計学者が好む例のソースであるため、Google（/ Scholar）の検索ではいくつかの関連記事が表示されます（例：Morrison and Schmittlein（1981）jstor.org/stable/2630890）。野球とRの両方に詳しい人に質問の回答を任せます。

— ワンストップ2011年

1

また、JC Bradburyと彼のブログ、Sabernomics、sabernomics.com / sabernomicsの作業を確認することをお勧めします。プレーヤーの価値の測定に関する彼の本は、どの特性が将来の生産性を予測するかについて洞察に満ちているでしょう。

— Andy W

2

前述の問題は外れ値の問題に少し似ていますが、外れ値について考える通常の方法ではありません。驚くべき結果（つまり、外れ値）を組み込むには、ヘビーテール（ホセの結果が過去のデータの平均から3標準偏差をはるかに超えている）の「サンプリング分布」が必要になるため、これによりデータの適合性が向上します。予測で説明します。

— 確率

ここに表示されるすべてのより洗練された解説に加えて、大まかな

— rolando2

3

予測に役立つ可能性のあるベイズ収縮または事前補正が確実にあると思いますが、別のタックも検討する必要があるかもしれません...

メジャーでのカップルの後にブレイクアウトシーズンを迎えた過去2、3年だけでなく、歴史の中でプレーヤーを検索し（劇的な増加はおそらく2倍）、翌年の様子を見てください。パフォーマンスを維持する確率が正しい予測子である可能性があります。

この問題を調べるにはさまざまな方法がありますが、mpiktasが言ったように、さらに多くのデータが必要になります。最近のデータを処理したいだけなら、リーグ全体の統計、彼が対戦している投手を見る必要がありますが、それは複雑な問題です。

そして、バウティスタ自身のデータを考慮しているだけです。はい、それは彼の最高の年でしたが、2007年以来350を超えるAB（569）を超えたのも初めてでした。パフォーマンスの増加率を変換することを検討してください。

— ジョン
ソース

3

あなたはできるだけでは、このデータをモデルに適合し、混合（マルチレベル）のモデルを使って、平均に回帰のための予測そのアカウントを取得します。そのようなモデルからの予測は、平均への回帰を説明します。野球についてほとんど何も知らなくても、信じられないほどの結果は得られません。なぜなら、あなたが言うように、モデルはプレートの外観などの他の要因を本当に考慮する必要があるからです。

ホームランの数が重要なので、ポアソン混合効果モデルは線形混合モデルよりも適していると思います。あなたが提供したデータを見ると、ヒストグラムhrは強くポジティブに歪んでいることを示しており、線形混合モデルがうまく機能しないことを示唆しており、最初に対数変換時間の有無にかかわらず、かなりの数のゼロが含まれています。

以下lmerは、lme4パッケージの関数を使用したコードです。各プレーヤーを識別するためのID変数を作成し、彼の回答に示されているmpiktasのようにデータを「長い」形式に再形成しました（Rでのデータ管理は得意ではないので、私はStataでそれを行いましたが、スプレッドシートパッケージ）：

Year.c <- Year - 2008   # centering y eases computation and interpretation
(M1 <- lmer(HR ~ Year.c + (Year.c|ID), data=baseball.long, family=poisson(log), nAGQ=5))

これは、年によってヒット率が指数関数的に依存する対数リンクを備えたモデルに適合します。これは、プレーヤー間で変化することができます。その他のリンク関数も可能ですが、識別リンクは負の近似値が原因でエラーを出しました。sqrtリンクは問題なく動作し、ログリンクを備えたモデルよりもBICおよびAICが低いため、より適切なリンクである可能性があります。2011年のヒット率の予測は、特にヒット率が最近大きく変化しているバウティスタなどのプレーヤーでは、選択したリンク関数に敏感です。

私は実際にそのような予測を実際に得ることができなかったと思いlme4ます。私はStataに詳しいので、結果に欠損値がある観測の予測を非常に簡単に取得できますが、xtmelogitはログ以外のリンク関数の選択肢を提供していないため、バウティスタの予測は50でした。私が言ったように、私はそれがひどく信じられるとは思いません。上記のlmerモデルから2011年の予測を生成する方法を誰かに教えていただければ幸いです。

プレーヤーレベルのエラーに対するAR（1）などの自己回帰モデルも興味深いかもしれませんが、そのような構造をポアソン混合モデルと組み合わせる方法がわかりません。

— ワンストップ
ソース

パッケージの変形から関数メルトを使用して、長い形式に変換すると、Rの1行である、melt（data、id = 1：2）。

— mpiktas 2011年

これに対する興味深い拡張/代替は、サンプリングされたレートパラメータ（1年に1つのレート）を含むPossionサンプリング分布を階層モデルに適合させることですが、（通常または通常の混合ではなく）レートパラメータのコーシーサンプリング分布です。コーシー分布は、極端なイベントの発生を可能にします（大きなレートパラメーターをサンプリングすることにより）。中間のケース（通常とコーシーの間）はt分布です。（Cauchyは、逆CDFメソッドを使用できるため、サンプリングが容易です）。

— 確率論的

2

あなたはホームランについてのデータを持っている期間のプレーヤーとその特性に関する追加のデータが必要です。最初のステップとして、プレーヤーの年齢や経験など、時間とともに変化する特性をいくつか追加します。次に、HLMまたはパネルデータモデルを使用できます。次の形式でデータを準備する必要があります。

    First Last  Year HR Experience Age
1.  Bobby Abreu 2005 15     6      26

最も単純なモデルは次のようになります（関数lmeはパッケージnlmeからのものです）

lme(HR~Experience,random=~Experience|Year,data=your_data)

このモデルは、各プレーヤーのホームラン数がある程度の変動を許容する経験にのみ依存しているという仮定に大きく依存します。それはおそらくあまり正確ではないでしょうが、少なくとも平均的なプレーヤーと比較してホセ・バウティスタの数がどれほどありそうもないことを感じるでしょう。このモデルは、他のプレイヤーの特性を追加することでさらに改善できます。

— mpiktas
ソース

@TMOD がより多くのデータを必要とするとは言いませんが、@ TMOD がより多くのデータを持っている場合、予測はより正確になる可能性があります。質問には、予測を生成するのに十分な情報があります。

— 確率

@probabilityislogic、はい、予測を生成するのに十分な情報がありますが、モデルは切片のみを持ちます。

— mpiktas 2011年

必ずしもそうとは限りませんが、AR（1）またはAR（2）モデルをこのデータに適合させることができます

— 確率論的

@probabilityislogic、ああそうです、あなたは正しいです。

— mpiktas '22年

2

The Book Blogをチェックしてみてください。

Tom Tangoと他の「The Book：Playing the Percentages in Baseball」の他の著者は、おそらくそこに存在するセイバーメトリックスの最高の情報源です。特に、彼らは平均への回帰が大好きです。彼らは、最も基本的な許容可能なシステム（Marcel）になるように設計された予測システムを思い付き、それは平均への回帰にほとんど専ら依存しています。

頭の中で、1つの方法は、そのような予測を使用して真の才能を推定し、その平均才能の周りに適切な分布を見つけることだと思います。それが得られると、各プレートの外観はベルヌーイ裁判のようになるので、二項分布は残りの部分に進むことができます。

— マイケル・マッゴーワン
ソース

1

参考までに、2011年から2014年まで、彼は43、27、28、35をヒットしました。

これは、彼の162ゲームの平均32（もちろんこれらの値を含む）にかなり近く、2010年の54で約1 SDです。

動作中の平均への回帰のように見えます：偶然にグループの平均から逸脱しているノイズの多い対象（この場合は1）を利用して構築された極端なグループ。

http://www.baseball-reference.com/players/b/bautijo02.shtml

— ティム
ソース