2つのチーム間の以前の試合の結果のみに基づいて、サッカーの試合の勝者を予測する


8

私はフットボール(サッカー)の大ファンで、機械学習にも興味があります。私のMLコースのプロジェクトとして、ホームチームとアウェイチームの名前から、ホームチームの勝率を予測するモデルを構築しようとしています。(私は自分のデータセットをクエリし、それに応じて、これら2つのチーム間の以前の一致に基づいてデータポイントを作成します)

私はすべてのチームのいくつかのシーズンのデータを持っていますが、アドバイスが必要な次の問題があります。EPL(イングリッシュプレミアリーグ)には20のチームがあり、国内と海外でプレーしています(1シーズンで合計380ゲーム)。したがって、シーズンごとに、どの2つのチームも2度しかプレーしません。

過去10年以上のデータがあるため、2つのチームで2 * 10 = 20データポイントになります。ただし、チームは時間の経過とともにかなり変化し(ManCity、Liverpool)、システムにさらに多くのエラーが発生するだけなので、3年以上はやりたくないと思います。

したがって、これにより、チームの各ペアで約6〜8データポイントになります。ただし、私は両方のチームのフルタイムのゴール、ハーフタイムのゴール、パス、ショット、イエロー、レッドなどの各データポイントにいくつかの機能(最大20+)を持っているので、最近のフォーム、最近のような機能を含めることができますホームフォーム、最近のアウェイフォームなど

ただし、トレーニングするデータポイントが6〜8個しかないという考えは、私には正しくないようです。この問題にどのように対抗できるかについての考えはありますか?(これが最初の問題である場合)


私が読んだ研究に基づくと、ホームフィールドのアドバンテージは私にとってかなり重要なようです(私はエンジニア/エコノミストであり、BVBのファンです)。PKを検討することもできます。長期的な試合結果を平均的に変更することはありませんが(Soccernomicsを参照)、個々の試合に大きな影響を与える可能性があります。
gregmacfarlane 2013

本当にチームの名前だけを使用したい場合は、チェスや他の2人用ゲームで使用されているような評価システムを使用できます。たとえば、[Elo] [1]や[Trueskill] [2]などです。これについては[Kaggleコンテスト] [3]もありました。これらのシステムの1つから始めて、他の共変量を使用してシステムを拡張できます。[1]:en.wikipedia.org/wiki/Elo_rating_system [2]:en.wikipedia.org/wiki/TrueSkill [3]:kaggle.com/c/chess
Flounderer

試合前に知っていると思うのは、以前の結果とランキングだけです。シュート、コーナーなどについての情報はないので、もっともらしくて与えられたフィーチャーを作成する必要があります。
Fierce82

回答:


2

同じ対戦相手との試合に関するいくつかのデータも考慮に入れて、データセットを改善するのはどうですか?

例:

TeamA vs TeamC: 1-0
TeamB vs TeamC: 2-0
=> "infer" the fake outcome: TeamA vs TeamB: 1-2

さらに、私の意見では、この種の日付は、提案したデータよりも優れています。なぜなら、昨年のチームは、多くの場合非常に異なるチームだからです。


素晴らしい提案!Aslan986に感謝..しかし、これは機能リストに貢献すると思います。このデータを「データポイント」として使用する方法がわかりません。それにもかかわらず、私は間違いなくこれを試します。
keithxm23 2013年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.