私はフットボール(サッカー)の大ファンで、機械学習にも興味があります。私のMLコースのプロジェクトとして、ホームチームとアウェイチームの名前から、ホームチームの勝率を予測するモデルを構築しようとしています。(私は自分のデータセットをクエリし、それに応じて、これら2つのチーム間の以前の一致に基づいてデータポイントを作成します)
私はすべてのチームのいくつかのシーズンのデータを持っていますが、アドバイスが必要な次の問題があります。EPL(イングリッシュプレミアリーグ)には20のチームがあり、国内と海外でプレーしています(1シーズンで合計380ゲーム)。したがって、シーズンごとに、どの2つのチームも2度しかプレーしません。
過去10年以上のデータがあるため、2つのチームで2 * 10 = 20データポイントになります。ただし、チームは時間の経過とともにかなり変化し(ManCity、Liverpool)、システムにさらに多くのエラーが発生するだけなので、3年以上はやりたくないと思います。
したがって、これにより、チームの各ペアで約6〜8データポイントになります。ただし、私は両方のチームのフルタイムのゴール、ハーフタイムのゴール、パス、ショット、イエロー、レッドなどの各データポイントにいくつかの機能(最大20+)を持っているので、最近のフォーム、最近のような機能を含めることができますホームフォーム、最近のアウェイフォームなど
ただし、トレーニングするデータポイントが6〜8個しかないという考えは、私には正しくないようです。この問題にどのように対抗できるかについての考えはありますか?(これが最初の問題である場合)