このような大規模なデータセットがある場合は、統計および機械学習のモデリングテクニックを使用できます。他の人が示唆したように、私はデータから数百万のランダムなサンプルを取り、それで遊ぶこともお勧めします。これは分類の問題であるため、最初に単純な分類手法を使用してから、後でより複雑な分類手法を使用します。ロジスティック回帰は、開始するのに最適です。
生成モデルも試してみる必要があることを付け加えたかった。Naive Bayes分類器は、最も単純な確率的分類器の 1つであり、多くのタスクでサポートベクターマシンのような多くの複雑な方法よりも優れています。あなたは見ることができます。この NBの単純な実装と、このロジスティック回帰へのNBの比較のためにリンク。
単純ベイズ(NB)分類器をベースラインモデルとして構築し、サポートベクターマシン(SVM)や多層パーセプトロン(MLP)などの機械学習手法を使用できます。ここでのトレードオフは、NBがMLPより計算上安価であるため、MLPからのより良いパフォーマンスが望まれることです。
正確なクエリに対応:ディープラーニングと勾配ツリーブースティングは、データ内のあらゆる種類の関係をモデル化できる非常に強力な手法です。しかし、単純なロジスティック回帰またはNBが望ましい精度を与えている場合はどうでしょう。そのため、最初に簡単なテクニックを試し、ベースラインのパフォーマンスを確保することをお勧めします。その後、複雑なモデルを探してベースラインと比較できます。