回答:
ベースラインは、非常に基本的なモデル/ソリューションの結果です。通常はベースラインを作成してから、より良い結果を得るために、より複雑なソリューションを作成します。ベースラインよりも良いスコアを達成した場合、それは良いことです。
ベースラインは、ヒューリスティック、単純な要約統計量、ランダム性、または機械学習を使用してデータセットの予測を作成する方法です。これらの予測を使用して、ベースラインのパフォーマンス(精度など)を測定できます。このメトリックは、他の機械学習アルゴリズムと比較するものになります。
さらに詳細に:
機械学習アルゴリズムは、入力(特徴)データとターゲット変数(またはラベル)の間の関係をモデル化する関数を学習しようとします。テストする場合、通常は何らかの方法でパフォーマンスを測定します。たとえば、アルゴリズムは75%正確である場合があります。しかし、これはどういう意味ですか?この意味は、ベースラインのパフォーマンスと比較することで推測できます。
典型的なベースラインには、scikit-learnの「ダミー」推定器によってサポートされているものが含まれます。
分類ベースライン:
これは、非多数派クラスを評価するメトリックスに役立ちます。
回帰ベースライン:
一般に、選択したベースラインよりも優れたアプローチが必要になります。上記の例では、75%の精度を同じデータで実行したベースラインよりも高くする必要があります。
最後に、機械学習の特定のドメイン(レコメンダーシステムなど)を扱っている場合は、通常、現在の最先端(SoTA)アプローチであるベースラインを選択します。通常、アプローチはこれらよりも優れています。たとえば、新しい協調フィルタリングアルゴリズムを評価するときに、それを行列因数分解と比較したい場合があります。これは、それ自体が学習アルゴリズムですが、レコメンダーシステムの研究で非常に成功しているため、人気のあるベースラインになっています。
多くの機械学習アルゴリズムがあるため、どのMLアルゴリズムが問題に最適かを知る必要があります。これは、ベースライン予測アルゴリズムによって識別されます。
ベースライン予測アルゴリズムは、分類精度やRMSEなど、問題の予測と同じように評価できる一連の予測を提供します。
これらのアルゴリズムのスコアは、問題の他のすべての機械学習アルゴリズムを評価するときに必要な比較ポイントを提供します。
詳細については、MLに関する非常に優れたブログをご覧ください。機械学習のコンテキストで「ベースライン」とはどういう意味ですか?