機械学習のコンテキストで「ベースライン」とはどういう意味ですか?


11

機械学習とデータサイエンスのコンテキストで「ベースライン」とはどういう意味ですか?

誰かが私に書いた:

ヒント:適切なベースラインでは、約200のRMSEが得られます。

わかりません。彼は、トレーニングデータの私の予測モデルが500未満のRMSEを持っている場合、それは良いことを意味しますか?

「ベースラインアプローチ」とは何でしょうか。

回答:


15

ベースラインは、非常に基本的なモデル/ソリューションの結果です。通常はベースラインを作成してから、より良い結果を得るために、より複雑なソリューションを作成します。ベースラインよりも良いスコアを達成した場合、それは良いことです。


まあ、でもそれは私の点で正確に何を意味しますか?私の2つの引用
-Meiiso

2
ベースラインは200なので、より良いスコアが必要です。あなたのケースでは、より良いスコアはより低いことを意味します。200を下回る必要があります。私は、回帰を扱っていると想定しています。ベースラインに最初に使用するのは、通常の最小二乗回帰です。
カールRynegardh

8

ベースラインは、ヒューリスティック、単純な要約統計量、ランダム性、または機械学習を使用してデータセットの予測を作成する方法です。これらの予測を使用して、ベースラインのパフォーマンス(精度など)を測定できます。このメトリックは、他の機械学習アルゴリズムと比較するものになります。

さらに詳細に:

機械学習アルゴリズムは、入力(特徴)データとターゲット変数(またはラベル)の間の関係をモデル化する関数を学習しようとします。テストする場合、通常は何らかの方法でパフォーマンスを測定します。たとえば、アルゴリズムは75%正確である場合があります。しかし、これはどういう意味ですか?この意味は、ベースラインのパフォーマンスと比較することで推測できます。

典型的なベースラインには、scikit-learnの「ダミー」推定器によってサポートされているものが含まれます。

分類ベースライン:

  • 「層別」:トレーニングセットのクラス分布を考慮して予測を生成します。
  • 「most_frequency」:トレーニングセット内の最も頻繁なラベルを常に予測します。
  • 「前」:常に前のクラスを最大化するクラスを予測します。
  • 「均一」:ランダムに均一に予測を生成します。
  • 「一定」:ユーザーによって提供される一定のラベルを常に予測します。

これは、非多数派クラスを評価するメトリックスに役立ちます。

回帰ベースライン:

  • 「中央値」:常にトレーニングセットの中央値を予測します
  • 「分位」:常に、分位パラメータを指定して、トレーニングセットの指定された分位を予測します。
  • 「定数」:ユーザーによって提供される定数値を常に予測します。

一般に、選択したベースラインよりも優れたアプローチが必要になります。上記の例では、75%の精度を同じデータで実行したベースラインよりも高くする必要があります。

最後に、機械学習の特定のドメイン(レコメンダーシステムなど)を扱っている場合は、通常、現在の最先端(SoTA)アプローチであるベースラインを選択します。通常、アプローチはこれらよりも優れています。たとえば、新しい協調フィルタリングアルゴリズムを評価するときに、それを行列因数分解と比較したい場合があります。これは、それ自体が学習アルゴリズムですが、レコメンダーシステムの研究で非常に成功しているため、人気のあるベースラインになっています。


0

多くの機械学習アルゴリズムがあるため、どのMLアルゴリズムが問題に最適かを知る必要があります。これは、ベースライン予測アルゴリズムによって識別されます。

ベースライン予測アルゴリズムは、分類精度やRMSEなど、問題の予測と同じように評価できる一連の予測を提供します。

これらのアルゴリズムのスコアは、問題の他のすべての機械学習アルゴリズムを評価するときに必要な比較ポイントを提供します。

詳細については、MLに関する非常に優れたブログをご覧ください。機械学習のコンテキストで「ベースライン」とはどういう意味ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.