機械学習モデルをトレーニングするのに十分な量のデータはありますか?


11

私はしばらくの間機械学習とバイオインフォマティクスに取り組んできましたが、今日、データマイニングの主な一般的な問題について同僚と会話しました。

私の同僚(機械学習のエキスパート)は、彼の意見では、機械学習の間違いなく最も重要な実用的な側面は、機械学習モデルをトレーニングするのに十分なデータを収集したかどうかを理解する方法だと述べました

私はこの側面をそれほど重視していなかったので、この発言は私を驚かせました...

その後、インターネットで詳細情報を探したところ、FastML.comのレポートで、この投稿は経験則として、機能の10倍のデータインスタンスが必要であることがわかりました。

2つの質問:

1-この問題は機械学習に特に関連していますか?

2 - 10倍の作業を支配ですか?このテーマに関連する他のソースはありますか?


1.はい。2.これは良いベースラインですが、正則化を行うことで回避して、有効な自由度を減らすことができます。これは特にディープラーニングでうまく機能します。3.エラーまたはスコアに対してサンプルサイズの学習曲線をプロットすることにより、問題の状況を診断できます。
Emre

@Emreありがとう!いくつかの論文や読み物を提案してもらえますか?
DavideChicco.it 2017年

これは通常、教科書のクロス検証やその他のモデル検証手法と一緒に扱われます。
Emre、2017年

10倍のルールは、それを達成できればすばらしいですが、一部のビジネス環境では実際的ではありません。機能の数がデータインスタンスよりもはるかに多い多くの状況があります(p >> n)。これらの状況に対処するために特別に設計された機械学習技術があります。
データサイエンス担当者

学習曲線グラフを理解するのに役立つ詳細な説明が必要な場合は、これをチェックしてください:scikit-yb.org/en/latest/api/model_selection/learning_curve.html
shrikanth sing

回答:


6

10倍のルールは私にとっては経験則のように見えますが、十分なトレーニングデータをフィードしないと、機械学習アルゴリズムのパフォーマンスが低下する可能性があるのは事実です。

十分なトレーニングデータがあるかどうかを判断する実用的でデータ主導の方法は、次の例のような学習曲線をプロットすることです。

学習曲線

学習曲線は、トレーニングセットのサイズを大きくするにつれて、トレーニングエラーとテストエラーの変化を表しています。

  • データセットのサイズを大きくすると、トレーニングセットの複雑性/変動性の増加を説明するモデルを適合させることが難しくなるため、トレーニングエラーは増加します。
  • データセットのサイズを大きくすると、モデルはより多くの情報からより一般化できるため、テストエラーは減少します。

プロットの右端にあるように、プロットの2本の線は到達し、漸近する傾向があります。したがって、最終的には、データセットのサイズを増やしてもトレーニング済みモデルに影響を与えないポイントに到達します。

テストエラーとトレーニングエラーの漸近線の間の距離は、モデルの過剰適合を表しています。しかし、より重要なのは、このプロットがより多くのデータが必要かどうかを示していることです。基本的に、トレーニングデータのより大きなサブセットのテストおよびトレーニングエラーを表し、線が漸近線に達していないようであれば、より多くのデータを収集し続ける必要があります。


learning_curve機能では、私は渡す必要がありますX_train, y_train: Only train subsetX, y: the entire dataset
Rookie_123

この曲線は、サンプル数を増やして相互検証を適用した結果として作成されています。したがって、データセット全体が必要です。
Pablo Suau

4
  1. はい、モデルに適合する能力はデータの量に依存するため、問題は確かに関連しています。より重要なのは、予測子の品質に依存します。
  2. 10倍のルールは経験則である可能性があります(他にもたくさんあります)が、実際には機能の予測ユーティリティに依存します。たとえば、虹彩データセットはかなり小さいですが、簡単に解決できます。これは、特徴がターゲットを適切に分離するためです。逆に、1,000万の例があり、機能が弱い場合は適合しない可能性があります。

ありがとう!いくつかの論文や読み物を提案してもらえますか?
DavideChicco.it 2017年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.