私はしばらくの間機械学習とバイオインフォマティクスに取り組んできましたが、今日、データマイニングの主な一般的な問題について同僚と会話しました。
私の同僚(機械学習のエキスパート)は、彼の意見では、機械学習の間違いなく最も重要な実用的な側面は、機械学習モデルをトレーニングするのに十分なデータを収集したかどうかを理解する方法だと述べました。
私はこの側面をそれほど重視していなかったので、この発言は私を驚かせました...
その後、インターネットで詳細情報を探したところ、FastML.comのレポートで、この投稿は経験則として、機能の約10倍のデータインスタンスが必要であることがわかりました。
2つの質問:
1-この問題は機械学習に特に関連していますか?
2 - 10倍の作業を支配ですか?このテーマに関連する他のソースはありますか?