親愛なる機械学習/ AIコミュニティ、
私は、オープンなオンラインデータセットと、プロジェクト用にローカルで構築されたいくつかのPOCに取り組んできた、新進気鋭の機械学習者です。再トレーニングを回避するために、いくつかのモデルを構築し、ピクルスオブジェクトに変換しました。
そして、この質問はいつも私を困惑させます。実際の本番システムはMLアルゴリズムでどのように機能しますか?
たとえば、MLアルゴリズムを数百万のデータでトレーニングし、それを本番システムに移動するか、サーバーでホストしたいとします。現実の世界では、それらは漬物オブジェクトに変換されますか?もしそうなら、それは巨大な漬物ファイルになるでしょう、そうではありません。ローカルでトレーニングし、50000行のデータ自体に変換したものは、そのピクルされたオブジェクトのためにディスク上で300 Mbのスペースを使用しました。私はそうは思わないので、これは正しいアプローチです。
では、MLアルゴリズムが受信データを再トレーニングして予測を開始しないようにするには、どうすればよいでしょうか。また、継続的なオンライン学習者として実際にMLアルゴリズムを作成する方法を教えてください。たとえば、画像分類子を作成し、入力画像の予測を開始しました。しかし、以前にトレーニングしたデータセットに着信オンライン画像を追加して、アルゴリズムを再度トレーニングしたいと思います。すべてのデータについてではなく、毎日、その日に受信したすべてのデータを組み合わせて、以前にトレーニングした分類子が実際の値で予測した新しく100枚の画像で再トレーニングしたい場合があります。そして、この再トレーニングは計算リソースとデータに基づいて時間がかかる可能性があるため、このアプローチは、以前にトレーニングされたアルゴリズムに影響を与えて、着信データの予測を停止するべきではありません。
私は多くの記事をGoogleで読みましたが、上記の質問を見つけたり理解したりできませんでした。そして、これは私を毎日困惑させています。本番システムでも手動による介入が必要ですか?それとも自動化されたアプローチがありますか?
上記の質問へのリードまたは回答は非常に役立ち、高く評価されます。私の質問が意味をなさない、または理解できない場合はお知らせください。
これは私が探しているプロジェクト中心ではありません。実際のプロダクションMLシステムの例の単なる一般的なケース。
前もって感謝します!