実際の機械学習プロダクションシステムはどのように実行されますか?
親愛なる機械学習/ AIコミュニティ、 私は、オープンなオンラインデータセットと、プロジェクト用にローカルで構築されたいくつかのPOCに取り組んできた、新進気鋭の機械学習者です。再トレーニングを回避するために、いくつかのモデルを構築し、ピクルスオブジェクトに変換しました。 そして、この質問はいつも私を困惑させます。実際の本番システムはMLアルゴリズムでどのように機能しますか? たとえば、MLアルゴリズムを数百万のデータでトレーニングし、それを本番システムに移動するか、サーバーでホストしたいとします。現実の世界では、それらは漬物オブジェクトに変換されますか?もしそうなら、それは巨大な漬物ファイルになるでしょう、そうではありません。ローカルでトレーニングし、50000行のデータ自体に変換したものは、そのピクルされたオブジェクトのためにディスク上で300 Mbのスペースを使用しました。私はそうは思わないので、これは正しいアプローチです。 では、MLアルゴリズムが受信データを再トレーニングして予測を開始しないようにするには、どうすればよいでしょうか。また、継続的なオンライン学習者として実際にMLアルゴリズムを作成する方法を教えてください。たとえば、画像分類子を作成し、入力画像の予測を開始しました。しかし、以前にトレーニングしたデータセットに着信オンライン画像を追加して、アルゴリズムを再度トレーニングしたいと思います。すべてのデータについてではなく、毎日、その日に受信したすべてのデータを組み合わせて、以前にトレーニングした分類子が実際の値で予測した新しく100枚の画像で再トレーニングしたい場合があります。そして、この再トレーニングは計算リソースとデータに基づいて時間がかかる可能性があるため、このアプローチは、以前にトレーニングされたアルゴリズムに影響を与えて、着信データの予測を停止するべきではありません。 私は多くの記事をGoogleで読みましたが、上記の質問を見つけたり理解したりできませんでした。そして、これは私を毎日困惑させています。本番システムでも手動による介入が必要ですか?それとも自動化されたアプローチがありますか? 上記の質問へのリードまたは回答は非常に役立ち、高く評価されます。私の質問が意味をなさない、または理解できない場合はお知らせください。 これは私が探しているプロジェクト中心ではありません。実際のプロダクションMLシステムの例の単なる一般的なケース。 前もって感謝します!