オフライン学習とオンライン学習のモデル選択


11

私は最近オンライン学習についてもっと学びたいと思っています(それは本当に魅力的です!)、私が十分に理解できていないテーマの1つは、オフラインとオンラインのコンテキストでのモデル選択について考える方法です。具体的には、固定データセット基づいて分類子オフラインでトレーニングするとします。たとえば、相互検証によってそのパフォーマンス特性を推定し、この方法で最適な分類子を選択します。SD

これは私が考えていたものです。それでは、をオンライン設定に適用するにはどうすればよいのでしょうか。オフラインで見つかった最高のがオンライン分類子としてもうまく機能すると想定できますか?をトレーニングするためにいくつかのデータを収集し、同じ分類子を取得し、で見つかった同じパラメーターを使用してオンライン設定で「操作」することは理にかなっていますか?これらの場合の警告は何ですか?ここで重要な結果は何ですか?などなど。SSSSD

とにかく、それがそこにあるので、私が探しているのは、私(そしてうまくいけば、このようなことについて考えていた他の人)がオフラインで考えることから移行するのに役立ついくつかの参照またはリソースです、そして私の読書が進むにつれて、モデル選択の問題とこれらの質問をより首尾一貫した方法で考える精神的枠組みを開発します。


役立つリードはありましたか、または今までに提案することはありますか?ありがとう!
user1953384 2015年

Francescoのペーパー「arxiv.org/pdf/1406.3816v1.pdf」を参考にして、モデルの選択と最適化を1つのショットで共同で行ってください。
chandresh 2015

ペイウォールをバイパスできる場合、これは非常に優れたリファレンスになります:cognet.mit.edu/journal/10.1162/089976601750265045
弟子

回答:


1

明らかに、ストリーミングコンテキストでは、データをトレーニングセットとテストセットに分割して、相互検証を実行することはできません。データの変更とモデルがその変更に適応すると想定しているため、最初の列車セットで計算されたメトリックのみを使用すると、さらに悪いことに聞こえます。そのため、最初からオンライン学習モードを使用しています。

あなたができることは、時系列で使用される種類の交差検証を使用することです(Hyndman and Athanasopoulos、2018を参照)。時系列モデルの精度を評価するには、モデルが観測でトレーニングされ、「未来」の時点で予測する逐次法を使用できます。これは一度に1つまたはバッチで適用でき、すべてのデータをトラバースするまでこの手順が繰り返されます(Hyndman and Athanasopoulos、2018から取得した下の図を参照)。kk+1

最後に、エラーメトリックを何らかの方法で平均して(通常は算術平均ですが、指数平滑法なども使用できます)、全体的な精度の見積もりを取得します。

ここに画像の説明を入力してください

オンラインシナリオでは、これはタイムポイント1から開始してタイムポイント2でテストし、次にタイムポイント2で再トレーニングしてタイムポイント3でテストすることを意味します。

このような相互検証方法論を使用すると、モデルのパフォーマンスの変化する性質を説明できます。明らかに、モデルがデータに適応し、データが変化する可能性があるため、エラーメトリックを定期的に監視する必要があります。それ以外の場合は、固定サイズの列車とテストセットを使用する場合とほとんど変わりません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.