一部のデータセットで確率勾配降下法を介して(たとえば、可能性を最大化するために)パラメーター化されたモデルをトレーニングする場合、トレーニングサンプルはトレーニングデータ分布からiidで描画されると一般に想定されています。したがって、目標が共同分布をモデル化することである場合、各トレーニングサンプルはその分布からiidで描画されます。
代わりに条件付き分布をモデル化することが目的である場合、iid要件はどのように変化しますか?
- それでも、共同分布から各サンプル iidを描画する必要がありますか?
- から iid を描画し、次にから iidを描画しますか?
- 私たちが描くことができからIIDない(例えば、時間を超える相関)、そして描きからIID?
確率的勾配降下法に対するこれら3つのアプローチの妥当性についてコメントできますか?(または、必要に応じて質問を言い換えてください。)
できれば#3をやりたいです。私のアプリケーションは強化学習であり、パラメーター化された条件付きモデルを制御ポリシーとして使用しています。状態のシーケンスは高度に相関していますが、アクションは、状態を条件とする確率的ポリシーからサンプリングされます。結果のサンプル(またはそれらのサブセット)は、ポリシーのトレーニングに使用されます。(言い換えると、ある環境で制御ポリシーを長時間実行し、状態/アクションサンプルのデータセットを収集することを想像してください。その後、状態が経時的に相関している場合でも、アクションは独立して生成され、状態を条件とします。)これは、このホワイトペーパーの状況と多少似ています。
私はRyabko、2006年の「条件付き独立データのパターン認識」という論文を見つけました。ただし、状況は私が必要としているものとは逆になり、(ラベル/カテゴリ/アクション)はからiidではなく描画でき、(オブジェクト/パターン/状態)はからiidで描画されます。
更新: Ryabko論文で言及された2つの論文(hereとhere)は、ここで関連性があるようです。彼らは、が任意のプロセス(たとえば、iidではなく、おそらく非定常)からのものであると想定しています。彼らは、この場合、最近傍とカーネル推定量が一致していることを示しています。しかし、私はこの状況で確率的勾配降下に基づく推定が有効であるかどうかにもっと興味があります。