P(Y | X)の非iidサンプルとP(Y | X)のiidサンプルからの確率的勾配降下法を介してP(Y | X)のモデルをトレーニングできますか?


10

一部のデータセットで確率勾配降下法を介して(たとえば、可能性を最大化するために)パラメーター化されたモデルをトレーニングする場合、トレーニングサンプルはトレーニングデータ分布からiidで描画されると一般に想定されています。したがって、目標が共同分布をモデル化することである場合、各トレーニングサンプルはその分布からiidで描画されます。P(X,Y)(xi,yi)

代わりに条件付き分布をモデル化することが目的である場合、iid要件はどのように変化しますか?P(Y|X)

  1. それでも、共同分布から各サンプル iidを描画する必要がありますか?(xi,yi)
  2. から iid を描画し、次にから iidを描画しますか?xiP(X)yiP(Y|X)
  3. 私たちが描くことができからIIDない(例えば、時間を超える相関)、そして描きからIID?xiP(X)yiP(Y|X)

確率的勾配降下法に対するこれら3つのアプローチの妥当性についてコメントできますか?(または、必要に応じて質問を言い換えてください。)

できれば#3をやりたいです。私のアプリケーションは強化学習であり、パラメーター化された条件付きモデルを制御ポリシーとして使用しています。状態のシーケンスは高度に相関していますが、アクションは、状態を条件とする確率的ポリシーからサンプリングされます。結果のサンプル(またはそれらのサブセット)は、ポリシーのトレーニングに使用されます。(言い換えると、ある環境で制御ポリシーを長時間実行し、状態/アクションサンプルのデータセットを収集することを想像してください。その後、状態が経時的に相関している場合でも、アクションは独立して生成され、状態を条件とします。)これは、このホワイトペーパーの状況と多少似ています。xiyi(xi,yi)

私はRyabko、2006年の「条件付き独立データのパターン認識」という論文を見つけました。ただし、状況は私が必要としているものとは逆になり、(ラベル/カテゴリ/アクション)はからiidではなく描画でき、(オブジェクト/パターン/状態)はからiidで描画されます。yiP(Y)xiP(X|Y)

更新: Ryabko論文で言及された2つの論文(herehere)は、ここで関連性があるようです。彼らは、が任意のプロセス(たとえば、iidではなく、おそらく非定常)からのものであると想定しています。彼らは、この場合、最近傍とカーネル推定量が一致していることを示しています。しかし、私はこの状況で確率的勾配降下に基づく推定が有効であるかどうかにもっと興味があります。xi


1
多分私は何かが足りなくて、私は論文を読んでいませんが、から non-iidを描画し、次にから iidをサンプリングしています。Ryabko(2006)は、から non-iidを描画し、次にから iidをサンプリングしています。これらは、名前を変更するまで同じです。オブジェクトとについて根本的に異なるものがありますか?これは同じ状況ではありませんか?xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal

@Dougal:違いは、条件付きランダムフィールドのような条件付き分布モデルがと(「入力」と「出力」)を異なる方法で処理することです...それらは1方向のみをモデル化します(が)。XYP(Y|X)P(X|Y)
タイラーストリーター

2
この場合、私は次の類推を考えます。仮定と 2つの相関時系列(時間相関)です。関数を見つけたいと思いこれはを見つけることと同じです。場合残差であり、IID(したがって固定及び非相関)を推定手順の収束は、バイアスなしです。基本的に、時系列またはランダム化された順序で時系列を処理することは、条件付き尤度が正しく指定され、残差がIIDである限り、MLEプロシージャでは問題になりません。YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc 2013年

回答:


1

2または3のいずれかを実行できると思います。ただし、3の問題は、Xの任意の分布を許可する際に、確率のすべてまたはほとんどすべてがx空間の小さな間隔である分布を含めることです。これは、Xの特定の値のデータがほとんどまたはまったくないため、P(Y | X)の全体的な推定に悪影響を及ぼします。


それで、アプローチ#3で、私は潜在的に高い分散で公平な結果を得ると言っていますか?
Tyler Streeter 2012

点xまたはその近くにデータがない場合、P(Y | X = x)を推定することもできません。数点しかない場合、推定の分散は大きくなります。11
Michael R.Chernick

はい、それは分散が大きくなる可能性があることを意味します。私の主な懸念は、推定されたP(Y | X)がバイアスされるかどうかです。
タイラーストリーター2012

ポイントの見積もりについては触れませんでした。P(X)、P(Y)、P(X | Y)の公平な推定値があり、それらを式P(Y | X)= P(X | Y)P(Y)/ P(X)に代入する場合偏った見積もりが表示されます。
Michael R. Chernick

確率的勾配降下法によるP(Y | X)の推定について話していることを強調しておきます。この場合、トレーニングサンプルの順序は、どれだけ速く、または正しいモデルに収束するかに影響を与える可能性があります。私はサンプルの平均を使用しているだけではなく、サンプルの順序は重要ではありません。
タイラーストリーター
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.