モデルのパラメーターを推定する際の条件付き(対数)尤度または結合(対数)尤度の最大化の違いは何ですか?


9

応答yとデータ行列Xについて考えます。フォームのモデルを作成しているとしましょう-

y〜g(X、)θ

(g()はXおよび任意の関数である可能性があります)θ

最尤法(ML)を使用してを推定するために、条件付きML(条件付き密度f(y | X)の形式がわかっていると仮定)または結合ML(結合の形式がわかっていると仮定)密度f(y、X)または同等に、f(X | y)* f(y)θ

密度についての仮定以外に、上記の2つの方法のいずれかを続行する際に考慮事項があるかどうか疑問に思っていました。また、ほとんどの場合、1つのメソッドが他のメソッドを圧倒するインスタンス(特定のタイプのデータ)はありますか?


大量のデータがある場合は、結合密度がより強力だと思います。
user541686 2013

回答:


6

後でモデルをどのように処理するかによって異なります。

ジョイントモデルは、と上の分布全体を予測しようとします。いくつかの便利なプロパティがあります:バツy

  • 外れ値の検出。限界確率が低いため、トレーニングサンプルとは非常に異なるサンプルを識別できます。条件付きモデルは、これを伝えるのに必ずしもうまくいくとは限りません。
  • 時にはそれは最適化する方が簡単です。モデルがガウス混合モデルである場合、たとえば、プラグインできる結合密度にモデルを適合させるための十分に文書化された方法(期待値の最大化、変分ベイ)がありますが、条件付きでトレーニングしたい場合は、さらに複雑になります。
  • モデルによっては、条件付きの独立性を利用してトレーニングを並列化できる可能性があります。また、新しいデータが利用可能になった場合に後で再トレーニングする必要を回避することもできます。たとえば、すべての周辺分布が個別にパラメーター化され、新しいサンプルを観察する場合、再トレーニングする必要がある唯一の周辺分布はです。他の周辺分布は影響を受けません。このプロパティは、条件付きモデルではあまり一般的ではありません。fバツ|yバツ=バツ1y=y1fバツ|y=y1fバツ|y=y2fバツ|y=y
  • 大量のデータがある場合でも、ジョイントモデルには他にもいくつかの優れた特性があることを示した論文を読んだことを思い出しますが、正確な主張を思い出せないか、興味深い論文の大きなフォルダーでそれを見つけることができません。後で見つけた場合は、参照を追加します。

ただし、条件付きモデルには興味深いプロパティもいくつかあります

  • 彼らは本当にうまく働くことができます。
  • 一部の人は、賢明な最適化戦略を見つけるために多くの労力を費やしてきました(例:サポートベクターマシン)
  • 条件付き分布は、ジョイントよりもモデル化するのが非常に簡単です。後者をモデル化するには、前者周辺分布モデル化する必要があります。特定のに対する正確な予測を取得することにのみ関心がある場合は、モデルの能力をこれだけを表すことに集中させる方が賢明です。yバツ

1
答えてくれてありがとう。関連文献へのリンクも提供していただけますか?
ステディフィッシュ2013
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.