ここではおそらく相互検証が良いでしょう。これを行うには、データセットを2つの部分に分割します。最初の部分を使用して両方のモデルを近似し、次に近似モデルを使用して2番目の部分を予測します。これは、モデル選択への完全なベイズアプローチの近似として正当化できます。モデルの可能性があるM私
p (d1d2。。。dN|M私私)= p (d1|M私私)× p (d2|d1M私私)× p (d3|d1d2M私私)× 。。
。。× p (dN|d1d2。。。dN− 1M私私)
これは、ヒューリスティックに予測のシーケンスと見なすことができ、その後、間違いから学ぶことができます。トレーニングなしで最初のデータポイントを予測します。次に、最初のデータポイントでモデルについて学習した後、2番目のデータポイントを予測します。次に、最初の2つを使用してモデルについて学習した後、3番目のデータポイントを予測します。これで、十分に大きなデータセットがある場合、モデルのパラメータは、特定の量のデータを超えて適切に決定されます。k:
p (dk + 2|d1。。。。dkdk + 1M私私)≈ P (dk + 2|d1。。。。dkM私私)
モデルはパラメータについてこれ以上「学習」できず、基本的には最初のパラメータに基づいて予測しているだけです k観察。だから私は選びますk (最初のグループのサイズ)モデルに正確にフィットするのに十分な大きさ 20-30パラメータあたりのデータポイントはおそらく十分です。あなたも選びたいk 十分に大きいため、 dk + 1。。。dN 無視されているからといって、この近似が役に立たなくなるわけではありません。
次に、各予測の尤度を評価し、それらの比を尤度比として解釈します。比率が約である場合1、どちらのモデルも他のモデルよりも特に優れています。遠く離れている場合1これは、モデルの1つが他のモデルよりも優れていることを示しています。5未満の比率は弱く、10は強く、20は非常に強く、100は決定的です(小さな数に対応する逆数)。