以前に与えられたデータの有効性をテストできますか?


10

問題

情報に基づいた事前データとデータを指定して事後密度を推定するベイズ分析を実行するR関数を書いています。ユーザーが前のものを再検討する必要がある場合、関数が警告を送信することを望みます。

この質問では、事前評価の評価方法に興味があります。以前の質問では、情報に基づいた事前情報を示すメカニズムを説明しました(ここここ。)

次の場合は、事前の再評価が必要になる場合があります。

  • データは、以前のことを述べたときに考慮されなかった極端なケースを表しています
  • データのエラー(たとえば、前のデータがkgであるときにデータがgの単位である場合)
  • コード内のバグのため、利用可能な事前設定のセットから間違った事前設定が選択されました

最初のケースでは、データ値がサポートされていない範囲(たとえば、logNまたはGammaの0未満)にない限り、通常、事前分布は依然として十分拡散しているため、データは一般的に圧倒します。その他のケースはバグまたはエラーです。

ご質問

  1. データを使用して事前評価を行うことの妥当性について何か問題はありますか?
  2. この問題に最適な特定のテストはありますか?

これらは、(赤)または(青)のいずれかの母集団からのものであるため、以前のとの一致が不十分な2つのデータセットです。N 0 5 N 8 0.5 logN(0,1)N(0,5)N(8,0.5)

青色のデータは有効な事前+データの組み合わせである可能性がありますが、赤色のデータは負の値でサポートされる事前分布が必要です。

ここに画像の説明を入力してください

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

回答:


4

「前」という意味を明確にする必要があります。たとえば、英国での平均余命についての私の以前の信念に興味があれば、それは間違いではありません。それは私の信念です!観測されたデータと一致しない場合がありますが、それは完全に別の問題です。

コンテキストも重要です。たとえば、何かの人口に関心があるとします。私の以前は、この量は厳密に負でない必要があると主張しています。ただし、データはエラーで観測されており、負の測定値があります。この場合、事前は無効ではなく、潜在的なプロセスの事前にすぎません。

あなたの質問に答えるために、

  1. データを使用して事前評価を行うことの妥当性について何か問題はありますか?

純粋主義者は、データを2回使用すべきではないと主張するでしょう。しかし、実用的な人は、そもそも以前のことについて十分に考えていなかったことに対抗するだけです。

2この問題に最適な特定のテストはありますか?

これは、検討中のモデルに本当に依存します。最も基本的には、以前の範囲をデータ範囲と比較できると思います。


特に#1への回答に感謝します。テストではそれを考えていましたが、ほとんどの事前分布の範囲はに境界があるため、分位間隔の境界を比較することを考えていました。たとえば、次の場合に警告を送信します。以前の場合または場合:任意のデータが100-10e-log(n)番目の分位数よりも大きい)が、正しいエラーを検出するために数字をいじる必要がある。
David LeBauer、2011年

3

ここに私の2セント:

  1. 比率に関連する事前のパラメータについて心配する必要があると思います。

  2. あなたは有益な事前情報について話しますが、妥当な非情報事前情報が何であるかについてユーザーに警告するべきだと思います。つまり、使用されるスケールによっては、平均が0で分散が100の正規分布は、情報が得られない場合や、情報が得られる場合があります。たとえば、上記の高さ(センチメートル)で賃金を後退させている場合は、かなり参考になります。ただし、高さ(メートル)でログの賃金を後退させる場合、上記の以前の情報はそれほど有益ではありません。

  3. 以前の分析の結果である事前分布を使用している場合、つまり、新しい事前分布が実際には以前の分析の古い事後である場合、状況は異なります。これがケースであることに注意してください。


ポイント1を明確にしていただけませんか?re:ポイント2、OPで述べたように、事前設定の方法に関するこの質問にはあまり興味がありません。ポイント3について:情報に基づいた事前分布の多くは、利用可能なデータの分析(データへの適切な分布の当てはめ)からのものですが、専門家の知識に基づくものもあります(これらは一般に制約が少なくなります)。
デビッドルバウアー

y〜a + b * x / zのようなモデルを当てはめていると仮定します。Zの値に制約がない場合(正または負の可能性がある場合)、bからの信号に何が期待されるかを知ることは困難です。さらに、Zがゼロに近い場合は、bが低すぎるか、または大きすぎる可能性があります。これはあなたの以前の理不尽なことをすることができます。:ゲルマンのブログにこのエントリを参照してくださいstat.columbia.edu/~cook/movabletype/archives/2011/06/...
マノエルGaldino

#3:指摘したように、データを2回使用することに注意してください。たとえば、薄いモデルは階層モデルであり、もう1つは尤度と一致する事前分布を選択することです。後で、私はそのような分析に関心があります。正則化ツールとして、以前のより多くの選択を見る。
Manoel Galdino 2011年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.