ペアのブートストラップでp値を計算する


8

私は、バークレーNLPグループからの統計的テストに関する新しい論文「NLP における統計的有意性の実証的調査」に出くわしました。

論文にはp値を計算するための疑似コードがあり、基本的には、のサンプルセットは、データからの置換でサンプリングされます。その後 xバツ1バツ2バツNバツ

p-value=count(δ(xi)>2δ(x))/N、ここではメトリックゲインです。δ(xi)

ケーンの論文「機械翻訳評価のための統計的有意性検定」のp値を計算する式を理解できました。

p-value=count(δa(xi)<δb(xi))/N、ここでとはそれぞれシステムとシステムメトリックゲインです。δをbは Bδaδbab

式のための任意の説明または参照ある。著者は、の平均があり、が対称である場合、上記の両方の式は同等であることにも言及しました。δ X Iδ X δ X Ip-value=カウントδバツ>2δバツ/Nδバツδバツδバツ

回答:


1

セクション2を見てもわかる限り、著者はブートストラップテストの根拠を次のように説明しているようです。

"はからサンプリングされたため、それらの平均は、帰無仮説の要求のようにゼロにはなりません。代わりに、平均は約ます...解は、平均–私たちは、がよりも期待よりも良い頻度を知りたいと思っています。によってを上回ると予想します。したがって、を破っている少なくとも。 "、X δ X Iδ X A δ X のB δ X X I A B δ X バツバツδバツδバツδバツBδバツバツBδバツ

著者はゲインがゼロでないかどうかをテストしたいので、p値をとして書き込みます。これはとして書き直す ことができます。 ; なぜならの不等式の右辺は、次になるである、それらは拒否しようとしました。δバツ<2δバツ0<2δバツδバツE[δバツ]=δバツδバツH0

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.