私は、バークレーNLPグループからの統計的テストに関する新しい論文「NLP における統計的有意性の実証的調査」に出くわしました。
論文にはp値を計算するための疑似コードがあり、基本的には、のサンプルセットは、データからの置換でサンプリングされます。その後 x
、ここではメトリックゲインです。
ケーンの論文「機械翻訳評価のための統計的有意性検定」のp値を計算する式を理解できました。
、ここでとはそれぞれシステムとシステムメトリックゲインです。δをbは B
式のための任意の説明または参照ある。著者は、の平均があり、が対称である場合、上記の両方の式は同等であることにも言及しました。δ (X I)δ (X )δ (X I