回答:
直感的には、小さなデータセットまたは非常に均一で予測可能なデータセットで高いP / R / F1を取得する方が、大規模またはよりカオスなデータセットで高いP / R / F1を取得するよりもおそらく簡単です。したがって、より大規模でより無秩序なデータセットでのP / R / F1の改善は、より重要です。
この直感に従って、そのセットのサイズと多様性を考慮しながら、結果の分布の違いを測定するには、「ブラックボックス」メソッドの出力にアクセスする必要があるでしょう。P / R / F1だけでは、おそらく情報が少なすぎます。
この設定での有意性テストは、通常、帰無仮説(2つのアルゴリズムは常に同じ出力を生成する)を形成し、アルゴリズムが実際に同じである場合に観察している出力の違いを観察する確率を計算することによって行われます。たとえば、確率が.05未満の場合、帰無仮説を棄却し、改善が有意であると結論付けます。
このペーパーには関連する議論があります:http : //www.aclweb.org/anthology/C00-2137