分布と効果の大きさを知らない限り、停止ルールを設定することはできません-先験的にはわかりません。
また、はい、エフェクトサイズに焦点を当てる必要があります-そして、p値のみを考慮することは決して正しいとは見なされていません。確かに、エフェクトサイズではなくp値またはF値を示すテーブルやグラフを表示すべきではありません。
従来の統計的仮説推論テストには問題があります(コーエンはその頭字語に値すると言いますが、フィッシャーとピアソンは、今日彼らの激しい反対の名前で行われていることをすべて見たら、墓でひっくり返るでしょう)。
Nを決定するには、ターゲットの有意性と検出力のしきい値を既に決定しているだけでなく、分布に関する多くの仮定を作成する必要があります。特に、確立する効果のサイズも決定する必要があります。これは出発点であるべきであるという点で、哀れみは正しかった-どんな効果の最小効果が費用効果的だろうか!
「新しい統計」では、関連する標準偏差または分散(分布を理解する必要があるため)および標準偏差または信頼区間(後者は既にある)とともに、効果サイズ(必要に応じてペアの差として)を表示することを推奨しています。 p値をロックし、方向を予測するのか、それとも各ウェイベットを予測するのかについての決定)。しかし、科学的予測で指定された符号の最小効果を設定すると、これが明確になります-ただし、科学的な事前のデフォルトは試行錯誤を行い、違いを探すだけです。ただし、この方法を使用する場合は、正常性に関する仮定を再度行います。
別のアプローチは、ボックスプロットをノンパラメトリックアプローチとして使用することですが、ウィスカーや外れ値に関する規則は大きく異なり、それでも分布仮定に基づいています。
停止の問題は実際、個々の研究者が設定する問題でもNを設定しない問題でもありませんが、数千人の研究者からなるコミュニティ全体があり、1000は従来の0.05レベルの1 /アルファをはるかに超えています。答えは現在、要約分析(平均、stddev、stderr-または対応する「ノンパラメトリックバージョン-箱ひげ図のように中央値など」)を提供して、メタ分析を促進し、すべての実験の結果を組み合わせて表示することを提案しています特定のアルファレベルに到達したかどうか。
密接に関連するのは、多重テストの問題です。これは、困難を伴うだけでなく、保存力という名目で実験が単純化しすぎている一方で、結果を分析するために過度に複雑な方法論が提案されています。
私たちが何をしているのかまだほとんどわからないので、私はまだこれを決定的に扱っている教科書の章があるとは思わない...
今のところ、最善のアプローチはおそらく、問題に最も適切な従来の統計を、要約統計の表示と組み合わせて使用し続けることです。効果と標準誤差、およびNが最も重要です。信頼区間の使用は、基本的に対応するT検定と同等ですが、新しい結果を公開されたものとより意味のあるものと比較すること、再現性を促進するエトス、再現された実験とメタ分析の公開を許可します。
情報理論的アプローチまたはベイジアンアプローチの観点では、異なるツールを使用し、異なる仮定を行いますが、すべての答えをまだ持っておらず、最終的には同じ問題、またはより悪い問題に直面しています。回答し、相対的な仮定または不在の事前確率を証明するだけです。
最後の機械学習にも重要性を考慮する必要がある結果があります-多くの場合CIまたはT-Testで、多くの場合グラフで、単に比較するのではなくペアリングし、分布が一致しない場合は適切に補正されたバージョンを使用します また、ブートストラップと相互検証、およびバイアスと分散に関する論争もあります。最悪なことに、多くのツールボックスの1つですべてのアルゴリズムを徹底的にパラメーター化することにより、無数の代替テストを可能にするために考え抜かれてアーカイブされたデータセットに適用するだけで、無数の代替モデルを生成およびテストする傾向があります。最悪の場合、評価のために、正確な方法を使用するか、さらに悪いことにFメジャーを使用する-偶然正しい方法ではなく、まだ暗い時代です。
私はこれらの問題に関する多数の論文を読みましたが、完全に説得力のあるものを見つけることができませんでした。ただし、ほとんどの研究者が「標準「古い、または新しい。パワー、複数のテスト、サイジングと早期停止、標準誤差と信頼区間の解釈など、これらはほんの一部の問題です。
私を撃shootしてください-私は間違っていると証明されたいです!私の見解では、たくさんの風呂水がありますが、まだ赤ちゃんを見つけていません!この段階では、極端な見方や有名ブランドのアプローチはいずれも答えとして有望ではありません。