そのため、別の統計テストに基づいて統計テストを選択するのは得策ではないと言われたと聞きました。これは私には奇妙に思えます。たとえば、他のテストで残差が正規分布していないことが示唆された場合、人々はしばしばノンパラメトリックテストを使用することを選択します。このアプローチはかなり広く受け入れられているように見えますが、この段落の最初の文には同意していないようです。私はこの問題について明確にしたいと思っていました。
そのため、別の統計テストに基づいて統計テストを選択するのは得策ではないと言われたと聞きました。これは私には奇妙に思えます。たとえば、他のテストで残差が正規分布していないことが示唆された場合、人々はしばしばノンパラメトリックテストを使用することを選択します。このアプローチはかなり広く受け入れられているように見えますが、この段落の最初の文には同意していないようです。私はこの問題について明確にしたいと思っていました。
回答:
ことを考えるとデータこの極端な場合や、より極端な観測する確率です真であるが、その後の解釈何である生じたことを、テストの選択で作られた偶発的決断があったプロセスを経て到着したされたがその?答えはわからない(または少なくともほとんどわからない)。他の確率的プロセスに基づいてテストを実行するかどうかを決定することにより、結果の解釈がさらに複雑になります。 サンプルサイズと分析計画が事前に完全に選択されている場合、値は最大限に解釈可能です。他の状況では、解釈が難しくなるため、「良いアイデアではない」のです。そうは言っても、広く受け入れられている慣習です...結局のところ、実行する予定のテストが無効であることがわかった場合、なぜテストを実行するのが面倒なのでしょうか?その質問への答えははるかに不確実です。これはすべて、帰無仮説の有意性検定(主要なユースケース)が克服するのが難しいいくつかの問題があるという単純な事実に要約されます。
たとえば、他のテストで残差が正規分布していないことが示唆された場合、人々はしばしばノンパラメトリックテストを使用することを選択します。このアプローチはかなり広く受け入れられているように見えますが、この段落の最初の文には同意していないようです。私はこの問題について明確にしたいと思っていました。
はい、多くの人がこのようなことを行い、2番目のテストを、分散の等式を拒否した場合に不均一分散性に対処できるテストに変更します。
何かが一般的だからといって、必ずしも賢明だとは限りません。
確かに、いくつかの場所(私は最悪の犯罪分野に名前を付けません)で、他の正式な仮説検定を条件とするこの正式な仮説検定の多くが実際に教えられています。
それを行うことの問題は、あなたの手順が名目上の特性を持っていないこと、時には近くさえないことです。(一方で、潜在的に極端な違反をまったく考慮せずにそのようなことを想定すると、さらに悪化する可能性があります。)
いくつかの論文は、異分散の場合、単に分散をテストするよりも分散が等しくないかのように振る舞い、拒否に対してのみ何かをする方が良いと示唆しています。
正常な場合、それはあまり明確ではありません。少なくとも大きなサンプルでは、多くの場合、正規性はそれほど重要ではありません(皮肉なことに、大きなサンプルでは、正規性のテストは拒否される可能性がはるかに高くなります)。例外の1つは、予測間隔の場合です。実際には、分布の仮定を正確に近づける必要があります。
一部には、仮説テストが、回答が必要な質問とは異なる質問に回答するという問題があります。「本当にデータが正常か」を知る必要はほとんどありません(ほとんどの場合、アプリオリに正確に正常であるとは限りません)。問題はむしろ「非正規性の程度が私の推測にどれほど悪い影響を与えるか」です。
2番目の問題は、通常、サンプルサイズにほぼ依存しないか、サンプルサイズを増やすと実際に改善されますが、仮説テストでは、ほとんどの場合、サンプルサイズが大きい場合は拒否されます。
通常でも十分に効率的である堅牢な、またはディストリビューションフリーの手順が存在する多くの状況があります(そして、それからいくつかのかなり控えめな出発で潜在的にはるかに効率的です)-多くの場合、同じ慎重なアプローチ。
主な問題は他の人によって十分に説明されていますが、根底にあるまたは関連するものと混同されています
P値の過レベレンス、統計における最大1種類の証拠。
統計レポートは必然的に選択肢の組み合わせに基づいており、一部は確実に証拠に基づいており、その他は以前の分析、直観、当て推量、判断、理論などの組み合わせに基づいていることに気が進まない。
私と私の慎重な友人Test Everythingの両方が応答に対数変換を選択したと仮定しますが、Test EverythingはBox-Coxのテストと推定に基づいてログスケールを選択しますが、物理的推論とデータの過去の経験の組み合わせに基づいてその結論にジャンプしますパラメータの。
ここで、両方とも同じ重回帰を使用します。P値には異なる解釈がありますか?ある解釈では、Test EverythingのP値は彼女の以前の推論を条件とします。私も推論を使用しましたが、以前のプロジェクトの以前のグラフ、計算などの長いシリーズに基づいて、ほとんどが非公式でした。それはどのように報告されるのですか?
当然、回帰の結果はTest Everythingと私でまったく同じです。
賢明なアドバイスと疑わしい哲学の同じミックスが、予測子と機能形式の選択に適用されます。たとえば、エコノミストは、以前の理論的な議論を尊重し、データスヌーピングに慎重になるように広く教えられています。しかし、最も弱い例では、関係する理論は、以前に文献で行われた暫定的な提案にすぎず、おそらくいくつかの経験的分析の後です。しかし、多くの著者にとって、手元のデータから学ぶことは疑わしいが、文献の参照は神聖化する。