別の結果(例:正常性)に基づいて統計的検定を選択する


13

そのため、別の統計テストに基づいて統計テストを選択するのは得策ではないと言われたと聞きました。これは私には奇妙に思えます。たとえば、他のテストで残差が正規分布していないことが示唆された場合、人々はしばしばノンパラメトリックテストを使用することを選択します。このアプローチはかなり広く受け入れられているように見えますが、この段落の最初の文には同意していないようです。私はこの問題について明確にしたいと思っていました。


3
残差がガウスではないからといって、ノンパラメトリックテストが必要になるわけではありません。通常、使用するモデルのタイプ(テストではなくモデル)をデータの性質(カウント、0 1データ、連続、平均分散関係、線形関係または非線形関係など)から識別し、それに応じてモデルを近似できます。データの特徴を満たすために、テストされる仮説が何であるかを事前に決定している。あなたが感じたら、フィットが、あなたはp値およびその他の統計を評価することができます当てはめモデルの仮定を満たしている、
復活モニカ- G.シンプソン

回答:


14

ことを考えるとデータこの極端な場合や、より極端な観測する確率です真であるが、その後の解釈何である生じたことを、テストの選択で作られた偶発的決断があったプロセスを経て到着したされたがその?答えはわからない(または少なくともほとんどわからない)。他の確率的プロセスに基づいてテストを実行するかどうかを決定することにより、結果の解釈がさらに複雑になります。 pH0ppppサンプルサイズと分析計画が事前に完全に選択されている場合、値は最大限に解釈可能です。他の状況では、解釈が難しくなるため、「良いアイデアではない」のです。そうは言っても、広く受け入れられている慣習です...結局のところ、実行する予定のテストが無効であることがわかった場合、なぜテストを実行するのが面倒なのでしょうか?その質問への答えははるかに不確実です。これはすべて、帰無仮説の有意性検定(主要なユースケース)が克服するのが難しいいくつかの問題があるという単純な事実に要約されます。p


おそらく間違った検索語を使用したために、この現象を説明する記事をGoogleで見つけることができませんでした。テストに基づいたテストの問題を議論する記事の方向に誰かが私を指すことができますか?
ロブ・ホール

1
@RobHall:これは、「架空のデータに対する仮想的な問題の重要性」の特定のインスタンスです。Cf. Wagenmakers、2007、p。784. Wagenmakersは、特に2番目の列に「ap値を計算するには、データが異なる場合に何をしたかを知る必要があります...これには、データが明らかに非正規分布していました...、p値は、サンプリング計画が完全に既知であり、事前に指定されていないと計算できません」。
ラッセルピアス

8

たとえば、他のテストで残差が正規分布していないことが示唆された場合、人々はしばしばノンパラメトリックテストを使用することを選択します。このアプローチはかなり広く受け入れられているように見えますが、この段落の最初の文には同意していないようです。私はこの問題について明確にしたいと思っていました。

はい、多くの人がこのようなことを行い、2番目のテストを、分散の等式を拒否した場合に不均一分散性に対処できるテストに変更します。

何かが一般的だからといって、必ずしも賢明だとは限りません。

確かに、いくつかの場所(私は最悪の犯罪分野に名前を付けません)で、他の正式な仮説検定を条件とするこの正式な仮説検定の多くが実際に教えられています。

それを行うことの問題は、あなたの手順が名目上の特性を持っていないこと、時には近くさえないことです。(一方で、潜在的に極端な違反をまったく考慮せずにそのようなことを想定すると、さらに悪化する可能性があります。)

いくつかの論文は、異分散の場合、単に分散をテストするよりも分散が等しくないかのように振る舞い、拒否に対してのみ何かをする方が良いと示唆しています。

正常な場合、それはあまり明確ではありません。少なくとも大きなサンプルでは、​​多くの場合、正規性はそれほど重要ではありません(皮肉なことに、大きなサンプルでは、​​正規性のテストは拒否される可能性がはるかに高くなります)。例外の1つは、予測間隔の場合です。実際には、分布の仮定を正確に近づける必要があります。

一部には、仮説テストが、回答が必要な質問とは異なる質問に回答するという問題があります。「本当にデータが正常か」を知る必要はほとんどありません(ほとんどの場合、アプリオリに正確に正常であるとは限りません)。問題はむしろ「非正規性の程度が私の推測にどれほど悪い影響を与えるか」です。

2番目の問題は、通常、サンプルサイズにほぼ依存しないか、サンプルサイズを増やすと実際に改善されますが、仮説テストでは、ほとんどの場合、サンプルサイズが大きい場合は拒否されます。

通常でも十分に効率的である堅牢な、またはディストリビューションフリーの手順が存在する多くの状況があります(そして、それからいくつかのかなり控えめな出発で潜在的にはるかに効率的です)-多くの場合、同じ慎重なアプローチ。


ニース(+1)異分散ケースについて言及した記事への参照をお願いできますか?
gui11aume

2
私は指摘したくありませんが、私は常にオンラインでそれらに出くわしているので、どれがそれを強調する傾向があるかを把握することは難しくありません(それらは歴史的に仮説テストを強調しているものと同じ傾向があります)確かに、ここでポスターが公式のテストを使用しなけれならないと考える場所で質問を生成する人々の規律は、通常同じものです。それは1つまたは2つの分野だけではありません-私は多くを見る-しかし、いくつかは特に頻繁にそれを行うようです。それが合理的に一般的であるために、私はそれを主張した分野で特によく知られたテキストがあったと仮定することができます。
Glen_b

1
@ gui11aume ここに参考文献があります...それは私が探していたものの1つではありませんが、それは私が得ていたポイントを作ります(予備テストは事態を悪化させる可能性がある)。
Glen_b -Reinstateモニカ

2
Andrew Gelmanは最近、関連するグループ間の不均一性について(少なくともそのようなプロセスに問題がある理由について)関連する投稿をしました。
アンディW

1
しばらくの間バックからこれらの議論に関連した質問:stats.stackexchange.com/questions/305/...
russellpierce

8

主な問題は他の人によって十分に説明されていますが、根底にあるまたは関連するものと混同されています

  1. P値の過レベレンス、統計における最大1種類の証拠。

  2. 統計レポートは必然的に選択肢の組み合わせに基づいており、一部は確実に証拠に基づいており、その他は以前の分析、直観、当て推量、判断、理論などの組み合わせに基づいていることに気が進まない。

私と私の慎重な友人Test Everythingの両方が応答に対数変換を選択したと仮定しますが、Test EverythingはBox-Coxのテストと推定に基づいてログスケールを選択しますが、物理的推論とデータの過去の経験の組み合わせに基づいてその結論にジャンプしますパラメータの。

ここで、両方とも同じ重回帰を使用します。P値には異なる解釈がありますか?ある解釈では、Test EverythingのP値は彼女の以前の推論を条件とします。私も推論を使用しましたが、以前のプロジェクトの以前のグラフ、計算などの長いシリーズに基づいて、ほとんどが非公式でした。それはどのように報告されるのですか?

当然、回帰の結果はTest Everythingと私でまったく同じです。

賢明なアドバイスと疑わしい哲学の同じミックスが、予測子と機能形式の選択に適用されます。たとえば、エコノミストは、以前の理論的な議論を尊重し、データスヌーピングに慎重になるように広く教えられています。しかし、最も弱い例では、関係する理論は、以前に文献で行われた暫定的な提案にすぎず、おそらくいくつかの経験的分析の後です。しかし、多くの著者にとって、手元のデータから学ぶことは疑わしいが、文献の参照は神聖化する。


非常に明確(+1)。
gui11aume

1
+1。ただし、分析のパフォーマンスとTest Everythingの分析のパフォーマンスには長期的な違いがあります。この分析を実行するたびに、文献に書かれた内容に基づいて同じ戦略を使用します(実験ごとに変動しません)。OTOH、データランダムなサンプルであり、Box-Coxテストの出力は研究ごとに変動します。
GUNG -復活モニカ

それは馬鹿げていますが、私の経験も長期的に変わります。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.