サンプルサイズが等しくない:呼び出すタイミングが終了する


14

私は学術雑誌の記事を査読していますが、著者は推論統計を報告しないことの正当性として次のように書いています(2つのグループの性質を明確にしました)。

合計で、2,349人中25人(1.1%)がXを報告しました。グループXとグループY(他の2,324人の参加者)を統計的に比較する分析を提示することは適切に控えます。これらの結果は偶然によって大きく引き起こされる可能性があるためです。

私の質問は、この研究の著者は、グループの比較に関してタオルを投げ入れることを正当化するのか?そうでない場合、私は彼らに何をお勧めしますか?

回答:


20

統計的検定では、サンプルサイズについての仮定は行いません。もちろん、さまざまなテスト(たとえば、正規性)によって仮定が異なりますが、サンプルサイズの平等はそれらの1つではありません。使用されているテストが他の方法で不適切でない限り(現時点では問題を考えることはできません)、タイプIのエラー率はグループのサイズがまったく等しくないことによる影響を受けません。さらに、彼らのフレージングは​​、彼らがそれを信じていることを(私の心に)暗示しています。したがって、これらの問題について混乱しています。

一方、タイプIIエラー率が非常に多くなります非常に不平等の影響を受けること秒。これは、どのようなテスト(例:検定、Mann-Whitney検定、またはプロポーションの等価性に関する検定がすべてこの方法で影響を受けるか)に関係なく当てはまります。この例については、ここでの私の答えを参照してください:異なるサンプルサイズの平均の比較をどのように解釈する必要がありますか? したがって、彼らはこの問題に関して「タオルを投げるのに正当化される」かもしれません。(具体的には、効果が実際であるかどうかに関係なく、重要でない結果を得ると予想される場合、テストのポイントは何ですか?) ntうんz

サンプルサイズが異なると、統計的検出力は収束します。この事実は、実際に私は少数の人々が今まで聞いたことがあると、おそらくトラブル過去のレビュー(悪気は意図していない)になっています疑いが異なるの提案につながる妥協電力解析を。考え方は比較的単純です。任意のパワー分析では、、、、、および効果サイズが相互に関係して存在します。1つを除くすべてを指定したら、最後に解決できます。一般的に、人々は呼ばれる何先験的電力解析あなたが解決した、ααβn1n2dN(一般的に仮定しています)。一方、、、および修正し、タイプIとタイプIIのエラー率のを指定する場合は、(または同等に)を解くことができます。従来、およびであるため、タイプIエラーはタイプIエラーよりも4倍悪いと言っています。もちろん、特定の研究者はこれに反対するかもしれませんが、特定の比率を指定すると、n1=n2n1n2dαβα=.05β=.20αおそらく適切な電力を維持するために使用する必要があります。このアプローチは、このような状況の研究者にとって論理的に有効なオプションですが、このアプローチの異国情緒は、おそらくそのようなことを聞​​いたことのない大規模な研究コミュニティでは難しい販売になる可能性があることを認めます。


これは非常に役立ちます。また、さまざまなサンプルサイズの平均値の比較どのように解釈する必要があるに対する回答も見つかりましたか?この問題を自分で理解するのに役立ちます。あなたの応答を読んだ後、著者に妥協力分析の可能性を提起し(彼らはそれに精通していないことは安全な賭けのように聞こえます)、おそらく力に関する懸念に関して彼らのコメントでより具体的であることを提案するでしょう。
アーロンデューク14年

2
どういたしまして、@ AaronD。私の意見では、誤解を招く、またはトピックを誤解していることを示唆しているため、フレーズを最小限に変更することを絶対に奨励する必要があります。妥協力分析を試みないだろうと予測しますが、記述統計(平均とSD)と適切な信頼区間を備えた効果サイズを報告することもできます。
GUNG -復活モニカ

6

@gungからの回答は優れていますが、大きく異なるグループサイズを検討する際に考慮すべき重要な問題があると思います。一般に、テストのすべての要件が満たされている限り、グループサイズの違いは重要ではありません。

ただし、場合によっては、異なるグループサイズが、これらの仮定に対する違反に対するテストの堅牢性に劇的な影響を与えることがあります。たとえば、古典的な2標本の対応のないt検定は、分散の均質性を想定しており、両方のグループのサイズが(大きさの順に)似ている場合にのみ違反に対してロバストです。そうしないと、小さなグループでより大きな分散がタイプIエラーにつながります。現在、t検定では、ウェルチt検定が代わりに使用され、分散の均質性を仮定していないため、これはそれほど問題ではありません。ただし、線形モデルでも同様の効果が生じる可能性があります。

要約すると、これは決して統計分析を妨げるものではないと言いますが、どのように進めるかを決定する際には留意する必要があります。


8
ここでの問題の核心は、テストの適用性ではなく、テストの意味と解釈性にあると考えています。質問は「回答者」を指します。これは、ゼロ以外の非応答率の可能性を強く示唆しています。調査規模に比べてわずかな無反応率(1パーセントのごく一部)でさえ、小さなサブグループに比べて非常に大きな無反応率になります。それは、この小さなサブグループの代表性に疑問を投げかけます。その結果、統計分析にとって大きな障害となります。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.