回答:
統計的検定では、サンプルサイズについての仮定は行いません。もちろん、さまざまなテスト(たとえば、正規性)によって仮定が異なりますが、サンプルサイズの平等はそれらの1つではありません。使用されているテストが他の方法で不適切でない限り(現時点では問題を考えることはできません)、タイプIのエラー率はグループのサイズがまったく等しくないことによる影響を受けません。さらに、彼らのフレージングは、彼らがそれを信じていることを(私の心に)暗示しています。したがって、これらの問題について混乱しています。
一方、タイプIIエラー率が非常に多くなります非常に不平等の影響を受けること秒。これは、どのようなテスト(例:検定、Mann-Whitney検定、またはプロポーションの等価性に関する検定がすべてこの方法で影響を受けるか)に関係なく当てはまります。この例については、ここでの私の答えを参照してください:異なるサンプルサイズの平均の比較をどのように解釈する必要がありますか? したがって、彼らはこの問題に関して「タオルを投げるのに正当化される」かもしれません。(具体的には、効果が実際であるかどうかに関係なく、重要でない結果を得ると予想される場合、テストのポイントは何ですか?)
サンプルサイズが異なると、統計的検出力は収束します。この事実は、実際に私は少数の人々が今まで聞いたことがあると、おそらくトラブル過去のレビュー(悪気は意図していない)になっています疑いが異なるの提案につながる妥協電力解析を。考え方は比較的単純です。任意のパワー分析では、、、、、および効果サイズが相互に関係して存在します。1つを除くすべてを指定したら、最後に解決できます。一般的に、人々は呼ばれる何先験的電力解析あなたが解決した、(一般的に仮定しています)。一方、、、および修正し、タイプIとタイプIIのエラー率の比を指定する場合は、(または同等に)を解くことができます。従来、およびであるため、タイプIエラーはタイプIエラーよりも4倍悪いと言っています。もちろん、特定の研究者はこれに反対するかもしれませんが、特定の比率を指定すると、おそらく適切な電力を維持するために使用する必要があります。このアプローチは、このような状況の研究者にとって論理的に有効なオプションですが、このアプローチの異国情緒は、おそらくそのようなことを聞いたことのない大規模な研究コミュニティでは難しい販売になる可能性があることを認めます。
@gungからの回答は優れていますが、大きく異なるグループサイズを検討する際に考慮すべき重要な問題があると思います。一般に、テストのすべての要件が満たされている限り、グループサイズの違いは重要ではありません。
ただし、場合によっては、異なるグループサイズが、これらの仮定に対する違反に対するテストの堅牢性に劇的な影響を与えることがあります。たとえば、古典的な2標本の対応のないt検定は、分散の均質性を想定しており、両方のグループのサイズが(大きさの順に)似ている場合にのみ違反に対してロバストです。そうしないと、小さなグループでより大きな分散がタイプIエラーにつながります。現在、t検定では、ウェルチt検定が代わりに使用され、分散の均質性を仮定していないため、これはそれほど問題ではありません。ただし、線形モデルでも同様の効果が生じる可能性があります。
要約すると、これは決して統計分析を妨げるものではないと言いますが、どのように進めるかを決定する際には留意する必要があります。