サンプルサイズが小さいとタイプ1エラーが発生する可能性がありますか？

サンプルサイズが小さいと電力が不足し、タイプ2エラーが発生する可能性があることを学びました。しかし、小さなサンプルは一般に信頼性が低く、偶然あらゆる結果につながる可能性があると感じています。本当？

hypothesis-testing small-sample

— でも
ソース

不要な数学的表記を嫌うので、タイトルを編集しました。変更しても意味が変わらなかったことを確認してください。

— mpiktas

また、有意性検定（フィッシャー検定）ではなく、仮説検定（Neyman-Pearson検定）についても話し合うようにしてください。これらのアプローチは、2番目のアプローチにエラーの概念がなくても一般に混在しており、異なる種類の結論を導くため、適切な使用法は異なるはずです。

— セブ

漸近検定を使用している場合、はい、可能です。それ以外の場合、いいえ-テストはタイプ1のエラー率（つまり

）を制御するように定義されます。

α

$\alpha$

— マクロ

しかし、それは本当ではありません。コインを2回裏返すと、100回裏返す場合よりも、結果が歪む可能性が高くなります（2つの同じ辺（100％））。 2、1 / 2。これは、サイズが小さいほど、タイプIエラーが発生する可能性が高いことを示していませんか？

回答:

一般的な原則として、テストがタイプIレートを制御するようになっているという単純な理由により、サンプルサイズが小さくてもタイプIエラー率は増加しません。（個別の結果に関連する小さな技術的な例外があり、特に小さなサンプルサイズでは、名目上のタイプIレートが正確に達成されない可能性があります。）

ここに重要な原則があります：テストに許容サイズ（=名目タイプIレート）と探している効果の許容パワーがある場合、サンプルサイズが小さくても問題ありません。

危険なのは、状況についてほとんど知らない場合（おそらくこれらがすべてのデータである場合）、「タイプIII」エラー、つまりモデルの仕様の誤りを心配する可能性があることです。小さいサンプルセットでは確認が難しい場合があります。

アイデアの相互作用の実際的な例として、ストーリーを共有します。ずっと前に、環境のクリーンアップを確認するためにサンプルサイズを推奨するように頼まれました。これは、データを取得する前のクリーンアップ前の段階でした。私の計画では、クリーンアップ中に得られる1000個程度のサンプルを分析し（各場所で十分な土壌が除去されたことを確認するため）、クリーンアップ後の平均値と汚染物質濃度の分散を評価しました。次に（大幅に簡素化するために）、指定された検出力とテストサイズに基づいて、クリーンアップが成功したことを証明するために使用される独立確認サンプルの数を決定するために、教科書の式を使用すると述べました。

これを記憶に残るものにしたのは、クリーンアップが行われた後、フォーミュラは3つのサンプルのみを使用すると言われたことです。突然、私の推薦はあまり信用できませんでした！

必要なサンプルが3つだけである理由は、クリーンアップが積極的でうまく機能したためです。平均汚染物質濃度は、目標の500 ppmを一貫して下回る100 ppmの100 ppmの摂取または摂取に低下しました。

最終的に、このアプローチは機能しました。これは、以前の1000個のサンプル（分析品質が低いにもかかわらず、測定誤差が大きかったにもかかわらず）を取得していたためです。これが、タイプIIIエラーの可能性が処理された方法です。

あなたの検討のためのもう一つのひねり：規制機関がたった3つのサンプルを使用して承認することはないことを知っているので、5つの測定値を取得することをお勧めします。これらは、サイト全体のランダムなサンプル25個で構成され、5つのグループに合成されました。統計的には、最終仮説検定には5つの数値しかありませんが、25個の物理的なサンプル。これは、テストで使用された数と取得方法の間の重要な関係を強調しています。 統計的な意思決定には、数字を使用したアルゴリズムだけではありません！

私の永遠の安心のために、5つの複合値は、クリーンアップの目標が達成されたことを確認しました。

— ウーバー
ソース

（+1）アグレッシブクリーンアップとタイプIIIエラーに関する素晴らしいストーリーは、これが経済的な時系列にも関連する場合に便利です。決定論的モデルまたは低ノイズ比のモデルの場合、サンプルサイズが小さいことは、IMHOが最大の問題となることはありません（非常にノイズの多い独立した大きなサンプルデータの巨大なセットと比較すると、主成分でもこれらは困難です）。

— ドミトリーチェロフ

+1、最初の段落で述べた「個別の結果に関連する技術的な例外」をさらに理解することに興味がある人のために、ここでそれらについて説明します：p値、有意水準、タイプIエラーの比較と対照。

— GUNG -復活モニカ

+1、重要な情報なしで有用なサンプルサイズで野生の刺しをすることができない理由の素晴らしい例。

— フレイアハリソン

小さなサンプルの別の結果は、タイプ2エラーの増加です。

1960年の論文「心理学における統計の場所」では、小さなサンプルは一般に点帰無仮説を棄却できないことを示しました。これらの仮説は、いくつかのパラメータがゼロに等しい仮説であり、考慮される経験では偽であることが知られています。

逆に、p値はサンプルのサイズに依存するため、大きすぎるサンプルはタイプ1エラーを増加させますが、有意性のアルファレベルは固定されています。このようなサンプルのテストでは、常に帰無仮説が拒否されます。この問題の概要については、Johnson and Douglas（1999）による「統計的有意性検定の重要性」を読んでください。

これは質問に対する直接的な答えではありませんが、これらの考慮事項は補完的なものです。

— セブ
ソース

大きなサンプルとタイプIエラーの問題を指摘した+1

— ジョシュ・ヘマン

-1、「サンプルが大きすぎるとタイプ1エラーが増加する」というコメントは誤りです。統計的有意性と実用的有意性を混同している可能性があります。真の効果が正確に0ではなく、あまり重要ではないため、nullの「真」を実用的な目的と見なす状況が存在します。この場合、nullは（たとえば）時間の5％以上拒否され、Nを増やすことでより頻繁に拒否されます。ただし、厳密に言えば、真の効果が正確に0であるという帰無仮説は、規定によりfalseです。したがって、これらの拒否は実際にはタイプIエラーではありません。

— グング-モニカの復職