回答:
ささいな答えは、より少ないデータよりも多くのデータが常に優先されるということです。
サンプルサイズが小さいという問題は明らかです。線形回帰(OLS)では、技術的にはn = k + 1であるOLSなどのモデルに適合できますが、非常に大きな標準誤差などのゴミが発生します。このトピックに関するMicronumerocityと呼ばれるArthur Goldbergerによる偉大な論文があり、彼の著書A Course in Econometricsの 23章に要約されています。
一般的なヒューリスティックは、推定するすべてのパラメーターに対して20の観測値を用意する必要があることです。これは常に、標準誤差のサイズ(つまり、有意性テスト)とサンプルのサイズとの間のトレードオフです。これは、膨大なサンプルで信じられないほど小さい(相対)標準誤差が得られ、したがって回帰係数がゼロかどうかなどの単純な検定で無意味な統計的有意性を見つけることができるため、一部の人が有意性検定を嫌う理由の1つです。
サンプルサイズは重要ですが、サンプルの質はより重要です。たとえば、サンプルが母集団に対して一般化可能かどうか、それは単純なランダムサンプルまたは他の適切なサンプリング方法(およびこれは分析中に考慮されます)、測定エラーがありますか? 、応答バイアス、選択バイアスなど
常に十分な大きさである必要があります。;)
すべてのパラメーター推定には、サンプルサイズによって決定される推定不確実性が付属しています。回帰分析を実行する場合、the 2分布が入力データセットから作成されていることを思い出してください。あなたのモデルは5つのパラメータを持っていたあなたは5つのデータポイントを持っていた場合、あなただけのΧの単一のポイントを計算することが可能であろう2分布を。最小化する必要があるため、その1つのポイントを最小値の推定値として選択できますが、推定パラメーターに無限のエラーを割り当てる必要があります。より多くのデータポイントを持つことは、あなたがΧの最小のより良い推定につながるよりよいパラメータ空間をマッピングできるようになる2分布ので、小さい推定エラー。
代わりに最尤推定量を使用しますか?状況は同様です。データポイントが多いほど、最小値の推定が向上します。
ポイント分散については、これもモデル化する必要があります。より多くのデータポイントがあると、「真の」値の周りのポイントのクラスタリングがより明白になり(中央極限定理により)、そのポイントの真の値が下がると大きなチャンスの変動を解釈する危険性があります。そして、他のパラメーターと同様に、ポイント分散の推定値は、データポイントが多いほど安定します。
この点について、2つの経験則を聞いたことがあります。誤差の項に、中心極限定理、たとえば20や30を呼び起こすのに十分な観測がある限り、問題はないと考えられます。もう1つは、推定された勾配ごとに少なくとも20または30の観測値が必要であることを示しています。ターゲット数として20と30を使用することの違いは、中央極限定理を合理的に呼び起こすのに十分な観測がある場合に関するさまざまな考えに基づいています。